Ero sivun ”UTF-8” versioiden välillä

Linux.fista
Siirry navigaatioon Siirry hakuun
pEi muokkausyhteenvetoa
(Linkki wikipediaan löytyy perustietoa-mallineesta)
 
(63 välissä olevaa versiota 16 käyttäjän tekeminä ei näytetä)
Rivi 1: Rivi 1:
{{perustietoa}}
{{perustietoa}}
[[wikipedia:fi:UTF-8||UTF-8 Wikipediassa]]
'''UTF-8''' on Linuxissa ja yleisesti tietoliikenteessä käytetty Unicode-merkistön koodaustapa. Lisätietoja Unicode-merkistöstä ja UTF-8-merkistökoodauksesta löytyy artikkelista [[Unicode]].


<!--
Tämä lyhyt artikkeli on olemassa siksi, että saadaan yleisesti käytetty termi UTF-8 näkymään erinäisissä luokissa. Varsinainen asia on kuitenkin Unicode-sivulla.
-->


'''Unicode''' on standardi, joka pyrkii määrittelemään kaikille maailman merkeille omat merkkikoodinsa (UCS). Tarkoituksena on korvata tähän saakka käytössä olleet keskenään kilpailevat merkistöt ja koodisivut, joista kukin on voinut esittää vain osan tarvittavista merkeistä. Esimerkiksi suosittu IRC-client mIRC käyttää suomalaisilla koneilla merkistöä Microsoft CP1252, kun suurin osa Linux-koneista puolestaan käyttää merkistöä ISO-8859-1 (Latin-1) ja Finnish-HOWTO:n mukaan säädetyt Linux-koneet puolestaan merkistöä ISO-8859-15. Merkistöissä on yhteneväisyyksiä ja esim. tavalliset ääkköset ovat kaikissa samoilla merkkikoodeilla, mutta jo euromerkki näkyy eri merkistöillä eri tavoilla. Unicode ratkaisee ongelman ottamalla käyttöön 21-bittisen merkkiavaruuden, johon mahtuu siis peräti kaksi miljoonaa merkkiä, joista usean merkin yhdistelmillä saadaan vielä lisää. Tämän katsotaan riittävän ikuisesti.
[[Luokka:Käsitteet]]
 
Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on unix-puolella (Linux) tärkein Unicode-koodaustapa ja se on jo muutamissa distroissa vakiona käytössä. Tässä yksi merkki on kooltaan 1-6 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot, yms, mutta ei esim. ääkköset) ovat sellaisinaan ja näin saavutetaan ASCII-yhteensopivuus.
 
Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän että eikö kannattaisi samantien siirtyä käyttämään UTF-32:a, jotta merkit eivät loppuisi kesken. Näin ei käy, vaan kaikilla koodaustavoilla, lukuun ottamatta UCS-2:a, voidaan esittää kaikki kaksi miljoonaa saatavilla olevaa koodia. UCS-2 kykenee vain ensimmäisten 65 tuhannen koodin esittämiseen.
 
== IRC ==
 
Nykyisin suomalaisilla IRC-kanavilla käytetään enimmäkseen vanhoja 8-bittisiä merkistöjä, joilla esiintyy edellä kuvattuja ongelmia. Tästä syystä siirros UTF-8:n käyttöön on pikkuhiljaa tapahtumassa, mutta sitä luonnollisesti hidastaa se, että monet clientit eivät tue ko. merkistöä lainkaan ilman erillisiä scriptejä ja toisaalta se että vain muutama client saadaan tukemaan vanhaa 8-bittistä ja UTF-8:a samaan aikaan, siten että muiden kirjoittamat tekstit näkyisivät oikein riippumatta siitä kumpaa käytetään. Tilanne onneksi kuitenkin paranee kaiken aikaa ja on selvää että UTF-8:n käyttöön tullaan tulevaisuudessa siirtymään kokonaan. Siirros ei kuitenkaan missään tapauksessa tule tapahtumaan yhden yön aikana, joten olisi toivottavaa että mahdollisimman monista clienteistä löytyisi sekakäytön mahdollistava merkistön autodetectointi. Täytyy tosin mainita että useilla kanavilla on saanut merkittävää kannatusta merkistönvaihtopäiväksi valittu päivämäärä 1.1.2006, eli siis vuoden vaihteen jälkeen olisi kaikkien asioista perillä olevien erittäin suotavaa alkaa kirjoittaa vain UTF-8:a kaikille kanaville. Tällä mahdollistetaan mahdollisimman nopea ja helppo siirtymä niillekin, joilla ei autodetectointia clientissään ole.
 
Alla on lueteltu tärkeimpien IRC-ohjelmien UTF-8-yhteensopivuus.
 
=== ChatZilla ===
 
Merkistö valittavissa valikosta, ei autodetectointia.
 
=== Irssi 0.8.10rc4 ja vanhemmat ===
 
Ei lainkaan sisäänrakennettua merkistömuunnostukea. /set term_type utf8 tai /set term_type 8bit asetettava terminaalin tyypin mukaisesti. Jos asetus on väärin, ei esim. alhaalla oleva kirjoitusrivi toimi oikein. Merkistömuunnostuen saa scripteillä recode.pl ja recode_ion.pl tai pluginilla charconv. Älä asenna useampaa samanaikaisesti, yksi riittää.
 
=== Irssi 0.8.10rc5 ja rc6 ===
 
Kehitysasteella oleva sisäinen recode-toiminto, jonka toimivuus ja ominaisuudet vaihtelevat eri versioissa. Tärkeimmät asetukset ovat /set term_charset <merkistö> (asettaa terminaalin käyttämän merkistön) ja /recode add <merkistö> (asettaa aktiivisessa ikkunassa käytettävän merkistön). Merkistöksi voi laittaa esim. "ISO-8859-1" tai "UTF-8". Älä käytä vanhempien versioiden recode/charconv-virityksiä tämän kanssa.
 
=== Irssi 0.8.10rc7 ===
 
Suoraan toimiva sisäinen recode-toiminto. Ei normaalisti vaadi mitään säätöjä.
 
=== KVIrc ===
 
IRC-client Qt/KDE:lle. Tukee suoraan autodetectointia. Alakulmaan tulee kiinalainen kirjoitusmerkki, jota painamalla saa toiminnon päälle.
 
=== mIRC ===
 
Tämä ei ole Linux-ohjelma, mutta kavereillasi sitä varmasti on käytössä ja he eivät pidä siitä kun kirjoitat UTF-8:a. Tarjoa heille siis tätä scriptiä [http://mjr.iki.fi/software/mirc-utf8-conservative.zip], jonka avulla he näkevät kaikkien muiden tekstit oikein (autodetectointi) ja heidän kirjoittamansa teksti puolestaan näkyy muille kuten ennenkin.
 
Ohjelma keskustelee Windowsin kanssa silti jollain 8-bittisellä, joten erikoisemmat merkit eivät toimi. mIRCin tekijä on vuosia sitten luvannut korjata ongelman, mutta korjausta ei kuitenkaan ole kuulunut. Windowsille on muutenkin parempia ja ilmaisia clientejä, joten vaihtamista kannattaa harkita vakavasti.
 
=== Wireless IRC ===
 
Ei tue autodetectointia, mutta asetuksista voi määritellä merkistöksi UTF-8:n.
 
=== X-Chat ===
 
Verkkokohtainen merkistön valinta asetuksista. Autodetectointi vain silloin kun käytössä on UTF-8.
 
X-Chatin sivustolta löytyy myös python-scripti (lamechan.py), jolla voi kanavakohtaisesti valita käytetäänkö UTF-8:aa vai jotain toista merkistöä.
 
== Linkkejä ==
 
* Virallinen merkistönvaihtopäivä ja tarkat ohjeet clientien säätämiseen [http://wiki.tukaani.org/irc_ja_utf-8 Tukaanin Wikissä]
 
 
[[Luokka:Verkko]]

Nykyinen versio 21. elokuuta 2015 kello 15.29

Linux.fi-wikissä artikkelit käsittelevät yleensä aihettaan siltä osin, kuin se koskee Linuxia ja avoimia/vapaita ohjelmistoja. Yleisluontoisemman artikkelin tästä aiheesta löydät tietosanakirja Wikipediasta.

UTF-8 on Linuxissa ja yleisesti tietoliikenteessä käytetty Unicode-merkistön koodaustapa. Lisätietoja Unicode-merkistöstä ja UTF-8-merkistökoodauksesta löytyy artikkelista Unicode.