Ero sivun ”Unicode” versioiden välillä

Siirry navigaatioon Siirry hakuun
39 merkkiä lisätty ,  28. huhtikuuta 2007
ei muokkausyhteenvetoa
pEi muokkausyhteenvetoa
Ei muokkausyhteenvetoa
Rivi 1: Rivi 1:
{{perustietoa}}
{{perustietoa}}
[[wikipedia:fi:Unicode|Unicode Wikipediassa]]
[[wikipedia:fi:Unicode|Unicode Wikipediassa]]
== Esittely ==


'''Unicode''' on standardi, joka muun muassa määrittelee useimmille maailman kirjoitusmerkeille omat merkkikoodinsa. Standardin tarkoituksena on korvata tähän saakka käytössä olleet hyvin erilaiset ja keskenään huonosti yhteensopivat merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että niiden merkkivalikoima on hyvin rajallinen, esimerkiksi 256 merkkiä. Se yleensä tarkoittaa, että samalla merkistöllä ei voida esittää useita kovin erilaisia kieliä. Esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Tämä ei kenties häiritse yksittäistä tietokoneenkäyttäjää, mutta sitä mukaa, kun kansainvälinen tietoliikenne on lisääntynyt, on myös lisääntynyt tarve luoda kaikille yhteinen standardi kirjoitusmerkkien esittämiseksi.
'''Unicode''' on standardi, joka muun muassa määrittelee useimmille maailman kirjoitusmerkeille omat merkkikoodinsa. Standardin tarkoituksena on korvata tähän saakka käytössä olleet hyvin erilaiset ja keskenään huonosti yhteensopivat merkistöt. Suomessa on Linux-koneissa käytetty enimmäkseen ISO-8859-15-merkistöä. Vanhojen merkistöjen ongelma on, että niiden merkkivalikoima on hyvin rajallinen, esimerkiksi 256 merkkiä. Se yleensä tarkoittaa, että samalla merkistöllä ei voida esittää useita kovin erilaisia kieliä. Esimerkiksi sama tekstitiedosto tai sähköpostiviesti ei voi sisältää tekstiä kuin niillä kielillä, joita kyseisellä merkistöllä voidaan esittää. Tämä ei kenties häiritse yksittäistä tietokoneenkäyttäjää, mutta sitä mukaa, kun kansainvälinen tietoliikenne on lisääntynyt, on myös lisääntynyt tarve luoda kaikille yhteinen standardi kirjoitusmerkkien esittämiseksi.
Rivi 11: Rivi 13:


Nykyisin monet Linux-jakelut käyttävät UTF-8:aa oletuksena. Tämän voi havaita siitä, että järjestelmän käyttämien lokaalien nimessä on ”.UTF-8”. Esimerkiksi Suomessa käytetään lokaalia nimeltä ”fi_FI.UTF-8”. Tällaista lokaalia käytettäessä järjestelmä tukee Unicodea ja mm. tiedostojen nimiin ja tekstitiedostoihin on periaatteessa mahdollista kirjoittaa kaikkia Unicode-merkkejä. Käytännössä mikään fontti ei yksinään kykene näyttämään kaikkia merkkejä.
Nykyisin monet Linux-jakelut käyttävät UTF-8:aa oletuksena. Tämän voi havaita siitä, että järjestelmän käyttämien lokaalien nimessä on ”.UTF-8”. Esimerkiksi Suomessa käytetään lokaalia nimeltä ”fi_FI.UTF-8”. Tällaista lokaalia käytettäessä järjestelmä tukee Unicodea ja mm. tiedostojen nimiin ja tekstitiedostoihin on periaatteessa mahdollista kirjoittaa kaikkia Unicode-merkkejä. Käytännössä mikään fontti ei yksinään kykene näyttämään kaikkia merkkejä.
== Tekstitiedostot ==
Jos omassa Linux-järjestelmässä on aiemmin ollut käytössä ISO-8859-15-merkistö (esimerkiksi lokaali fi_FI@euro) ja sittemmin on siirrytty UTF-8:aan, täytyy omat tekstitiedostot muuttaa UTF-8-koodatuiksi, jotta niiden sisältö näkyisi oikein. Yksi tapa tekstitiedoston muuttamiseen UTF-8-koodaukseen on avata se johonkin tekstieditoriin ja tallentaa sitten teksti uudella koodauksella. Nopeampaa saattaa kuitenkin olla komentotulkin ja [[recode]]-ohjelman käyttö:
recode ISO-8859-15..UTF-8 tiedosto.txt
Tiedostojen nimissä käytetyn merkistön muuntaminen onnistuu [[convmv]]-nimisellä ohjelmalla.


== [[Tiedostojärjestelmä]]t ==
== [[Tiedostojärjestelmä]]t ==
Rivi 43: Rivi 39:
  /dev/hdb5  /media/windows-d  vfat  utf8,dmask=777,fmask=666  0  0
  /dev/hdb5  /media/windows-d  vfat  utf8,dmask=777,fmask=666  0  0


== Ohjelmat ==
== Tekstitiedostot ja tekstieditorit ==


Eräät, varsinkin vanhemmat, ohjelmat eivät hallitse UTF-8-merkistökoodauksen käyttöä. Tällaisia ovat mm. uutistenlukija [[slrn]] ja vanhemmat versiot [[Nano]]sta. Slrn tosin osaa näyttää UTF-8:lla koodatut kirjoitukset oikein siinä määrin kun niissä olevat merkit sopivat johonkin kahdeksanbittiseen merkistöön, mutta ei toimi mikäli pääteikkunassakin on UTF-8 käytössä.
Jos omassa Linux-järjestelmässä on aiemmin ollut käytössä ISO-8859-15-merkistö (esimerkiksi lokaali fi_FI@euro) ja sittemmin on siirrytty UTF-8:aan, täytyy omat tekstitiedostot muuttaa UTF-8-koodatuiksi, jotta niiden sisältö näkyisi oikein. Yksi tapa tekstitiedoston muuttamiseen UTF-8-koodaukseen on avata se johonkin tekstieditoriin ja tallentaa sitten teksti uudella koodauksella. Nopeampaa saattaa kuitenkin olla komentotulkin ja [[recode]]-ohjelman käyttö:
 
  recode ISO-8859-15..UTF-8 tiedosto.txt
Tällaista ohjelmaa voi käyttää luit-ohjelman avulla esimerkiksi näin.
Tiedostojen nimissä käytetyn merkistön muuntaminen onnistuu [[convmv]]-nimisellä ohjelmalla.
  LC_ALL=en_US.ISO-8859-1 luit ohjelmannimi
Samaa komentoa voi käyttää myös ottaessasi ssh-yhteyden sellaiseen koneeseen, jossa käytetään jotakin 8-bittistä merkistöä.
 
Myöskään kaikki graafiset ohjelmat eivät hallitse UTF-8:aa, esimerkiksi [[Dillo]]-selain ei toistaiseksi osaa näyttää sillä koodattuja www-sivuja.


=== Emacs ===
=== Emacs ===
Rivi 61: Rivi 53:


[[Vim]] tukee UTF-8:aa automaattisesti, jos käytössä on UTF-8-lokaali. Nykyiset Vimin versiot tukevat kutakuinkin täydellisesti kaikkia muitakin merkistöjä ja eri koodaustapoja. Tallennettavan tiedoston merkistöön voi vaikuttaa muuttujan 'fileencoding' avulla. Muokattavan tekstin merkistö on muuttujassa 'encoding'.
[[Vim]] tukee UTF-8:aa automaattisesti, jos käytössä on UTF-8-lokaali. Nykyiset Vimin versiot tukevat kutakuinkin täydellisesti kaikkia muitakin merkistöjä ja eri koodaustapoja. Tallennettavan tiedoston merkistöön voi vaikuttaa muuttujan 'fileencoding' avulla. Muokattavan tekstin merkistö on muuttujassa 'encoding'.
== Muut ohjelmat ==
Eräät, varsinkin vanhemmat, ohjelmat eivät hallitse UTF-8-merkistökoodauksen käyttöä. Tällaisia ovat mm. uutistenlukija [[slrn]] ja vanhemmat versiot [[Nano]]sta. Slrn tosin osaa näyttää UTF-8:lla koodatut kirjoitukset oikein siinä määrin kun niissä olevat merkit sopivat johonkin kahdeksanbittiseen merkistöön, mutta ei toimi mikäli pääteikkunassakin on UTF-8 käytössä.
Tällaista ohjelmaa voi käyttää luit-ohjelman avulla esimerkiksi näin.
LC_ALL=en_US.ISO-8859-1 luit ohjelmannimi
Samaa komentoa voi käyttää myös ottaessasi ssh-yhteyden sellaiseen koneeseen, jossa käytetään jotakin 8-bittistä merkistöä.
Myöskään kaikki graafiset ohjelmat eivät hallitse UTF-8:aa, esimerkiksi [[Dillo]]-selain ei toistaiseksi osaa näyttää sillä koodattuja www-sivuja.


== IRC ==
== IRC ==
Rekisteröitymätön käyttäjä

Navigointivalikko