Rekisteröitymätön käyttäjä
Ero sivun ”UTF-8” versioiden välillä
Siirry navigaatioon
Siirry hakuun
ei muokkausyhteenvetoa
p (→Tekstitiedostot: convmv) |
Ei muokkausyhteenvetoa |
||
Rivi 7: | Rivi 7: | ||
Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on Unix-tyyppisissä käyttöjärjestelmissä (esim. Linux) tärkein Unicoden koodaustapa, ja se on jo muutamissa distroissa vakiona käytössä. UTF-8-koodauksessa yksi merkki vie tallennustilaa 1–4 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot ym., mutta ei esim. ääkköset) esitetään sellaisinaan yhtenä tavuna. Näin saavutetaan ASCII-yhteensopivuus, mikä on tärkeää, koska Unix- ja Linux-koneissa käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. (UTF-8:lla voisi periaatteessa koodata merkkiavaruuden 0–$7FFFFFFF käyttäen 1–6 tavua. Käytännössä Unicoden koko merkkiavaruuden koodaamiseen tarvitaan enintään 4 tavua.) | Unicode-merkkejä voidaan koodata useilla eri tavoilla. UTF-8 on Unix-tyyppisissä käyttöjärjestelmissä (esim. Linux) tärkein Unicoden koodaustapa, ja se on jo muutamissa distroissa vakiona käytössä. UTF-8-koodauksessa yksi merkki vie tallennustilaa 1–4 oktettia (tavua), siten että ASCII-merkit (aakkoset, numerot ym., mutta ei esim. ääkköset) esitetään sellaisinaan yhtenä tavuna. Näin saavutetaan ASCII-yhteensopivuus, mikä on tärkeää, koska Unix- ja Linux-koneissa käytetään paljon ASCII-muodossa olevia asetustiedostoja ja käynnistysskriptejä. (UTF-8:lla voisi periaatteessa koodata merkkiavaruuden 0–$7FFFFFFF käyttäen 1–6 tavua. Käytännössä Unicoden koko merkkiavaruuden koodaamiseen tarvitaan enintään 4 tavua.) | ||
Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän, että eikö kannattaisi samantien siirtyä käyttämään UTF-32: | Muita koodaustapoja ovat UCS-2, UCS-4, UTF-7, UTF-16, UTF-32. Usein kuulee kysyttävän, että eikö kannattaisi samantien siirtyä käyttämään UTF-32:ta, jotta merkit eivät loppuisi kesken. Näin ei käy, vaan kaikilla koodaustavoilla, lukuun ottamatta UCS-2:ta, voidaan esittää kaikki Unicoden noin 1,1 miljoonaa merkkiä. Vanha UCS-2 kykenee vain ensimmäisten 65 535 koodin esittämiseen; sen on korvannut uudempi UTF-16. | ||
UTF-8 on nykyisin monien jakeluiden, esimerkiksi Ubuntun, oletusmerkistö käyttöjärjestelmän tiedostonimien koodaukseen ja tekstitiedostojen muodoksi. | UTF-8 on nykyisin monien jakeluiden, esimerkiksi Ubuntun, oletusmerkistö käyttöjärjestelmän tiedostonimien koodaukseen ja tekstitiedostojen muodoksi. |