TSV

Linux.fista
Versio hetkellä 7. marraskuuta 2025 kello 01.17 – tehnyt Lahtis (keskustelu | muokkaukset) (vinkki)
Siirry navigaatioon Siirry hakuun
TSV

Tiedostopääte .tsv
Mediatyyppi text/tsv

TSV (Tab-Separated Values, sarkainerotellut arvot) on selkotekstitiedostomuoto, jota käytetään taulukkomuotoisen datan tallentamiseen ja siirtämiseen. Se on yksi yleisimmistä datanvaihtomuodoista ohjelmien, kuten tietokantojen ja taulukkolaskentaohjelmien välillä.

Mikä on TSV?

TSV-tiedosto noudattaa yksinkertaista rakennetta:

  • Rivi: Jokainen rivi tiedostossa edustaa yhtä tietuetta (esim. henkilö tai tuote).
  • Kenttä/Sarake: Rivin sisällä olevat yksittäiset tiedot (kentät tai sarakkeet) on erotettu toisistaan yhdellä sarkainmerkillä (\t) (tab, ASCII-koodi: 09h).
  • Ero CSV:hen: TSV on sisällöltään samanlainen kuin CSV (Comma-Separated Values), mutta käyttää sarkainta pilkun sijaan erottimena. Sarkaimen käyttö on usein luotettavampaa, jos itse data sisältää pilkkuja, jotka sekoittaisivat CSV-muodon.

TSV-tiedoston käsittely Linuxin komentorivillä

​Koska TSV-tiedosto on puhdasta tekstiä, se soveltuu erinomaisesti käsiteltäväksi Linuxin tehokkailla tekstinkäsittelytyökaluilla.

1. Katselu ja sarakkeiden tasaus

Voit tarkastella tiedostoa joko raakana tai muotoiltuna:

Komento Toiminti
cat tiedosto.tsv Näyttää tiedoston raa’an sisällön.
less tiedosto.tsv Näyttää tiedoston sivutettuna.
column -t tiedosto.tsv Muotoilee sarakkeet siististi tasattuna tulosteen luettavuuden parantamiseksi.

2. Sarakkeiden valinta (cut)

cut-komennolla voidaan helposti poimia vain tietyt sarakkeet. TSV-tiedostoissa sarkain on oletusarvoinen erotin, joten sitä ei tarvitse yleensä määritellä erikseen.

Esimerkki: Tulosta toinen ja neljäs sarake (kenttä, -f).

cut -f 2,4 tiedosto.tsv

3. Tiedon suodatus (grep)

grep-komentoa käytetään rivien suodattamiseen tietyn merkkijonon tai kuvion perusteella.

Esimerkki: Etsi kaikki rivit, jotka sisältävät sanan "Hallinto".

grep "Hallinto" tiedosto.tsv

4. Monipuolinen käsittely ja valinta (awk)

awk on erittäin tehokas kieli datan käsittelyyn. Sillä voidaan valita sarakkeita, muokata dataa ja määrittää erotinmerkkejä tarkasti.

Esimerkki: Valitaan ensimmäinen ($1) ja kolmas sarake ($3) määrittämällä syötekentän erottimeksi (FS) sarkain (\t).

awk 'BEGIN {FS="\t"} {print $1, $3}' tiedosto.tsv

5. Komentojen yhdistely (Pipeline)

Komentojen yhdisteleminen putken (|) avulla on tehokas tapa suorittaa monimutkaisia toimintoja.

Esimerkki: Etsi ensin "Tampere"-rivin sisältävät rivit (grep), ja poimi niistä vain nimi (ensimmäinen sarake, cut -f 1).

grep "Tampere" henkilot.tsv | cut -f 1

TSV:n muuntaminen muihin muotoihin

TSV-tiedostoja on usein tarpeen muuntaa toiseen muotoon, esimerkiksi CSV:ksi.

Muunnos CSV:ksi (sed)

CSV-muotoon muuttaminen tarkoittaa kaikkien sarkainten korvaamista pilkuilla. Tämä hoituu tehokkaasti sed (Stream Editor) -komennolla.

sed 's/\t/,/g' tsv_tiedosto.tsv > csv_tiedosto.csv
  • s/\t/,/g: Korvaa (s) kaikki sarkaimet (\t) pilkuilla (,) globaalisti (g).
  • >: Uudelleenohjaa tulosteen uuteen CSV-tiedostoon.

Muunnos Taulukkolaskentaohjelmassa

Linuxissa voit myös avata TSV-tiedostoja graafisilla taulukkolaskentaohjelmilla, kuten LibreOffice Calcilla tai Gnumericilla. Nämä ohjelmat tunnistavat usein sarkainmerkin automaattisesti erottimeksi.

Katso myös

v  k  m
Asiakirjamuodot
Tekstiasiakirjamuodot .ODT | .FODT | .PDF | .DOC | .DOCX | .TXT
Tekstiasiakirjamallit .OTT
Taulukkolaskentamuodot .ODS | .OTS | .FODS | .XLS | .XLSX | .CSV | .TSV
Taulukkolaskentamallit .OTS
Esitysgrafiikka .ODP | .FODP | .PPTX | .SXI
Tietokanta .ODB
Vektorigrafiikka .ODG | .FODG
Kaavamuokkain .ODF
HTML-muokkain .HTML