Praat-ohjelmalla annotoidun keskustelun litteraatin vieminen tekstitiedostoon


In English, please

Mietta Lennes
30.12.2009

An example picture of a conversation annotated with Praat.

conversation_example_1	(Tue Dec 29 17:05:15 2009)

F1:	blah
F2:	bli bla bla blaah
F1:	bla blaaba blah bli
F2:	blaaaaa
F1:	blabla
F2:	blee blaa blabla blaah
F1:	bla
F2:	blaba blaa
F1:	blah blaaba blaaba blaaba blaa
F2:	blabla
F1:	bla bla-
	blaah
F2:	bli bla bla bla bli bla bla
F1:	blabl-
	bla bla bla bla bla blaaaaah

Huom. Tässä kuvattu Praat-skripti on vasta testikäytössä ja saattaa siis sisältää virheitä! Jos skripti ei mielestäsi toimi oikein tai huomaat tässä ohjeessa puutteita, otan mielelläni sähköpostitse vastaan korjausehdotuksia.
Valitettavasti en kuitenkaan voi tarjota henkilökohtaista neuvontaa skriptin käytössä!


Johdanto

Jos olet nimikoinut (annotoinut) keskusteluäänitteen Praat-ohjelmalla, voit oheisen Praat-skriptin avulla siirtää tekemäsi litteraatin Praatin TextGrid-objektista tavalliseen tekstitiedostoon, jota voit edelleen muokata ja käyttää helposti tulostettavana aineistosi sisällön tekstimuotoisena kuvauksena tai esimerkiksi esitelmissä tai julkaisuissa.
Samalla skriptillä voit keskustelulitteraattien lisäksi viedä helposti luettavaan muotoon mitä tahansa muutakin Praatilla nimikoitua aineistoa. Tässä ohjeessa käytetään esimerkkinä keskustelupuhetta.

Esivaatimuksena on, että sinulla on Praat-ohjelman objektilistalla valittuna täsmälleen yksi TextGrid-muotoinen objekti, joka sisältää kunkin keskusteluun osallistuvan puhujan puhunnokset rajattuina ja litteroituina omaan nimikointikerrokseensa (tier). TextGridissä on siis oltava (vähintään) yhtä monta kerrosta kuin keskustelussa on osallistujia.

Lopputuloksena on raakatekstitiedosto, jossa on kunkin keskusteluun osallistuneen puhujan puhunnokset omilla riveillään alkamisaikojen mukaisessa järjestyksessä. Puhujan vaihtuessa rivin alkuun tulee automaattisesti puhujan tunnus. Kokonaan päällekkäispuhutut puhunnokset merkitään hakasulkeisiin. Puhunnosten väliin voidaan myös automaattisesti laskea ja merkitä sulkeisiin taukojen kestot sekunteina. Lisäksi voidaan laskea myös mahdollisen päällekkäispuhunnan alkamisaika suhteessa edeltävän puhunnoksen päättymiseen sekunteina. Tämä merkitään sulkeisiin samoin kuin tauon kesto, mutta luku on negatiivinen, esim. (-0.20 s) tarkoittaa, että seuraava puhunnos on puhuttu edellisen puhujan päälle ja se on alkanut 0,2 sekuntia ennen edeltävän puhunnoksen päättymistä.

Miksi keskustelupuhetta kannattaa litteroida Praatilla?

Esimerkki

Kuvitellaan, että Praatilla on nimikoitu seuraavanlainen keskustelunäyte, jossa esiintyy kaksi puhujaa (F1 ja F2):

Kuvaesimerkki Praatilla annotoidusta keskusteluäänitteestä, jossa esiintyy kaksi puhujaa, joiden tuottamat puhunnokset on annotoitu kumpikin omaan kerrokseensa.

Kun kyseinen litteraatti siirretään oheisella Praat-skriptillä tekstitiedostoksi, saadaan tällainen lopputulos:

Yksinkertainen litteraatti:

conversation_example_1	(Tue Dec 29 17:05:15 2009)

F1:	blah
F2:	bli bla bla blaah
F1:	bla blaaba blah bli
F2:	blaaaaa
F1:	blabla
F2:	blee blaa blabla blaah
F1:	bla
F2:	blaba blaa
F1:	blah blaaba blaaba blaaba blaa
F2:	blabla
F1:	bla bla-
	blaah
F2:	bli bla bla bla bli bla bla
F1:	blabl-
	bla bla bla bla bla blaaaaah

Täydellinen litteraatti, johon on lisätty puhunnosten alkamisajat, taukojen kestot ja päällekkäispuhunnan kestot:

conversation_example_1	(Tue Dec 29 16:45:22 2009)

[0.25 s]	F1:	blah
				(-0.04 s)
[1.12 s]	F2:	bli bla bla blaah
				(-0.54 s)
[4.77 s]	F1:	bla blaaba blah bli
				(-0.29 s)
[7.74 s]	F2:	blaaaaa
				(-0.57 s)
[8.44 s]	F1:	blabla
				(0.10 s)
[9.40 s]	F2:	blee blaa blabla blaah
				(0.20 s)
[11.75 s]	F1:	bla
				(-0.10 s)
[12.38 s]	F2:	blaba blaa
				(0.16 s)
[14.04 s]	F1:	blah blaaba blaaba blaaba blaa
				(0.11 s)
[17.37 s]	F2:	blabla
				(-0.46 s)
[17.50 s]	F1:	bla bla-
				(0.08 s)
[18.57 s]		blaah
				(-0.46 s)
[18.73 s]	F2:	bli bla bla bla bli bla bla
				(0.47 s)
[21.05 s]	F1:	blabl-
				(0.31 s)
[21.73 s]		bla bla bla bla bla blaaaaah

Skriptin käyttöohje

  1. Hae ja tallenna Praat-skripti save_conversation_tiers_as_text_file.praat koneellesi sopivaan paikkaan. Valitse hakemisto, jonka löydät koneelta helposti.

  2. Avaa Praatiin se TextGrid-tiedosto, josta haluat tuottaa ihmisluettavan litteraatin.

  3. Nimeä tarvittaessa uudelleen ne TextGrid-objektin nimikointikerrokset, jotka haluat sisällyttää litteraattiin. Kerrosten nimiä käytetään litteraatissa ko. puhujan tunnisteena. Kannattaa käyttää lyhyitä, esim. 2-3 merkin pituisia koodeja. Oheisessa kuvitteellisessa esimerkissä kerrokset on nimetty puhujien koodeilla F1 ja F2.
    Nimikointikerrosten järjestyksellä ei ole väliä - puhunnokset tallentuvat litteraattiin alkamisaikojensa mukaisessa järjestyksessä.
    Huom. Skripti toimii toistaiseksi vain IntervalTier-tyyppisillä annotaatiokerroksilla, joihin merkitään aikavälejä ja niiden nimikkeitä (ei siis PointTier-tyyppisillä kerroksilla, joissa nimikkeitä annetaan yksittäisille aikapisteille)!

  4. Avaa äsken tallentamasi skripti save_conversation_tiers_as_text_file.praat Praatin objekti-ikkunan komennolla Praat:Open Praat script... (tai Read:Read from file...).

  5. Valitse skripti-ikkunassa Run:Run. Näkyviin tulee seuraavanlainen lomake:
    Praat-skriptin alkulomake

  6. Varmista vielä, että haluamasi TextGrid-objekti on objektilistalla valittuna. Paina sitten skriptilomakkeessa OK.
    Jos TextGrid-tiedosto on pitkä ja/tai puhujia on useita, litteraatin luonti voi kestää hetken. Kun skriptin suoritus on päättynyt, pitäisi litteraatin ilmaantua antamaasi tiedostoon.
    Voit käyttää tekstitiedostoa sellaisenaan tai muotoilla sitä esim. MS Wordilla. Litteraatissa käytetään kenttien erottimena sarkainta (tab), joten se on periaatteessa mahdollista avata myös taulukkolaskentaohjelmalla (esim. MS Excel).

    Huom. Skripti muuttaa suorituksen lopuksi alkuperäisen TextGrid-objektin Praatin sisäiseen "geneeriseen" muotoon, jossa erikoismerkit (ääkköset, foneettiset merkit yms.) ilmaistaan usean merkin yhdistelminä ("backslash trigraphs"). Tämä muoto onkin yleensä suositeltava etenkin jos käytät samoja TextGrid-tiedostoja eri käyttöjärjestelmillä (Windows/Mac/Linux). Skripti ei kuitenkaan tallenna TextGridiä minnekään - siitä sinun pitää halutessasi huolehtia itse.

    VALMISTA TULI! :-)

    (Lisäapua skriptien ajamisessa: ks. suomenkielinen Praat-opas)

Huom. Tässä kuvattu Praat-skripti saattaa edelleen sisältää virheitä! Jos skripti ei mielestäsi toimi oikein tai huomaat tässä ohjeessa puutteita, otan mielelläni sähköpostitse vastaan korjausehdotuksia. Valitettavasti en kuitenkaan voi tarjota henkilökohtaista neuvontaa skriptin käytössä.

Lisää Praat-skriptejä