Uuden puhetallenteen annotointi aloitetaan yleensä karkeimmalta tasolta, esimerkiksi vuorojen (Turn, ks. 6) tai puhunnosten (PhoneticUtterance, ks. 3) annotaatiosta. Samalla aineisto litteroidaan (puheen kielellinen sisältö saatetaan kirjoitettuun muotoon), jollei aineiston tekstisisältö ole ennalta tiedossa (esim. ääneen luettu puhe). Annotointijärjestys riippuu kuitenkin ennen kaikkea siitä, minkälaiset piirteet aineistosta aiotaan nimikoida.
Jos tallenteesta on olemassa aiemmin julkaistu annotaatiokerros, josta aiot julkaista oman version, on suositeltavaa, että käytät pohjana aiemmin julkaistua annotaatiokerrosta. Näin on mahdollista hakuvaiheessa hyödyntää tietoa siitä, mitä kohtia olet muuttanut. Toisen tekemää annotaatiokerrosta on myös paljon helpompi muuttaa kuin nimikoida itse kokonaan uusi alusta asti.
Jotkut annotaatioyksiköt eivät oikeastaan kuvaa signaalia sellaisenaan, vaan ovat jonkinasteisia abstraktioita. Tällöin ne ovat myös riippuvaisia jostakin toisesta, yleensä konkreettisemmin signaalia kuvaavasta yksiköstä. Esimerkiksi tavuja (ks. 4) ei lingvistisessä mielessä esiinny puheessa sellaisenaan, vaan ne voidaan tunnistaa tai analysoida vasta, kun puhutut saneet (ks. sanayksikkö, 4) on tunnistettu. Tämän vuoksi tavuyksiköitä ei pitäisi annotoida sellaisenaan vaan yhdessä sanekerroksen kanssa tai vasta sanekerroksen annotoinnin jälkeen, jolloin tavujen yhteys saneyksiköihin voidaan ilmaista. Myös prominenssi on aina riippuvainen jostakin toisesta nimikointikerroksesta, esim. tavu- tai sanakerroksesta. Jäljempänä mainitaan jokaisen yksikön kohdalla, onko yksikkö riippuvainen joistakin muista annotaatioyksiköistä.