Kõnetöötlus

Kõnetöötluseks nimetatakse tegevust, mille käigus analüüsitakse, töödeldakse, edastatakse või salvestatakse signaali. Enamasti kasutatakse seda digitaalsete lahenduste juures, et teisendada andmeid analoogsignaalist digitaalseks signaaliks, mida kasutatakse mitmete elektrooniliste lahenduste juures. Kõnetöötlusmeetodid on näiteks kõnesüntees, kõneanalüüs, kõnetuvastus ja kõnetöötlus.^[1]

Ajalugu

19. sajand

10. märtsil 1876 esitles Alexander Graham Bell koos oma assistendi Thomas A. Watsoniga maailmale esimest esimest meetodit, kuidas edastada signaali, kasutades telegraafsidet. Seda leiutist nimetati telefoniks. Mõni päev hiljem tegi Bell oma assistendiga kõne, mille abil räägiti teineteisega esimesed sõnad, kasutades selleks nende loodud telefoni.

Aasta hiljem leiutas Thomas Edison fonograafi, millega sai salvestada ja mängida muusikat.

Charles Sumner Tainter koos Alexander Graham Belliga otsustasid täiendada Edisoni leiutist nõnda, et sellel oleks eraldiseisev salvestuskomponent, ja nimetasid selle graafofoniks. Graafofon patenteeriti aastal 1886. Esimesed fonograafilaadsed seadmed kasutasid algul salvestiste esitamiseks alumiiniumfooliumi sisse peidetud seadet.

1898. aastal leiutas Bell vahaga kaetud pappsilindrid, millele sai fonograafi kasutades talletada helisignaali. Nende tootmine oli odavam ja need olid kvaliteetsemad võrreldes varasema seadmega.

Samal aastal leiutas Valdemar Poulsen traatsalvestusseadme, mida ta nimetas telegrafofoniks. Selle seadmega oli võimalik salvestada inimkõne või signaali õhukestele terastraaditükkidele.^[2]^[3]

20. sajand

Esimene kõnetuvastussüsteem leiutati Belli laboratooriumites aastal 1952, kust sai alguse süsteem nimega Audrey. 1961. aastal tutvustas IBM enda süsteemi Shoebox, mis suutis aru saada inimkõnest ning vastata inglise keeles kuueteistkümne sõnaga.

Leonard E. Baum ning teised koostööpartnerid esitlesid maailmale (millal?) peidetud Markovi mudelite (ingl k hidden Markov models) nimelist süsteemi, mis leidis esmalt kasutust kõnetuvastuses. Mõned aastad hiljem hakati seda kasutama bioloogilise järjestuse ülesseadmisel, mille abil oli võimalik paika panna geenide järjestus organismides. Erinevalt varasematest süsteemidest suutis see süsteem tundmatust helist tuvastada sõnu. Järjest enam arenes elektroonika ning paralleelselt sellega ka arvutid, eriti 20. sajandi lõpus, mil protsessorid jõudsid maailmaturule ning tekkisid mitmed kõnetöötlustarkvarad, mis olid kättesaadavad juba tavainimestele. 1990. aastal lõi firma Dragon esimese kõnetuvastustarkvara Dragon Dictate, mille hind oli 9000 dollarit. Mõned aastad hiljem jõudis sama firma poolt ka Dragon Dictate täiendatud versioon Dragon NaturallySpeaking, mille hinnaks oli 695 dollarit ning mis sai juba hakkama inimkõne tuvastamisega ehk suutis töödelda 100 sõna minutis.^[4]^[5]

Kõnesüntees

Siin on kujutatud teksti kõneks sünteesi meetodite ülesehitust

Kõnesünteesi eesmärk on töödelda kirjalik tekst ümber inimkõneks nii, et see kõlaks täpselt sedasi, et seda esitaks päris inimene. Meetodi peamisteks osadeks on tekstitöötlus, foneetline analüüs ja prosoodiline analüüs.

Tekstitöötlus

Tekstitöötluse juures on kolm tähtsat osa: sõnade hääldus, lause struktuur ning mitmetähenduslike sõnade ja rõhkude tuvastamine.

Esmalt peab teksti analüüsimisprotsess tuvastama, kus paiknevad rõhud antud sõnas, kuidas seda kasutatakse lauses ja kui pikalt hääldatakse igat tähte vastavas sõnas. Enamasti kasutatakse teksti analüüsi juures foneeme, mille abil on kerge eristada sarnase või sama tüvega sõnu.

Teksti analüüsi protsess peab suutma analüüsida ka lause struktuuri ehk seda, kus on pausid, mis on sõnade esituskiirus lauses ning vastavalt olukorrale muutma hääletooni.

Kolmandaks peab protsess ära tuvastama tekstis rõhuasetused nii lausetes kui ka sõnades ning mitmetähenduslikke sõnade korral vaatama, kumba tuleks kasutada. Lisaks mitmetähenduslikkusele peab protsess analüüsima ka konteksti, kus mingeid sõnu kasutatakse.

Seejärel tuleb üldine dokumendi struktuuri tuvastus, kus siis vaadatakse üle punkti- ja komakohad ning muud lauset lõpetavad märgid. Sellega on võimalik protsessil otsustada nende olulisust kindlas tekstis.

Teksti normaliseerimise juures vaadatakse peamiselt esinevaid kõnesünteesi tekstiprobleeme, näiteks lühendite ja akronüümide kasutamine tekstis.

Lingvistilise ehk keeleteadusliku analüüsi peamised aspektid on tuvastada sõna hääldatav osa, määrata ära iga sõna tähendus vastavalt kontekstile, lõikude ja fraaside tuvastamine koos pausidega, rõhuasetuse leidmine lauses, milles tahetakse esile tuua tähendusrikast sõna kontekstis ja ka kõnestiil, kas esitatav kõne peab olema vihases, emotsionaalses või pingevabas olekus.

Foneetiline analüüs

Foneetilise analüüsi juures on vaja töödeldud tekst muuta esitatavaks helijadaks, kus on määratud kõneviis ja -stiil, vajalikud pausid, rõhuasetused. Foneetilise analüüsi osad on homograafi täpsustusoperatsioon ja kirjast heliks teisendamine.

Homograafi täpsustusoperatsiooni eesmärk on leida sisendsõna õige hääldus vaadates lause ja teksti konteksti ning otsustada, millist hääldust olukorras kasutada.

Kõnesünteesis on enamasti kasutusel standardne hääldussõnastik, kus on ka tähtede helilise esitamise reeglid sõnade jaoks. Sealjuures töödelakse läbi kõik tekstis esinevad sõnad ning teostatakse teisendus kõikidele sõnadele eraldi.

Prosoodiline analüüs

Kõnesünteesi viimane samm on prosoodiline analüüs, millega antakse heli või kõne tekitavale süntesaatorile vastavad juhised ja sisendid nagu kestus, kõneheli jada, helikõrgused. Kestuse ja helikõrguse kontuuride määramine toimub helikõrguste komplekti abil ja kestuse reeglid koos reeglite kogumiga rõhu määramiseks. Lisaks tehakse kindlaks, kuhu on vaja lisada pause, et esitatav kõne kõlaks võimalikult loomulikuna.^[6]

Viited

↑ "Speech Processing - an overview | ScienceDirect Topics". www.sciencedirect.com. Vaadatud 26. märtsil 2023.
↑ Jones, Linda (25. veebruar 2019). "The Amazing History of Speech Recognition Technology | Fusion Narrate". Dolbey and Company, Inc. (Ameerika inglise). Vaadatud 26. märtsil 2023.
↑ "A brief history of speech recognition". Sonix (inglise). Vaadatud 26. märtsil 2023.
↑ Eddy, Sean R. (oktoober 2004). "What is a hidden Markov model?". Nature Biotechnology (inglise). 22 (10): 1315–1316. DOI:10.1038/nbt1004-1315. ISSN 1546-1696.
↑ "Speech Recognition Through the Decades: How We Ended Up With Siri". PCWorld (inglise). Vaadatud 26. märtsil 2023.
↑ R. Rabiner and W. Schafer, Lawrence and Ronald (2007). Introduction to Digital Speech Processing (inglise) (esimene trükk). Hanover, Massachusetts, USA: now Publishers Inc. Lk 139–145. ISBN 978-1-60198-070-0.

[1] "Speech Processing - an overview | ScienceDirect Topics". www.sciencedirect.com. Vaadatud 26. märtsil 2023.

[2] Jones, Linda (25. veebruar 2019). "The Amazing History of Speech Recognition Technology | Fusion Narrate". Dolbey and Company, Inc. (Ameerika inglise). Vaadatud 26. märtsil 2023.

[3] "A brief history of speech recognition". Sonix (inglise). Vaadatud 26. märtsil 2023.

[4] Eddy, Sean R. (oktoober 2004). "What is a hidden Markov model?". Nature Biotechnology (inglise). 22 (10): 1315–1316. DOI:10.1038/nbt1004-1315. ISSN 1546-1696.

[5] "Speech Recognition Through the Decades: How We Ended Up With Siri". PCWorld (inglise). Vaadatud 26. märtsil 2023.

[6] R. Rabiner and W. Schafer, Lawrence and Ronald (2007). Introduction to Digital Speech Processing (inglise) (esimene trükk). Hanover, Massachusetts, USA: now Publishers Inc. Lk 139–145. ISBN 978-1-60198-070-0.

[1]

[2]

[3]

[4]

[5]

[6]