Millal ometi saame me arvutiga eesti keeles rääkida?

Pane tähele! Artikkel on ilmunud enam kui 5 aastat tagasi ning kuulub Geeniuse digitaalsesse arhiivi.
konesyntees2.png

See artikkel on esimene osa seerias, mis uurib, kuidas me saame arvutitega eesti keeles rääkida. Loe teist lugu siit, kuidas arvuti kõik Eesti raadio- ja telesaated läbi kuulab. Kolmas artikkel uurib, kuidas Eesti arstid on kõnetuvastuse võtnud töösse.

Inimese ja masina vaheline suhtlus on viimase poole sajandi jooksul sõltunud ikka kätest. Esmalt peaasjalikult kätega klaviatuuril trükkides, siis seal kõrval hiirt liigutades ja viimase kümne aastaga üha enam puutetundlikel ekraanidel või plaatidel. Ent kui see kontakt muutuks kõneks, nii et masin ja inimene suudaksid üksteisega suhelda rääkides, oleks tegu tõeliselt uue ajastuga tehnoloogia ja inimese suhetes.

“Küberneetika instituut loodi ENSV Teaduste Akadeemia juurde 1960-ndal aastal (1997-ndast aastast kuulub instituut TTÜ kooseisu – toim). Toona oli maailmas mõneti küberneetika buum ja kõnesüntees oli üks esimesi asju, mis taheti ära teha,” räägib Einar Meister. “Aga mida rohkem asjaga tegeleti, seda kaugemale tulevikku eesmärgi täitumine justkui lükkus,” ütleb Meister. Pool sajandit on möödas ja kõneuurimine käib TTÜ küberneetika instituudi foneetika ja kõnetehnoloogia laboratooriumis edasi, mida Meister juhatab.

Kõnesünteesi ehk arvuti kõnelema panna võiks mitut moodi. Kuigi kirjalik tekst koosneb lausetest, sõnadest ja tähtedest, ei saa kõnet nii eraldiseisvateks ühikuteks lahutada. “Nii me teha ei saa, et hääldame tähestiku arvutile ette ja ta paneb siis tähtedest jutu kokku,” muigab Meister.

Teine võimalus on näiteks salvestada suures mahus kõnet, millest tekib kõnekorpus, ja sellest pärast vajadusel lõigata välja vajalikke juppe. Tarkvara leiab kõneldavale tekstile sobiva vaste, heal juhul sõna, pigem silbi või difooni, mis on kahe hääliku ühend. Nii loobki arvuti korpuse põhjal vastavalt vajadusele kõne.

Viimasel kümnekonnal aastal on eesti keele kõnesünteesiga tegelenud Eesti Keele Instituudi (EKI) teadurid ja arendajad. Näiteks on EKIs valmis tehtud uudistelugeja äpp – juhuks, kui pole aega ekraani vaadata, teabetekstide ettelugeja nägemispuudega inimestele või ETV-le subtiitrite ettelugeja.

Viimasest saab hea pildi selle näidisega sarjast “The Thick of It” (hoiatus: 292 megabaidine WMV fail). Tänu kõnesünteesile saab sarja vaadata ka inimene, kes ei oska inglise keelt ega saa või oska eesti keeleski lugeda.

Kuula ometi, ma räägin sinuga!

Kui me aga tahame arvutiga suuliselt suhelda, siis ei piisa ainult kõnesünteesist. Arvutil tuleb ka meid kuulama ja mõistma õppida – see on kõnetuvastus.

“Kõnetuvastuseks on vaja kahte eraldi osa: akustilist mudelit ja keelemudelit,” räägib Meister. Lihtsustatult öeldes aitab esimene arvutil meie suust tulevaid helilaineid vastavusse viia eesti keele häälikutega, teine aga saada aru, missugused sõnad meie kõnes esinevad.

Akustiline mudel on keelespetsiifiline, seda treenitakse kõnekorpuste põhjal ehk arvuti analüüsib suurt hulka salvestatud kõnet ja püüab siis mikrofonist kuuldud inimkõnet panna talle teadaolevaga klappima.

Keelemudel koosneb jällegi tekstikorpustest ehk see on arvutile justkui “teadmiseks”, mida kõike võiks üks inimene rääkida. “Kui tarkvara asub kõnet tuvastama, siis saadakse akustiliste mudelite abil hüpoteesid, millega võiks tegu olla. Keelemudeliga leitakse sellele kõige tõenäolisem vaste,” räägib Meister.

See tähendab, et kui ma ütlen midagi väga ootuspärast – “väljas sajab vihma” – saab arvuti kõnest ilmselt täpselt aru. Kui ma ütlen midagi täiesti ootamatut – “kandilise hobuse meteoroloogiline kohvipaus” – siis on väiksem tõenäosus, et arvuti mu sürrealismi ära tabab, kuna sellises järjestuses sõnu esineb harva.

Keelemudelid võivad olla näiteks laiatarbelised, nn tavakeele mudelid, mis sobivad igasuguse kõne tuvastamiseks. Paremini töötavad aga need mudelid, mis on kitsamalt piiritletud mingi erialakeele jaoks, sellisel juhul on kõnetuvastuse edukuse tõenäosus suurem. TTÜ kõnetehnoloogia laboratooriumi teadlased on teinud edukaid projekte mõlemat tüüpi kõnetuvastuse jaoks, nendest kirjutame järgmistes artiklites.

Osa teadlaste tööst on avatud lähtekoodiga GitHubi saadaval, tegu on vabavaraga. Tavakasutaja saab aga töötava tarkvaraga tutvuda ka läbi brauseri tutvuda

“Rääkiv pea” sinu arvutis

Viis aastat tagasi alustati audiovisuaalse kõnesünteesi projektiga, milles valmis MASSY mudel. See on sõna otseses mõttes kõnelev pea – lisaks teksti kõneks pööramisele paneb tarkvara ka näo liikuma, nii et me lausa näeme kõnelejat.

Andsime MASSY-le prooviks ette lõigu meie peatoimetaja pöördumisest:

See on Geenius, Eesti parim tehnoloogiauudiste portaal. Me toome sinuni regulaarselt tehnoloogiavaldkonna uudiseid nii Eestist kui mujalt maailmast, me testime tooteid, anname sulle nõu, aitame sul valida, aitame tehnoloogiavaldkonnast aru saada ja seal õigeid otsuseid teha. Me valvame, et suurfirmad sulle kotti pähe ei üritaks tõmmata ning tahame olla sulle toeks, et sa oskaksid tehnoloogiamaailmas võimalikult hästi toime tulla.

Ta sai sellega niimoodi hakkama:

Tegelikult saab MASSY-le oma sõnad suhu panna igaüks. Selleks tuleb minna sellele veebilehele, kuid arvestama peab, et süsteem töötab praegu ainult Internet Exploreri veebisirvijaga ja selle peale tuleb paigaldada Cortona 3D tarkvara.

Arvuti kuulab ja kuuleb: “kas Rüütel pärast seda ka ellu jääb…”

Ka TTÜ labori kõnetuvastustarkvara on võimalik vabavarana kasutada. Kuid samas “tiksub” see ka pidevalt TTÜ serveris ja kuulab raadiosaateid. Et aimu saada, kui tublilt see eesti keelt tuvastab, pange mängima esmaspäevane Digitund…

…oodake kuni saade 00:50 juures algab ning lugege, kuidas kõnetuvastustarkvara inimeste jutust aru on saanud (kirjapilt muutmata):

Kell on üksteist null kaheksa Tere ilusat hommikupoolikut ja digitund alustab saatejuhid Henrik Roonemaa, Meelis Väljamäe Euronicsis ja linnarikka meiega liitunud ning tänases saates me räägime loomulikult uudistest, me räägime sellest, kuidas tuli

Terry uudisvoogu, on varsti tabamas suured muutused ja see, mis praegu on olnud kronoloogiline järjestus saab arvuti loogilise algoritmilise järjestuse, mida see tähendab ja kas Rüütel pärast seda ka ellu jääb, seda me siis proovime arutada iPhone’i omanikke on aga üle maailma massilise

tabamas müstiline R53 mis põhimõtteliselt suures plaanis, tähendab, et oma iPhone’i ei tohiks viia ja remonti mitte kusagile mujale

kui ainult ametliku hoolduses, sest vastasel juhul soovib saada lihtsalt iPhone’i kujulise. Ilusa tootaja vastu, mis enam ei tööta. Elisa juht Sami Seppänen ütles eelmisel nädalal avalikul pressikonverentsil. Minu küsimusele muide vastata

Elisa hea meelega küsiks Netflixi Google’ilt ja teistelt sellist teenust, et raha sest inimesed nende võrgus muudkui vaatavad. Youtube’i näiteks ja teenivad Google’ile palju raha, aga ei saa sellest midagi saab. Ja räägime ka neli poolteist nagu Elisa seda on brändi nutta selle tehnoloogia on palju nime,

tõsi, aga põhimõtteliselt tähendab see, et juba praegu on Eestis võimalik surfata mobiilivõrkudes väga palju kiiremini kui me oleksime arvanud ja see aasta

Vigu on tekstis ilmselgelt sees, nii keerulisemate terminite ja pärisnimede puhul, aga ka seal, kus saatejuht kiiremini räägib. “Tuvastust võib segadusse ajada spontaanne tekst, võõrsõnad, mitme inimese korraga kõnelemine või taustal kõlav muusika,” ütleb Einar Meister. Ent sellest hoolimata on laias laastus tarkvara päris hästi aru saanud, millest jutt käib, ning selle üles kirjutanud.

Kõikide raadiokanalite saateid, mida TTÜ labori kõnetuvastus jälgib, on võimalik lugeda siit, esindatud on nii Vikerraadio, Raadio 2 kui ka Kuku.

Tegelikult on teadlased kõnetuvastuse teinud kättesaadavaks päris igaühele. Kui mõnest salvestusest on kiiresti vaja transkriptsioon saada (mõte, mis on igal intervjuul käinud kirjutaval ajakirjanikul peas olnud), siis tuleb vastaval veebilehel oma helifail üles laadida ja oodata, kuni tarkvara selle ära transkribeerib.

Millal siis ikkagi arvutiga normaalset eesti keelt rääkida saab?

Eelnevast on näha, et tänu Eesti teadlaste tööle on meil võimalik vastava tarkvaraga panna arvuti nii eesti keelt kõnelema kui ka kuulama ja tekstiks pöörama. Aga millal see lõpuks ikkagi praktiliselt kasulikuks saab?

Suurtes keeltes kõnelejate elu on selles osas juba lihtsam. Kõnetuvastuse ja ka -sünteesi tarkvara on oma toodetesse ehitanud kõik kolm suuremat IT-giganti:

  • Siri on Apple’i kõnepõhine digitaalne assistent, mis vastab kõnele kõnega. Siriga saab rääkida telefonis, tahvelarvutis ja teleris. Siri oskab inglise, hispaania, prantsuse, saksa, itaalia, jaapani, korea, hiina (nii mandariini kui kantoni murret), araabia, hollandi, taani, norra, rootsi, vene, türgi, tai ja portugali keelt.
  • Google Voice Search on kõnetuvastus-süsteem, millega saab suulise kõnega esitada käske või päringuid Google Now süsteemis telefonis, tahvlis ja Chrome’i brauseris. Google Voice Search mõistab 39-t keelt, teiste seas leedu, soome, rootsi ja vene keelt.
  • Microsofti Cortana on kõnepõhine digitaalne assistent, mis on integreeritud Windows 10 sisse, Xboxi mängukonsooli, Windows Phone mobiilidesse ja mujale. Cortana oskab inglise, hispaania, saksa, itaalia, prantsuse, hiina ja jaapani keelt.

https://youtube.com/watch?v=4Trq7AvtoEY%3Ft%3D56s

Peale suurkeelte nagu inglise ja hispaania on meile kõige lähemale tulnud leedu ja soome keele mõistmisega Google. Kuid Eestis ei ole veel palju põhjust maailma suurtelt meie emakeele tuge loota.

Kommertshuvi eesti keele vastu pole, aga toetusraha ootab

Fakt on, et eesti keel on väike. Statistikaameti andmete järgi ütles viimases rahvaloenduses 886 859 inimest, et nende emakeel on eesti keel. Kui võtta juurde need, kes eesti keelt võõrkeelena oskavad, saame ilmselt veidi üle miljoni eesti keele rääkija.

Meisteri sõnul sõltub keele kõnelejate hulgast, kas eraettevõtted hakkavad sellele kõnetuvastust tegema. “Umbes kümmekond või rohkem aastaid tagasi anti hinnang, et kui keele kõnelejaid on alla kümne miljoni, siis pole see majanduslikult mõttekas. See on olnud üks lähtekoht, miks meil maksumaksja raha eest seda tööd tehakse. Kommertshuvi ei ole,” ütleb Meister.

“Mõned aastad tagasi ütles Google, et nemad teevad kõnetuvastuse kõigile üle ühe miljoni kõnelejaga keelele,” jagab Meister keeletehnoloogia telgitagustes liikuvat infot. Sellise suurusega keeli on maailmas ligi nelisada, kõnetuvastust pakutakse kommertstoodetes Meisteri sõnul umbes kolmekümne keele jagu, kui arvestada ühe keelena näiteks USAs, Suurbritannias ja Uus-Meremaal räägitavad inglise keele variandid.

See on ka üks põhjus, miks Meister loodab, et Eestis leidub hakkajaid ettevõtjaid, kes teadlaste tehtud kõnetehnoloogiale rakendust leiaks. Juhtumisi on selleks valmis ka hulk raha: jaanuari algusest kuni aasta lõpuni saab taotleda toetust sihtasutusest Archimedes. Seal on nutika spetsialiseerumise rakendusuuringute toetusteks 9 miljonit eurot, mis on mõeldud muuhulgas just teadustöö ühendamiseks ettevõtlusega.

Seega ei saa me jääda lootma ülejäänud maailma peale, et keegi eestikeelse kõne infoajastusse tooks, ainult siinsetele teadlastele ja ettevõtjatele.

See artikkel on esimene osa seerias, mis uurib, kuidas me saame arvutitega eesti keeles rääkida. Loe teist lugu siit, kuidas arvuti kõik Eesti raadio- ja telesaated läbi kuulab. Kolmas artikkel uurib, kuidas Eesti arstid on kõnetuvastuse võtnud töösse.

Parandatud 10.02.16: täpsustatud nende keelte arvu, mille kõnelejaid on maailmas üle miljoni.

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.