Alphabet on arendamas kõnesüntesaatorit, mis on äravahetamiseni sarnane inimkõnega

Pane tähele! Artikkel on ilmunud enam kui 5 aastat tagasi ning kuulub Geeniuse digitaalsesse arhiivi.
47rs160527a065.jpg

See, et arvutid rääkida oskavad ei ole mingi uudis. Nagu pole ka see, et arvutite kõne on arusaadavalt robotlik ning masinlik. Google'i emafirma Alphabeti teadlased on arendamas aga uut tüüpi kõnesüntesaatorit, mis võib kõlada täpselt nii, nagu inimkõne.

Varasemad kõnesünteesisüsteemid kasutasid suurt salvestatud inimkõne osakeste ja häälikute kogumit koos keerulise reeglistikuga, mis defineeris, millised tähed kuidas kõlama peaksid. Erinevad lõigukesed liideti kokku, nii et tekkis kõne, mille intonatsioon ja hääletoon jättis küll soovida, aga vähemalt oli see arusaadav.

Järgnevad süsteemid kasutasid hulka parameetreidm mis kõnet genereerisid, muutes selle küll sujuvamaks, kuid ka robotlikumaks.

Alphabeti lahendus läheb aga veelgi sügavamale. WaveNetiks nimetatav süsteem genereerib ühe sämpli häälikute asemel. See tähendab, et sekundis genereeritakse 16000 erinevat sämplit, millest moodustub kõne. Selle jaoks tulebsüsteemile ette anda hiiglaslikkogusinimkõnet, mille järgi see analüüsib intonatsiooni, kõnestiili ja hääletooni ning genereerib selle põhjal ka sämpleid. Süsteem loob ülimalt keerulise reeglite võrgustiku, mis ütleb, milline toon kõnes järgneb millisele. Kuid uue sämpli tooni ei arvestata mitte ainult eelmise sämpli põhjal, vaid arvesse võetakse ka kümned tuhanded eelnevad sämplid.

Kui WaveNeti treenida vaid ühe inimese kõnega, hakkab kõnesüntees jäljendama seda inimest. Kui kasutada aga mitme inimese kõnet, saab lõppkokkuvõttes selgema ja parema tulemuse, kuna ühe inimese kõne või diktsiooni eripära tühistatakse ära teiste inimeste kõnestiiliga.

Täna ei suuda süsteem veel kirjutatud teksti lugeda, see tuleb tõlkida arvutile arusaadavaks foneetiliseks jadaks. Kui seda ei tehta, tekib naljakas lalin, milles võib küll ära tunda inimkõnet, kuid mitte ühtegi sõna.

WaveNeti muudab huvitavaks ka see, et kui seda treenida Ameerika inglise keelega, kõnelebki arvuti selle aktsendiga. Kui aga saksa keelega, kõneleb arvuti nagu sakslane. Ja kui arvutile ette sööta hulk helilooja Frederic Copini muusikat, jäljendab arvuti ka suurmeistri loomingut, luues hoopis uusi teoseid.

Kahjuks ei ole loota, et WaveNet meie nutitelefoniniipea jõuab, sestiga sämpli genereerimine sellises tempos nõuab täna liiga palju arvutusvõimsust.

Kuula WaveNeti helinäiteid ning võrdlusi varasemate kõnesünteesilahendustega siit.

Avafoto: Scanpix

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.