Kalbos technologijos



ŠNEKOS ATPAŽINIMAS IR UŽRAŠYMAS TEKSTU (angl. speech-to-text)

Dėl technologijų pažangos automatinis šnekos atpažinimas ir užrašymas tekstu (angl. speech-to-text) šiais laikais sulaukia vis didesnio dėmesio ir turi ženkliai platesnes pritaikymo galimybes. Tai sąlygoja daug priežasčių. Šios technologijos leidžia žmogui bendrauti su mašina žmogui patogiu būdu (žmogaus šneka), todėl klaviatūra tampa nebereikalinga. Interviu, posėdžių, susirinkimų, apklausų, telefoninių skambučių įrašų ir t.t. fonogramų automatinis transkribavimas tekstu nereikalauja iš žmogaus varginančio, rutininio, daug laiko sąnaudų reikalaujančio darbo. Tai tik keli šių technologijų panaudos atvejai, kuriantys pridėtinę vertę. Paminėtinas ir šių technologijų panaudojimas žmonių su negalia poreikiams tenkinti. Lietuvių kalba yra viena sudėtingiausių, o kartu viena mažiausiai komerciškai patrauklių kalbų. Todėl ilgą laiką nebuvo kokybiškų šnekos užrašymo tekstu priemonių ir sprendimų. VDU nuo 2003 m. vyko šių technologijų tyrimo ir vystymo darbai, bet tik 2020 m. projekte Semantika-2 šiems darbams buvo suteiktas, viešąsias paslaugas teikiančio bazinio modelio išbaigtumas. Lietuvos verslo konfederacija už šio sprendimo sukūrimą universitetui ir kūrėjų komandai suteikė prestižinį „Metų mokslo paslauga verslui 2020 m.“ apdovanojimą (fotografija žemiau). Nors projekte Semantika-2 sukurtas bazinis modelis pritaikytas transkribuoti laisvai formuluojamą ištisinę lietuvių šneką, tačiau jis transkribuoja tik 16 kHz (aukštos kokybės) signalus. UAB „Intelektika“ komanda toliau vysto minėtą bazinį modelį, rengdama priemones 8 kHz signalams (telefoninė, skambučių centrų ir pan. kokybė) transkribuoti, priemones vaizdo konferencijų (ZOOM, MS TEAMS) transkribavimui. Universiteto ir įmonės sprendimai papildomi patogia transkripcijų redagavimo priemone, kuri leidžia fonogramą suderinti su redaguojamos transkripcijos tekstu (įrašas paleidžiamas nuo tos vietos, kuri pažyma kursoriumi tekste). Kuriami sprendimai yra papildyti funkcionalumu, kuris leidžia gauti subtitravimo poreikius tenkinančius, atitinkamai suformatuotus tekstus.

ŠNEKOS SINTEZĖ (angl. text-to-speech)

Dėl technologijų pažangos šnekos sintezė (angl. text-to-speech) šiais laikais sulaukia vis didesnio dėmesio ir turi ženkliai platesnes pritaikymo galimybes. Ypatingą proveržį padarė neuroninių balsų technologijos, kurių dėka mašinos generuotą šneką sunku atskirti nuo žmogaus natūralaus balso. Šios technologijos leidžia mašinai bendrauti su mašina žmogui patogiu būdu (žmogaus šneka), todėl ekranas tampa nereikalingas. Virtualūs asistentai, robotai, efektyvios audio medžiagos iš tekstų kūrimo priemonės, bendravimo su mašina (sąsaja žmogus-mašina) priemonės. Tai tik keli šių technologijų panaudos atvejai, kuriantys pridėtinę vertę. Paminėtinas ir šių technologijų panaudojimas žmonių su negalia poreikiams tenkinti, ypač turinčių kalbos, regos ir disleksijos sutrikimus. Kaip ir šnekos automatinis užrašymas tekstu technolgijų atveju, dėl sudėtingos ir komerciškai nepatrauklios lietuvių kalbos specifikos ilgą laiką nebuvo kokybiškų lietuviškų tekstų automatinio generavimo lietuvių šneka sprendimų. VDU nuo 2005 m. vyko šių technologijų tyrimo ir vystymo darbai (įskaitant inovatyvių automatinio kirčiavimo ir kitų pagalbinių priemonių kūrimą), bet tik 2020 m. universitetui ir įmonei pradėjus vykdyti projektą Nr. 01.2.2-MITA-K-702-09-0043 (detali informacija skiltyje „Projektai“), atsirado galimybė pirmą kartą istorijoje šnekos sintezatoriui suteikti lietuvišką neuroninį balsą. Jau bandomasis modelis sulaukė teigiamų įvertinimų ir nuo 2021 m. vasario mėn. mūsų sintezatorius vienu neuroniniu balsu generuoja Lietuvos nacionalinio radijo ir televizijos interneto žiniasklaidos portalo straipsnių tekstus. Įmonės artimiausi planai, vykdant projektą, sukurti kelis skirtingus neuroninius balsus, gerinti generuojamos šnekos kokybę.

Image: