skip to Main Content

INTELEKTIKA

ŠNEKOS ATPAŽINIMAS IR UŽRAŠYMAS TEKSTU (angl. speech-to-text)

Dėl technologijų pažangos automatinis šnekos atpažinimas ir užrašymas tekstu (angl. speech-to-text) šiais laikais sulaukia vis didesnio dėmesio ir turi ženkliai platesnes pritaikymo galimybes. Tai sąlygoja daug priežasčių. Šios technologijos leidžia žmogui bendrauti su mašina žmogui patogiu būdu (žmogaus šneka), todėl klaviatūra tampa nebereikalinga. Interviu, posėdžių, susirinkimų, apklausų, telefoninių skambučių įrašų ir t.t. fonogramų automatinis transkribavimas tekstu nereikalauja iš žmogaus varginančio, rutininio, daug laiko sąnaudų reikalaujančio darbo. Tai tik keli šių technologijų panaudos atvejai, kuriantys pridėtinę vertę. Paminėtinas ir šių technologijų panaudojimas žmonių su negalia poreikiams tenkinti. Lietuvių kalba yra viena sudėtingiausių, o kartu viena mažiausiai komerciškai patrauklių kalbų. Todėl ilgą laiką nebuvo kokybiškų šnekos užrašymo tekstu priemonių ir sprendimų. VDU nuo 2003 m. vyko šių technologijų tyrimo ir vystymo darbai, bet tik 2020 m. projekte Semantika-2 šiems darbams buvo suteiktas, viešąsias paslaugas teikiančio bazinio modelio išbaigtumas. Lietuvos verslo konfederacija už šio sprendimo sukūrimą universitetui ir kūrėjų komandai suteikė prestižinį „Metų mokslo paslauga verslui 2020 m.“ apdovanojimą. Nors projekte Semantika-2 sukurtas bazinis modelis pritaikytas transkribuoti laisvai formuluojamą ištisinę lietuvių šneką, tačiau jis transkribuoja tik 16 kHz (aukštos kokybės) signalus. UAB „Intelektika“ komanda toliau vysto minėtą bazinį modelį, rengdama priemones 8 kHz signalams (telefoninė, skambučių centrų ir pan. kokybė) transkribuoti, priemones vaizdo konferencijų (ZOOM, MS TEAMS) transkribavimui. Universiteto ir įmonės sprendimai papildomi patogia transkripcijų redagavimo priemone, kuri leidžia fonogramą suderinti su redaguojamos transkripcijos tekstu (įrašas paleidžiamas nuo tos vietos, kuri pažyma kursoriumi tekste). Kuriami sprendimai yra papildyti funkcionalumu, kuris leidžia gauti subtitravimo poreikius tenkinančius, atitinkamai suformatuotus tekstus.

ŠNEKOS SINTEZĖ (angl. text-to-speech)

Dėl technologijų pažangos šnekos sintezė (angl. text-to-speech) šiais laikais sulaukia vis didesnio dėmesio ir turi ženkliai platesnes pritaikymo galimybes. Ypatingą proveržį padarė neuroninių balsų technologijos, kurių dėka mašinos generuotą šneką sunku atskirti nuo žmogaus natūralaus balso. Šios technologijos leidžia mašinai bendrauti su mašina žmogui patogiu būdu (žmogaus šneka), todėl ekranas tampa nereikalingas. Virtualūs asistentai, robotai, efektyvios audio medžiagos iš tekstų kūrimo priemonės, bendravimo su mašina (sąsaja žmogus-mašina) priemonės. Tai tik keli šių technologijų panaudos atvejai, kuriantys pridėtinę vertę. Paminėtinas ir šių technologijų panaudojimas žmonių su negalia poreikiams tenkinti, ypač turinčių kalbos, regos ir disleksijos sutrikimus. Kaip ir šnekos automatinis užrašymas tekstu technolgijų atveju, dėl sudėtingos ir komerciškai nepatrauklios lietuvių kalbos specifikos ilgą laiką nebuvo kokybiškų lietuviškų tekstų automatinio generavimo lietuvių šneka sprendimų. VDU nuo 2005 m. vyko šių technologijų tyrimo ir vystymo darbai (įskaitant inovatyvių automatinio kirčiavimo ir kitų pagalbinių priemonių kūrimą), bet tik 2020 m. universitetui ir įmonei pradėjus vykdyti projektą Nr. 01.2.2-MITA-K-702-09-0043 (detali informacija skiltyje „Projektai“), atsirado galimybė pirmą kartą istorijoje šnekos sintezatoriui suteikti lietuvišką neuroninį balsą. Jau bandomasis modelis sulaukė teigiamų įvertinimų ir nuo 2021 m. vasario mėn. mūsų sintezatorius vienu neuroniniu balsu generuoja Lietuvos nacionalinio radijo ir televizijos interneto žiniasklaidos portalo straipsnių tekstus. Įmonės artimiausi planai, vykdant projektą, sukurti kelis skirtingus neuroninius balsus, gerinti generuojamos šnekos kokybę.

NATŪRALIOS KALBOS APDOROJIMAS (angl. Natural Language Processing) ir NATŪRALIOS KALBOS SUPRATIMAS (angl. Natural Language Understanding)

Natūralią kalbą naudojame kaip kasdienę bendravimo su kitais žmonėmis priemonę per savo įgimtą gebėjimą suprasti, apdoroti ir naudoti žodžius. Anglų, prancūzų, ispanų ir sąrašas tęsiasi. Visos kalbos turi sintaksę ir gramatiką, atitinka ekonomiškumo ir optimalumo principus, nors kartais pasitaiko dviprasmybių. Formalios kalbos, tokios kaip PYTHON, PHP, SQL ir XML, naudojamos informacijai perduoti, kai nėra dviprasmybių. Jie leidžia kompiuteriams dirbti labai efektyviai. Bet iki šiol vienas didžiausių iššūkių yra sukurti kompiuterius, gebančius suprasti natūralią kalbą. Savo ištakose natūralios kalbos technologijos buvo siejamos tik su lingvistikos sritimi, kur jos pirmiausia įsitvirtino tam, kad kompiuteriai padėtų apdoroti didelius natūralios kalbos išteklius ir taip padėtų lingvistams analizuoti kalbą. Laikui bėgant, natūralios kalbos technologijose, greta taisyklėmis grįstų ir statistinių metodų, buvo pradėti taikyti mašininio ir giliojo mokymosi metodai. Tokiu būdu natūralios kalbos apdorojimo technologijos įsiliejo į Dirbtinio intelekto technologijų šeimą bei tapo neatskiriama jų dalimi. Dabar Natūralios kalbos technologijos yra Dirbtinio intelekto technologijų šaka, kuri leidžia mašinai suprasti, interpretuoti ir manipuliuoti žmogaus kalba. Įmonėje dirbantys mokslininkai ir tyrėjai turi didelę ir sėkmingą patirtį kalbos technologijų tyrimų ir taikomųjų sprendimų kūrimo sritse, kurią įgijo Vytauto Didžiojo universitete. Žymiausiais taikomojo pobūdžio projektais paminėtini Semantika-1 ir Semantika-2, kuriuose buvo sukurti sprendimai semantinei kalbos analizei (aspektais grįsta vartotojų nuomonių sentimentų analizė, įvardytų esybių atpažintuvas ir kiti), vektorizuoti kalbos modeliai, paslaugas teikianti informacinė sistema. Lietuvių kalba yra viena sudėtingiausių pasaulyje, o nei vienos paslaugos, susijusios su žmogaus kalba, neįmanoma pilnai skaitmenizuoti ir automatizuoti be natūralios kalbos technologijų pažangos in inovacijų.

Back To Top