skip to Main Content

INTELEKTIKA

Kaip naudotis šnekos sinchroninės sintezės paslauga per vartotojo grafinę sąsają (interneto naršyklėje)?

Su paslaugos raktu sinchroninei sintezei pateikiami trumpi tekstai. Trumpu tekstu laikomas tekstas iki 10 000 simbolių apimties (įskaitant tarpus). Net ir be paslaugos teikimo rakto galite išbandyti šnekos sintezės paslaugą ribota apimtimi, sintezuodami iki 2 000 simbolių (įskaitant tarpus). Išnaudojus šį limitą, užklausos iš to paties IP adreso nebus priimamos.
  • Naudotojo kodas. Šis laukas yra skirtas užpildyti tiems paslaugos naudotojams, kurie yra įsigiję paslaugos teikimo raktą (kodą). Jei kodo neturite – palikite šį lauką tuščią. Dešinėje lauko pusėje esanti akies pavidalo ikona leidžia parodyti arba paslėpti įvedamus naudotojo kodo simbolius. Tuo siekiama apsaugoti jūsų naudotojo kodo privatumą nuo pašalinių akių
  • Tekstas. Šiame lauke įrašykite arba įkelkite tekstą, kurį norite girdėti perskaitomą balsu. Jei turite paslaugos teikimo raktą, viena užklausa galite sintezuoti iki 10 tūkst. simbolių apimties tekstus. Jei viena užklausa norite sintezuoti ilgesnius tekstus (pvz. knygas) – kviečiame naudotis knygų sintezės paslauga.
  • Diktorius. Išsiskleidžiančiame meniu galite pasirinkti balsą, kuriuo norite perskaityti tekstą. Šiuo metu galima rinktis iš dviejų vyriškų (Vytautas, Laimis) ir dviejų moteriškų (Astra, Lina) balsų.
  • Kalbėjimo greitis. Šis slankiklis leidžia pasirinkti kalbėjimo greitį nuo 50% (dvigubai lėtesnis už normalų), 100% (normalus) iki 200% (dvigubai greitesnis už normalų).
  • Sutikimas su naudojimo sąlygomis ir privatumo politika. Tam, kad galėtumėte naudotis šnekos sintezės paslauga, turite susipažinti ir sutikti su paslaugos naudojimo sąlygomis ir įmonės privatumo politika.
  • Preciziškos sintezės įgalinimas. Šis žymimasis langelis leis jums nemokamai pasinaudoti preciziškos šnekos sintezės galimybėmis (žr. paaiškinimus toliau). Pažymėdami šį langelį, jūs sutinkate, kad jūsų siunčiama užklausa gali būti išsaugota paslaugos teikimo serveryje, kas techniškai įgalina serverį suteikti šią paslaugą. Atidžiai perskaitykite paslaugos naudojimo sąlygas.
  • Sukurti. Šis mygtukas paleidžia šnekos sintezės procesą, kuriuo gaunamas balso įrašas, atitinkantis jūsų pateiktą tekstą. Sukūrus balso įrašą, yra sumažinamos jūsų turimos (demonstracinės ar užsakytos) paslaugų apimtys tokiu simbolių kiekiu, kiek jų buvo jūsų pateiktame tekste (įskaitant tapus ir skyrybos ženklus). Sukurtą įrašą galima išsaugoti mp3 formatu savo kompiuteryje. Išsaugojimo būdas priklauso nuo jūsų naudojamos naršyklės. Pvz., Firefox naršyklėje išsaugoma paspaudžiant ant grotuvo dešinėje esančios ikonos, vaizduojančios debesėlį.
  • Užklausos ID (preciziška sintezė). Tai informacinis laukas, kuris užpildomas automatiškai, pasibaigus sintezės procesui. Dažniausiai į jį galima nekreipti dėmesio.
  • Preciziškas tekstas (preciziška sintezė). Šis laukas skirtas redaguoti tekstą tam, kad galėtumėte tiksliau valdyti sintezatoriaus darbą. Tekstas šiame lauke atsiranda automatiškai, pasibaigus sintezės procesui. Lyginant su pradiniu tekstu, preciziškame tekste skaičiai automatiškai pakeisti skaitvardžiais, o kai kurios santrumpos – pilnomis žodžių formomis. Šiame lauke galite taisyti tiek pradinio teksto korektūros klaidas, tiek ir sintezatoriaus automatizmų padarytas klaidas: patikslinti skaitvardžių linksnius ir žodžių kirčiavimą, pakeisti likusias santrumpas pilnomis žodžių formomis. Kirčio ženklams naudojami pasvirieji brūkšniai ir tildės simbolis. Pavyzdžiui žodžiai n{a~}mo, š{a/}uk, kas{a\} bus atitinkamai ištarti, kaip kirčiuoti riestiniu, dešininiu ir kairiniu kirčio ženklais.
  • Perkurti (preciziška sintezė). Šis mygtukas sintezuoja balso įrašą pagal precizišką tekstą. Vienas perkūrimo procesas yra nemokamas, t. y. jūsų turimos (demonstracinės ar užsakytos) paslaugų apimtys dėl to nesumažėja. Antras ir vėlesni preciziškos sintezės procesai įtraukiami į jūsų užsakytų paslaugų apskaitą. Jei preciziškas tekstas smarkiai skirsis nuo pradinio teksto, paslauga nebus suteikiama.
  • Atidėtas redagavimas (preciziška sintezė). Jei norite uždaryti naršyklę, o precizišką tekstą redaguoti kažkada ateityje, turėtumėte įsiminti tiek užklausos ID, tiek ir precizišką tekstą. Redagavimo procesą galėsite tęsti iš naujo atidarytame paslaugos puslapyje užpildę šiuos du laukus. Rezultatas mūsų serveriuose saugomas 5 dienas nuo konkrečios užklausos (pagal ID) pirminio susintezavimo.

Kaip naudotis šnekos transkripcijos paslauga per vartotojo grafinę sąsają (interneto naršyklėje)?

Su paslaugos raktu transkripcijos serveriui galima pateikti iki 2 val. trukmės audio arba video failą. Be paslaugos teikimo rakto galima išbandyti šnekos atpažinimo paslaugą ribota apimtimi, transkribuojant iki 10 min trukmės įrašus. Išnaudojus šį limitą, užklausos iš to paties IP adreso nebus priimamos.

 

Dėmesio: kai kurios elektroninio pašto programos mūsų sistemos siunčiamus informacinius laiškus apie paslaugos vykdymo eigą ir pabaigą gali laikyti reklaminiais laiškais ir nukreipti į nepageidaujamos reklamos dėžutę (junk mail). 
Šnekos atpažinimo paslaugos naudotojo grafinę sąsają sudaro du skyriai „Užduotis“ ir „Rezultatas“. Skyriuje „Užduotis“ jūs galite šnekos atpažinimo sistemai pateikti garso arba vaizdo transkribavimo tekstu užduotį. Skyriuje „Rezultatas“ jūs galite matyti arba iš čia atsisiųsti transkripcijos rezultatus. Dėmesio: paslaugų rezultatai (transkripcija ir pradinis įrašo failas) paslaugų serveryje saugomi 5 dienas nuo paslaugos suteikimo datos.
Skyrius Užduotis:
  • Naudotojo kodas. Šį lauką reikia užpildyti tik tiems paslaugos naudotojams, kurie yra įsigiję paslaugos teikimo raktą (kodą). Jei kodo neturite – palikite šį lauką tuščią. Dešinėje lauko pusėje esanti akies pavidalo ikona leidžia parodyti arba paslėpti įvedamus naudotojo kodo simbolius. Tuo siekiama apsaugoti jūsų naudotojo kodo. privatumą nuo pašalinių akių
  • Audio / Spec. Audio / Video / Zoom kortelės leidžia pasirinkti norimą transkripcijos užduoties tipą, suformuluoti užduotį ir pateikti ją paslaugų serveriui.
  • Naudokite Audio kortelę, jei norite transkribuoti geros kokybės garso įrašą (bent 16 kHz) WAV, MP3 arba M4A formatu.
  • Naudokite Spec. Audio kortelę, jei norite transkribuoti žemesnės kokybės garso įrašą (8 kHz, kuris atitinka „laidinio“ analoginio telefoninio signalą) WAV, MP3 arba M4A formatu.
  • Naudokite Video kortelę, jei norite transkribuoti MP4 formato video įrašą (pvz. Microsoft Teams arba Zoom vaizdo konferenciją). Šį užduoties tipą galima rinktis tik tuo atveju, jei siunčiate užklausą iš kompiuterio (o ne mobilaus telefono ar planšetės)..
  • Naudokite Zoom kortelę, jei norite transkribuoti pokalbį įrašytą taip, kad kiekvieno kalbėtojo šneka yra saugoma atskirame faile (pvz. įrašas darytas Zoom platformoje arba kita skirtingus kalbėtojus atskirais kanalais įrašinėjančia technika). Įkelkite visus pokalbio dalyvių garso įrašo failus (maks. 10 failų). Sistema juos transkribuos ir apjungs gautas transkripcijas į vieną protokolą.
  • Nors skirtingiems užduočių tipams sistema naudoja skirtingus apdorojimo mechanizmus, tačiau kortelėse naudojami tie patys, žemiau aprašyti naudotojo sąsajos komponentai:
  • Failas (įtempkite failą). Galite pateikti audio / video failą apdorojimui, pele „nutempdami“ jį ant šio lauko. Kitas būdas pateikti failą (-us) apdorojimui yra paspausti dešinėje lauko pusėje esančią sąvaržėlės ikoną, kuri iškviečia failų tvarkyklę ir leidžia jums pasirinkti reikiamą failą jūsų kompiuteryje. Paspaudę mikrofono ikoną, galėsite basu įkalbėti tai, ką norite paversti tekstu. Mikrofono ikona yra aktyvi tik „Audio“ užduoties tipo atveju.
  • Kalbėtojų skaičius. Išsiskleidžiančiame meniu galite pasirinkti, kiek kalbėtojų kalba jūsų pateikiamame įraše. Jei žinote, kad įraše kalba 1 ar 2 kalbėtojai, pasirinkite atitinkamą meniu punktą. Pasirinkimas „Pasirinkti automatiškai“ rekomenduojamas tada, kai įraše kalba daugiau nei du kalbėtojai arba jei jūs nežinote tikslaus kalbėtojų skaičiaus. Tikrovę atitinkantis arba neatitinkantis pasirinkimas gali įtakoti geresnius arba blogesnius transkripcijos rezultatus. “Atskiruose audio takeliuose” skirta stereo mikrofonu darytam įrašui, kai du kalbėtojai įrašomi į skirtingus stereo signalo takelius.
  • El. paštas. Šiame lauke pateiktas el. pašto adresas bus naudojamas informuoti jus apie jūsų pateiktos užklausos būseną ir perduoti jums gautus transkripcijos rezultatus. El. pašto adresas niekaip nesiejamas su paslaugos naudotoju ir naudojamas vien tik paslaugos teikimo tikslais (žr. Naudojimo sąlygos).
  • Sutikimas su naudojimosi sąlygomis ir privatumo politika. Tik patvirtinę, kad susipažinote su mūsų paslaugų naudojimosi sąlygomis ir privatumo politika, aktyvuosite mygtuką „Vykdyti“ ir galėsite išsiųsti užduotį paslaugos serveriui.
  • Vykdyti. Šis mygtukas aktyvuojamas, kai patvirtinate, kad susipažinote ir sutinkate su paslaugų naudojimosi sąlygomis bei privatumo politika. Paspaudus šį mygtuką, sistema patikrins, ar jūsų siunčiamos užklausos parametrai tinkamai suformuluoti, ar tinkamas siunčiamo failo formatas. Jei naudojatės paslaugos teikimo raktu, sistema taip pat patikrins, ar užsakymui įvykdyti pakanka raktui priskirtų kreditų. Jei paslaugos teikimui kliūčių nėra, sistema informuos jus žinute, kad užduotis pradėta vykdyti.
Skyrius Rezultatas:
  • Trankripcijos ID. Paslaugos serveris, gavęs užklausą, jūsų nurodytu el. pašto adresu išsiunčia žinutę, kuria informuoja apie darbo pradžią ir nurodo šiai užklausai suteiktą unikalų kodą (Transkripcijos ID). Jei, pateikę užklausą, per keletą minučių negaunate tokios informacinės žinutės – patikrinkite savo pašto dėžutės brukalų skyrių. Įvykdęs užklausą, paslaugos serveris kitu el. laišku informuos jus apie darbo pabaigą. Transkripcijos ID kodas leidžia stebėti besikeičiančią jūsų užklausos vykdymo būseną, o kai užklausa bus įvykdyta – pasiekti transkripcijos rezultatus. Tam pakanka paspausti nuorodą, esančią atsiųstose el. pašto žinutėse.
  • Atnaujinti. Pateikę el. paštu gautą unikalų Transkripcijos ID kodą, galite stebėti atnaujintą jūsų užklausos būseną.
  • Įvykdęs užklausą, paslaugos serveris naršyklėje atnaujins naudotojo sąsają ir parodys Rezultatų failus, kuriuos galima Atsisiųsti arba Atidaryti redaktoriuje.
  • Rezultatas (.txt) – tai transkripcijos rezultatų failas TXT (angl. plain text) formatu, kurį naudotojas toliau gali redaguoti savo kompiuteryje OpenOffice, Word, Notepad arba kitu jam patogiu redaktoriumi.
  • Sinchronizavimo rezultatas – tai transkripcijos rezultatų failas, kuris gali būti redaguojamas specialiai mūsų sukurtu redaktoriumi, kartu naudojantis galimybe išklausyti redaguojamų žodžių tarimą.
  • WebVTT (.txt) – tai transkripcijos rezultatų failas, pritaikytas video įrašų subtitravimo reikmėms. Šį failą galima atidaryti su video grotuvu (pvz., su programa VLC video player).
  • Atidaryti redaktoriuje. Paspaudus šį mygtuką, atveriamas naujas naršyklės skirtukas, kuriame naudotojas (-ja) transkripcijos rezultatą gali redaguoti minėtame specialiame transkripcijų redaktoriuje, kuriame tekstinė transkripcija yra sinchronizuota su garso įrašu.
  • Tranksripcijos rezultatas – tai demonstracinės paskirties laukas, kuriame pavaizduojami keli pirmieji gautos transkripcijos sakiniai.
  • Pradinis įrašas. Jei paspausite šio lauko dešinėje esančią rodyklės ikoną, galėsite išklausyti paslaugos serveriui pateiktą garso įrašą. Jei paspausite greta esančią debesėlio ikoną, galėsite užklausos failą atsisiųsti į savo kompiuterį. Ši funkcija gali būti naudinga tuo atveju, jei praradote užklausos garso įrašą arba jei siuntėte video failą ir norite atskirai išsaugoti šio failo audio takelį.

Kaip naudotis šnekos sinchroninės sintezės paslauga per API?

Užklausos pavyzdys naudojant curl:
curl -X POST https://sinteze.intelektika.lt/synthesis.service/prod/synthesize \
-H ‘Accept: application/json’ \
-H ‘Content-Type: application/json’ \
-H ‘Authorization: Key xxxxxxxxxxxxxxxxxxxxxxxxxxxx’ \
-d ‘{ “text”: “Labas rytas!”, “outputFormat”: “mp3”, “outputTextFormat”: “none”, “saveRequest”: false, “speed”: 1, “voice”:”laimis”}’

Grąžinamas rezultatas: { “audioAsString”: “SUQz …” } . audioAsString yra mp3 arba m4a duomenys, koduoti base64 formatu

Papildoma informacija: https://app.swaggerhub.com/apis/intelektika.lt/synthesis/

Balsų sąrašas:
neuroniniai moteriškai:

  • astra
  • lina

neuroniniai vyriški:

  • vytautas
  • laimis

Kaip naudotis šnekos transkripcijos paslauga per API?

  • Siunčiame failą “test.wav” (pavyzdžiai naudojant curl): curl -X POST -k https://atpazinimas.intelektika.lt/ausis/transcriber/upload -H ‘Accept: application/json’ -H ‘content-type: multipart/form-data’ -H ‘Authorization: Key xxxxxxxxxxxxxxxxxxxxxxxxxxxx’ -F recognizer=ben -F numberOfSpeakers=1 -F file=@test.wav . Gauname transkripcijos ID (pvz., d8abd15b-5a63-4859-b6bb-0795f3b5a3e6).
  • Tikriname transkripcijos statusą, kol baigta (status == “COMPLETED” || errorCode != “”):
    curl -X GET -i -k https://atpazinimas.intelektika.lt/ausis/status.service/status/d8abd15b-5a63-4859-b6bb-0795f3b5a3e6 -H “accept: application/json”
  • Paimame rezultatus:
    curl -X GET -k https://atpazinimas.intelektika.lt/ausis/result.service/result/d8abd15b-5a63-4859-b6bb-0795f3b5a3e6/resultFinal.txt
    curl -X GET -k https://atpazinimas.intelektika.lt/ausis/result.service/result/d8abd15b-5a63-4859-b6bb-0795f3b5a3e6/webvtt.txt
  • Parametrai: spec. kokybės audio įrašui (žemos kokybės/telefoninis) recognizers parametras turi būti audioPhone arba ben-tel , kitu atveju: audioDefault arba ben
Back To Top