Manoma, kad nesuskubus sukurti lietuvių kalbos saugojimo ir apdorojimo sistemos mūsų kalbos vartojimas skaitmeninėse technologijose smarkiai sumažėtų, o dar vėliau, pasak mokslininkų, galbūt rastume ją nykstančių kalbų sąraše.

Vilniaus universiteto Filologijos fakulteto mokslininkas dr. Audrius Valotka mano, kad iš daugmaž 6 tūkst. šiuo metu pasaulyje gyvuojančių kalbų per artimiausius dešimtmečius tikriausiai nebeliks maždaug trečdalio.

„Dabar viskas vyksta panašiai kaip spaudos atsiradimo laikais Europoje, kai kalbos, kuriomis nepradėta kurti spausdintinių tekstų, per amžių ar kelis tiesiog natūraliai išnyko be didesnių pėdsakų. Tą patį galime pasakyti ir apie kalbas dabartinių technologijų amžiuje – į skaitmeninę erdvę neperkeltos kalbos liks istorijos paraštėse“, – tvirtina filologas.

Technologijos – grėsmė lietuvių kalbai?

Pasak dr. A. Valotkos, šiuolaikiniame pasaulyje kalbos egzistavimas priklauso ne vien nuo ja kalbančių asmenų ar ja parašytų knygų skaičiaus. Technologijoms vis labiau įsigalint kasdieniame gyvenime, svarbia kalbos egzistavimo dalimi tampa ir kalbos vartojimas išmaniųjų įrenginių erdvėje. Juk ir dabar turbūt ne vienas pagalvojame, kada galėsime, pavyzdžiui, savo išmaniajam telefonui komandas duoti gimtąja – lietuvių – kalba.

Paklaustas, kam apskritai reikia tokių technologijų, jei dauguma lietuvių ir taip moka bent vieną ar dvi užsienio kalbas, dr. A. Valotka sako, kad kalbos skaitmeninimas yra būtinas lietuvių kalbai saugoti ir puoselėti. Lietuvių kalba išliks gyvybinga tol, kol ją galėsime perduoti kitoms kartoms, o šios – dar toliau.

„Į skaitmeninę erdvę patenka vis daugiau informacijos, todėl mes, lietuviai, negalime sustoti ir pasiduoti kitų kalbų dominavimui būtent šioje srityje. Kalbos skaitmeninimas kaip tik ir padės išsaugoti bei puoselėti lietuvių kalbą, nes jaunoji karta ir būsimos kartos nebegalės įsivaizduoti savo kasdienio gyvenimo be daugybės išmaniųjų prietaisų bei technologijų“, – teigia mokslininkas.

Į komandą subūrė filologus ir informatikus

Būtent prie tokio uždavinio – apgyvendinti lietuvių kalbą išmaniosiose technologijose – dirba dr. A. Valotkos vadovaujama lietuvių šneka valdomų paslaugų plėtros projekto LIEPA-2 komanda. Ją sudaro trys tyrėjų grupės, kuriose jėgas suvienijo Vilniaus universiteto Filologijos fakulteto lingvistikos ir Matematikos ir informatikos fakulteto informacinių technologijų specialistai.

Taikomosios kalbotyros instituto profesoriaus Vytauto Kardelio vadovaujama projekto garsyno grupė per trejus metus surinks ir anotuos didelę šnekos duomenų bazę – ne mažiau kaip tūkstantį valandų įrašų, įkalbėtų keliais tūkstančiais balsų. Technologiškai sudėtingiausias darbas – programų kūrimas – atiteko atpažintuvo grupei, kuriai vadovauja Matematikos ir informatikos fakulteto Duomenų mokslo ir skaitmeninių technologijų instituto prof. Laimutis Adolfas Telksnys, o šio fakulteto Informatikos instituto docentas Pijus Kasparaitis tobulina ankstesniame projekte LIEPA sukurtą natūralios kalbos sintezatorių, kuriuo, beje, jau dabar galima naudotis Vilniaus miesto savivaldybės, „Lietuvos žinių“ tinklalapiuose, mobiliojoje DELFI versijoje.

Uždavinys, neišsprendžiamas visam pasauliui

Projektą LIEPA-2 įgyvendinantys mokslininkai vieningai teigia, kad pagrindinis jų uždavinys – perkelti mūsų gimtąją kalbą į technologiškai pažangius prietaisus – yra iššūkis ne tik Vilniaus universiteto tyrėjams, bet ir viso pasaulio mokslininkams, nes šnekos atpažinimo problema neblogai išspręsta didžiosiose, komercinėse kalbose (anglų, ispanų), tačiau lietuvių ar kitose mažesnėse kalbose – dar ne.

„Tik atsiradus kompiuteriams, žmonės pradėjo juos naudoti įvairioms paslaugoms teikti. Idėja bendravimui su prietaisais pasitelkti šneką iškilo jau maždaug prieš penkiasdešimt metų, tačiau tik dabar turime pakankamai sparčiai veikiančią kompiuterinę techniką, galinčią susidoroti su tokiu sudėtingu uždaviniu“, – teigia atpažintuvo grupės vadovas prof. L. A. Telksnys.
Projekto LIEPA-2 vadovas dr. A. Valotka kartu su tekstyno grupės vadovu prof. dr. V. Kardeliu

„Be to, reikia nepamiršti, kad mums šnekantis vyksta be galo sudėtingi procesai. Garsas atsiranda tuomet, kai mūsų mintys pavirsta kalbinėmis komandomis, kurios valdo mūsų artikuliacinį aparatą. Kai mes šnekam, balsu virpiname orą, tačiau šie virpėjimai nėra paprasti. Įsivaizduokite, kad duodate komandą išmaniajam prietaisui, bet tuo metu suskamba telefonas, galbūt jūsų balsas yra užkimęs, be to, komandą gali duoti vyras arba moteris. Tačiau visais šiais atvejais mes tikimės, kad prietaisas supras, ką jam sakome“, – apie projekto dalyviams tekusį iššūkį pasakoja Matematikos ir informatikos fakulteto profesorius.

Kaip prisiminė projekto vadovas dr. A. Valotka, kadaise šnekos atpažinimas buvo suvokiamas tik kaip technologinė problema. „Apie 1988 m. viename iš kompiuterių technologijoms skirtų žurnalų aptikau tokią mintį: „Suteikite mums 1 GB operatyviosios atminties (RAM) ir pašnekesio metu bus įmanoma balsu duoti kompiuteriui nurodymą „Konspektuok mūsų pokalbį“, o pokalbio pabaigoje pasiimti iš spausdintuvo pokalbio transkripciją.“ Vieną gigabaitą operatyviosios atminties turime jau seniai, tačiau tai nesuteikė esminio proveržio šnekos atpažinimo technologijose“, – sako tyrėjas.

Sukurs milžinišką balso įrašų biblioteką

Kompiuteriai šneką atpažįsta kaip garso signalą, ir čia, be viso kito, susiduriame su problema, kad kalbėtojai yra labai įvairūs – jauni, seni, pavargę, susinervinę, užkimę ir taip toliau, todėl signalas gali radikaliai skirtis.

„Programa savo duomenų bazėje, kurią galime vadinti ir tam tikra garsų biblioteka, ieško kažko panašaus į tai, ką „girdėjo“. Bet jei tik įsiterpia triukšminga pauzė, tariant nuryjama galūnė, programa sutrinka ir nebesuvokia teksto arba interpretuoja jį klaidingai. Vienas iš sprendimo būdų – sukaupti kuo didesnę anotuotą duomenų bazę“, – projekto subtilybes aiškina jo vadovas. Prie šios užduoties sprendimo prisideda Lietuvos televizija ir radijas, leidžiantis naudotis garso įrašų ištekliais.

Tikslas – perduoti technologiją verslui

„Žmonių veikla vis dažniau persikelia į elektroninę erdvę. Beveik kiekvienas turime kompiuterį, mobilųjį arba jau ir išmanųjį telefoną, namuose daugėja išmaniųjų daiktų. Tad dirbti su šia technika šnekantis, o ne kitokiu būdu įvedant komandas darosi vis aktualiau“, – sako prof. L. A. Telksnys, jau prieš penkiasdešimt metų viename straipsnyje teigęs, kad ateityje turėsime nešiojamus prietaisus, su kuriais galėsime bendrauti savo kalba.

„Jis visuomet buvo technologijų vizionierius, ir panašu, kad pasibaigus projektui LIEPA-2 jo mintys pagaliau taps realybe“, – šypsosi dr. A. Valotka. „Tiesa, neplanuojame sukurti galutinės, rinkai pritaikytos prekės, tačiau mėginsime pasiekti tokią technologinės plėtros stadiją, kai verslas galės pritaikyti mūsų technologiją palyginti nedidelėmis sąnaudomis“, – priduria jis.

Projekto tyrėjų grupė sukurs šešias paslaugas: humanoidinio roboto valdytuvą, ugdantį vaikų gebėjimus priimti sprendimus; skambintuvą, kuris leis balsu valdyti kontaktus mobiliajame telefone; taksi iškviestuvą balsu; mobilųjį šnekos sintezatorių akliesiems, skaitantį tekstus lietuviškai per mobiliuosius telefonus; interneto naujienų skaitytuvą, balsu skaitantį vartotojo pasirinktas naujienas iš interneto, ir nedidelės apimties tarpkalbinį lietuvių–kinų kalbų komunikatorių.

Projektu LIEPA-2 siekiama, kad sintezatoriaus technologija, jau naudojama keliuose didžiuosiuose naujienų portaluose, būtų išmanesnė. Pavyzdžiui, gebėtų suvokti lotyniškais skaitmenimis parašytą amžių, atskirtų įvairius trumpinius. Bus tobulinama ir akustinė dalis, kad sintezatorių būtų galima leisti norimu greičiu, taip jį pritaikant akliesiems, kurie tokias garso sintezavimo programas įprastai leidžia daug greičiau.

„Norime, kad Vilniaus universiteto mokslininkų kuriamos inovatyvios lietuvių šneka valdomų paslaugų technologijos turėtų naudos visuomenei ir lietuvių kalbai, o sukurtomis paslaugomis nemokamai galėtų kasdien naudotis mokiniai, studentai, verslo atstovai, aklieji ir apskritai kiekvienas visuomenės narys. Būtų idealu, kad kai sukursime patį šių technologijų veikimo principą lietuvių kalba, verslo atstovai perimtų ir pradėtų diegti mūsų programą į įvairiausius išmaniuosius prietaisus. Juk ir siekiame, kad lietuvių kalba neatsiliktų nuo pasaulio ir taptų lygiateise skaitmeninio pasaulio dalimi“, – didžiausią mokslininkų grupės siekį pabrėžia dr. A. Valotka.