Kodėl tokia sistema reikalinga?

Lietuvių kalbos sintaksinės ir semantinės analizės informacinė sistema, trumpai vadinama tiesiog „Semantika“, yra skirta elektroninio teksto lietuvių kalba automatinei analizei.

Sistemą sukūrė VDU mokslininkai kartu su projekto partnerio, Kauno technologijos universiteto (KTU), mokslininkais bei projektui paslaugas teikusiomis informacinių technologijų įmonėmis. „Semantika“ apima visą eilę atvirojo kodo informacinių technologijų priemonių bei įrankių ir teikia elektronines paslaugas, kurios yra pavyzdiniai projekte sukurtų automatinių kalbos analizės sprendimų panaudos atvejai, šiuo metu kuriama antroji sistemos versija „Semantika 2”.

Darius Amilevičius

„Dažnai tenka išgirsti, kad tai, ką darome, beprasmiška, nes Google viską jau padarė. Noriu patikslinti. Google yra privati užsienio kompanija, kuri bet kada gali nutraukti vienos arba kitos paslaugos teikimą. Lietuvos rinka komerciškai nepatraukli, todėl sunku įsivaizduoti, kad Google sprendimų lietuvių kalbai kokybė prilygs sprendimams anglų kalba. Viešojo sektoriaus institucijos negali naudotis užsienio privačios kompanijos paslaugomis, nes turėtų suteikti prieigą prie svarbių dokumentų, kuriuose gali būti slapta informacija.

Tai tik kelios iš pagrindinių priežasčių, kodėl viešasis sektorius tokio pobūdžio programinę įrangą turi susikurti nepriklausomą ir saugią. Svarbus aspektas – pasaulinius standartus atitinkantis atvirasis kodas. Jis leidžia bet kada patikrinti, ar kūrėjas programinėje įrangoje nėra palikęs kenkėjiško programinio kodo ir sudaro palankias sąlygas konkurencijai, nes kokybiškus tolesnius sistemos vystymus ir sistemų palaikymą gali pasiūlyti daugiau įmonių. Daugiau informacijos apie atvirojo kodo programinės įrangos teigiamas savybes DELFI neseniai pateikė profesorė Valentina Dagienė“, – apie „Semantikos“ idėją kalbėjo D. Amilevičius.

Auditorija – labai plati

D. Amilevičiaus teigimu, ši sistema naudinga ne tik tiems, kas nėra užtikrinti dėl teksto rašybos. Ji taip pat gali būti naudojama ir kaip enciklopedinis arba kontekstinis žodynas arba praktinė lietuvių kalbos mokymo ar mokymosi priemonė, tyrimų įrankis lingvistams, ieškantiems gausių autentiškos lietuvių kalbos pavyzdžių.

„Paslaugos teikiamos ne tik per interneto naršyklę – kai kurios teikiamos ir kaip saityno paslaugos. Todėl kalbos technologijų specialistams nereikia apkrauti savo kompiuterių baziniais teksto analizatoriais arba rūpintis jų kūrimu. Visi sistemoje sukurti analizatoriai yra nemokama atvirojo kodo programinė įranga. Todėl ją gali ir pakartotinai naudoti su kalbos technologijomis susijusių skaitmeninių produktų bei elektroninių paslaugų kūrėjai.

Šiuo metu Lietuvoje dėl nepakankamai efektyvaus mokslo ir verslo dialogo bei bendradarbiavimo lietuvių kalbos technologijų ir lingvistinių tyrimų kompetencijos sutelktos universitetuose. Kalbos technologijų projektų įgyvendinimas kartu su privačiomis įmonėmis yra vienas iš būdų šias kompetencijas ir lietuvių kalbai tinkamus elektroninius sprendimus perduoti verslui. Atkreipčiau dėmesį į tai, kad kalbos technologijos yra viena iš pagrindinių dirbtinio intelekto technologijų, padedančių mašinai suprasti žmogaus kalbą ir tekstą“, – mano specialistas.

Kuriamos naujovės

Pasak D. Amilevičiaus, modernizuojamos sistemos paslaugos bus naudingos žymiai platesniam vartotojų ratui.

„2017 m. gruodžio mėn. pradėjome įgyvendinti ES struktūrinių fondų ir LR biudžeto lėšomis finansuojamą projektą „Semantika 2”, kurio tikslas – vystyti ir modernizuoti dabartinę sistemą, sukurti naujas elektronines paslaugas, modernizuoti jau teikiamas. Iš naujai kuriamų elektroninių paslaugų paminėtinos kelios.

Lietuviškos fonogramos transkribavimo tekstu elektroninė paslauga. Ši paslauga vartotojo pateiktą susirinkimo, interviu, bendravimo su klientu ar kitą lietuvišką fonogramą transkribuos tekstu. <...> Kadangi fonogramose gali būti komercinių paslapčių arba netgi valstybinių paslapčių, kai kurios institucijos vis dar nepatikliai žiūri į debesijos paslaugas. Todėl paslaugą teikiančią programinę įrangą mes pateiksime kaip nemokamą atvirojo kodo IT sprendimą, kurį institucija galės įsidiegti savo tarnybinėse stotyse. Šiuo atveju institucijos darbuotojai galės pasinaudoti specialiu redaktoriumi, kuris redaguojamą transkribuotą tekstą sinchronizuos su fonograma.

Automatinė santraukų sudarymo paslauga. Ši paslauga automatiškai sudarys ilgo teksto santrauką.

Interneto socialinių tinklų tekstų kalba žymiai skiriasi nuo bendrinės, o būtent interneto socialinė žiniasklaida pateikia gausią ir vertingą informaciją apie vartotojų nuomones, kuriame elektronines priemones būtent šios kalbos automatinei analizei.

Pavyzdžiui, bus sukurta norimos ir tinkamos universitetinių studijų programos pasirinkimo paslauga, kuri jaunuoliams ir jų tėvams pateiks Lietuvos universitetinių studijų programų apibendrintus vertinimus interneto socialinėje žiniasklaidoje. Programinės įrangos kūrėjai nemokamus atvirojo kodo sprendimus galės panaudoti kurdami su vartotojų nuomonių automatine analize susijusias paslaugas“ – pasakoja D. Amilevičius.

Bene populiariausią paslaugą – rašybos klaidų taisymą – planuojama modernizuoti ir pritaikyti naudojimui su kitomis programomis.

„Modernizuosime rašybos klaidų taisymo elektroninę paslaugą. Vartotojas galės tekstą atsiųsti ir nurodytu elektroniniu paštu gauti automatiškai ištaisytą rezultatą. Skatindami ir palaikydami atvirojo kodo programinės įrangos naudojimą, rašybos klaidų taisymo sprendimą padarysime suderinamą su Libre Office ir Open Office paketais, todėl vartotojas, naudojantis šiuos paketus, rašybos klaidų tikrintuvą galės įsidiegti savo kompiuteryje. „Semantikoje“ sukurtas ir „Semantikoje 2” modernizuojamas rašybos tikrintuvas suderinamas su OS X ir kitomis sistemomis, todėl modernizuotas rašybos klaidų tikrintuvas galės būti diegiamas ir Apple kompiuteriuose“, – nurodo D. Amilevičius.

Taip pat modernizuojamas paieškos Bendrajame interneto tekstyne mechanizmas, stengiamasi labiau pritaikyti jį lietuvių kalbai ir patobulindami paieškos mechanizmą (angl. query expansion).

Kodėl svarbu į tai investuoti?

Paklaustas, kokiems sprendimams prireiks daugiausiai lėšų, specialistas teigė, kad atsakyti į šį klausimą vienareikšmiškai sudėtinga.

„Žiūrint formaliai, daugiausiai naujojo projekto lėšų skiriama transkribavimo elektroninės paslaugos ir informacinės sistemos modernizavimui, ją pritaikant veikti debesijos paslaugų teikėjo infrastruktūroje (šis reikalavimas iškeltas visiems priemonės „Lietuvių kalba informacinėse technologijose“ projektams).

Paskutiniu metu karštas viešas diskusijas skatina publikacijos apie sumas, skiriamas lietuvių kalbos technologijoms. Šias Europos Sąjungos struktūrinių fondų investicijas į kalbos technologijų vystymą traktuoju kaip ES įsipareigojimų palaikyti ir puoselėti mažų ES valstybių narių kalbas vykdymą“, – sako D. Amilevičius.

Apklausę kelis skirtingose srityse dirbančius žmones apie dabartinę sistemą sulaukėme atsakymų, kad sunku surasti reikiamą paslaugą. Anot D. Amilevičiaus, anksčiau sistemą naudoję vartotojai teigė, jog su šia problema nesusiduria.

„Dėkojame, kad leidote išgirsti ir kitokią nuomonę. Modernizuota sistema tikrai turės patobulintą dizainą, daugiau dėmesio skirsime vartotojų informavimui apie teikiamas paslaugas, naudojimosi jomis vaizdo pamokas įdėsime į specialų YouTube vaizdo kanalą. Atkreiptinas dėmesys į tai, kad ir dabartinėje svetainėje prie kiekvienos paslaugos yra mygtukas „Daugiau“, kuris pateikia išsamesnį konkrečios paslaugos aprašą. Tačiau dėl prasidėjusių modernizavimo darbų galimi laikini sistemos sutrikimai, kuriuos operatyviai šaliname“, – DELFI sakė specialistas.

Nuomonė iš šalies

Teisės srityje dirbantis Vytautas teigė, jog anksčiau apie šią sistemą neteko girdėti.

Rašybos klaidų taisymas – jo kasdienybė dalis, tačiau, pasak jo, kol kas užtenka MS Office programoje esančių funkcijų. Kalbant apie transkribavimo paslaugą, anot Vytauto, ja pasinaudotų tuo atveju, jei programa viską atliks preciziškai tiksliai.

Semantika.lt puslapio nuotrauka

„Automatinis rašybos klaidų tikrinimas reikalingas ir naudingas dalykas. Pirma, klientai dažnai teisininkų darbą pirmiausiai vertina pagal rašybos klaidas dokumente (pirmas įspūdis dažnai būna toks, kad jei trūksta kablelio ar praleista raidė, vadinasi, ir teisiniai argumentai ar sutartis silpna).

Antra, naudojantis automatiniu klaidų taisymu gali greičiau parengti dokumentą – greičiau spausdinti, mažiau atidžiai peržvelgti kiekvieną žodį ir panašiai, kadangi kiekviena praleista raidė bus pažymėta.

Kita vertus, nesu tikras, ar tam reikalingas atskiras įrankis – kol kas užtenka MS Office rašybos tikrinimo įskiepio tiek Word, tiek Outlook programose“.

Automatinės tekstų analizės paslaugos naudojimo kasdieniame teisininkų darbe jis teigia neįsivaizduojantis, tačiau ištisinės šnekos atpažinimo (transkribavimo) paslauga, jo manymu, gali būti labai aktuali.

Visgi pirmą kartą užėjus į svetainę, anot Vytauto, viskas atrodo senoviškai ir nedraugiškai vartotojui.

„Pavyzdžiui, pirmajame puslapyje pateiktas paslaugų sąrašas, tačiau paskaičius visų paslaugų aprašymus kas trečia paslauga nėaiški. Norint suprasti šio tinklapio teikiamas paslaugas, panašu, reikia pradžioje pasinaudoti jo teikiama teksto analizė paslauga“, – apibendrino Vytautas.

Jam nepavyko sėkmingai pasinaudoti dabartinėmis elektroninėmis paslaugomis.

Komunikacijos srityje dirbantis Tomas teigė, kad neteko naudotis šioje sistemoje esančiomis paslaugomis, bet jis turi draugų kalbininkų, kurie ja naudojasi. Anot jo, atsiliepimai geri, jo draugai sako, kad įrankis padeda ir yra naudingas.

Nors jam pačiam pasinaudoti „Semantika“ dar tik planuoja, pašnekovas teigia, kad supranta jos aktualumą.

„Man tai atrodo svarbus ir reikalingas dalykas, kadangi pastebiu, kad žmonės daro labai daug gėdingų klaidų. Kartais ne tiek dėl nežinojimo, kiek dėl skubėjimo ir neatidumo. Tai tokie dalykai tikrai turėtų sumažinti klaidų skaičių ir tai yra gerai.

Elektroninė paslauga atrodo visai suprantama. Tiesa, reiktų daugiau laiko įprasti ja naudotis. Žinoma, dizainą galima tobulinti”, – teigė Tomas.

Žiniasklaidoje dirbanti Aurelija nurodė, kad sistemos dizainas, jos nuomone, kol kas per daug sudėtingas. Visgi ji sutinka, kad tokie teksto analizės įrankiai reikalingi ir aktualūs.

„Kai kam tai yra tikrai aktualu – rašant tekstus, įvairius mokslo darbus. Tačiau, manau, kad rašybos turėtų žmogus mokytis mokykloje – lietuvių kalbos pamokose, skaitydamas, bendraudamas su kalbininkais, o ne internete, tikrindamas savo rašinius programų pagalba. Kitaip tariant, esu skeptikė šiuo klausimu”, – savo nuomonę išsakė Aurelija.

Šaltinis
Temos
Griežtai draudžiama DELFI paskelbtą informaciją panaudoti kitose interneto svetainėse, žiniasklaidos priemonėse ar kitur arba platinti mūsų medžiagą kuriuo nors pavidalu be sutikimo, o jei sutikimas gautas, būtina nurodyti DELFI kaip šaltinį.
www.DELFI.lt
Prisijungti prie diskusijos Rodyti diskusiją (9)