Mitchellis Feldmanas yra „XRAI Glass“ startuolio bendraįkūrėjas ir rinkodaros vadovas – pranešimą jis skaitys LOGIN 2023 konferencijoje, kur žada pristatyti ir naujienų. Tačiau nekantravau dar iš anksto jį pašnekinti ir daugiau sužinoti apie siūlomą inovaciją, sutilpusią į išmaniuosius akinius.

„XRAI Glass“ apie savo kuriamą produktą paskelbė pernai liepą, komercinis produktas startavo lapkritį, o šiuo metu keli tūkstančiai vartotojų akinius naudoja 71-oje šalyje, ir jų daugėja gana sparčiai.

„Dar neturėjome nei vieno blogo atsiliepimo“, – patikina M. Feldmantas.

Įmonės siūlomi akiniai iš išvaizdos nelabai daug skiriasi nuo įprastų akinių nuo saulės. Naudojama „Nreal Air“ papildytos realybės akinių platforma, kurioje veikia įmonės programinė įranga. Šiuose akiniuose, kaip nurodo prietaisų gamintojas, naudojami itin kontrastingi OLED ekranai, jų raiška siekia 3840x1080 pikselių.

„XRAI Glass“ buvo sukurtas ir pagamintas taip, kad padėtų kurtiesiems ar neprigirdintiems žmonėms, taip pat tiems, kurie turi neurologinių iššūkių, kad galėtų geriau įsitraukti į pokalbius. Kad įgyvendintume, naudojame papildytos realybės technologiją klausytis pokalbių aplink naudotoją ir tuomet pateikti jam subtitrus tiesiai prieš akis“, – paaiškina M. Feldmanas.
Mitchellis Feldmanas yra „XRAI Glass“ startuolio bendraįkūrėjas ir rinkodaros vadovas

Jis skaičiuoja, kad jau dabar galima vertimus ir subtitrus pateikti tarp 76 skirtingų kalbų, o sąrašas nuolat pildomas. Įmonė netgi reklamuoja galimybę išversti savo augintinių kalbą.

„Mes nenorėjome išradinėti dviračio – dėl to naudojamės visais pirmaujančiais transkripcijos paslaugų teikėjais debesyse, tokiais kaip AWS, Microsoft Azure, „Google Cloud Platform“, ir įvairiais kitais, pvz., „Deepgram“. Mes leidžiame patiems vartotojams pasirinkti, kurio teikėjo jis nori, kadangi kai kuriuose regionuose ar kai kuriuose dialektuose, kalbose skirtingi sprendimai veikia geriau. Tad vartotojai turi pasirinkimo laisvę“, – dėsto M. Feldmanas.

Atskiria kalbėtojus, tikslumas – 92-95 proc.

Kaip akinių naudojimas atrodo realybėje – vartotojas pasirenka dvi kalbas, iš kurios ir į kurią reikia versti. Pavyzdžiui, jei lietuvis kalbasi su italu, jis per išmaniuosius akinius italui kalbant matys subtitrus lietuviškai – automatinį vertimą.

„Dar taikoma technologija, vadinama kalbėtojų atskyrimu – tai reiškia, kad vietoje vientiso teksto sistema gali atskirti kelis asmenis pokalbiuose, identifikuoti pirmą, antrą ar trečią kalbėtoją, ir priskirti jiems jų sakomus žodžius, kad būtų galima lengviau suprasti ir įsitraukti“, – pristato M. Feldmanas.

Atrodytų, labai daug kas galėtų įvykti netinkamai. Galbūt pašnekovas kalbėjo per tyliai, ar buvo kitų garso trikdžių, galbūt sistema netinkamai interpretavo ir išvertė. Jau dabar, anot bendraįkūrėjo, kalbos modelių tikslumas siekia 92-95 procentus.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

„Žinoma, yra kintamųjų, kadangi gali būti skirtingų neplankių situacijų ar aplinkų, pvz., restorane, kur labai triukšminga, arba vienu metu kalba keli žmonės vieni per kitus, tai visuomet yra iššūkis. Garsas mūsų įmonei yra ir geriausias draugas, ir didžiausias priešas, ir turime su tuo susitvarkyti. Idealiame pasaulyje norime priartėti prie 100 proc. tikslumo. Nors 92-95 proc. Iš vienos pusės skamba gerai, iš kitos pusės labai erzina, jeigu skaitai, ir gauni visai ne tą žodį, kuris buvo pasakytas“, – paaiškino pašnekovas.

Tačiau čia pat jis pažymėjo – kelionė dar yra tik pačioje pradžioje, ir papildyta realybė, dirbtinis intelektas ir susijusios technologijos dar tik įsibėgėja.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

Neabejoja – ateityje prietaisas girdės geriau nei žmogus

Niekas nenori sukurti tokios geros skaitmeninės ausies, kokią turi žmogus – siekiama ją gerokai pranokti ir patobulinti.

„Žinoma, kad mes nenorime tik prilygti girdėjimui. Norime, kad produktas būtų geresnis. Geras pavyzdys, ties kuo dirba mūsų inžinieriai – šiuo metu ne visi žmonės geba dalyvauti pokalbyje, net ir tuo atveju, jei jie pokalbį girdi. Tad integravome į akinius „ChatGPT“ (dirbtinio intelekto technologijomis veikiantį pokalbių robotą). Ir tai leidžia ne tik klausytis pokalbio, bet galima užduoti klausimus apie pokalbį.

Pavyzdžiui, galiu paprašyti, kad „XRAI“ paaiškintų pokalbį, kurį ką tik turėjau, perpasakoti jį taip, kad suprastų dvylikametis. Arba, jei dalyvaujate susitikime, XRAI galima paprašyti parengti santrauką ar nubraižyti minčių žemėlapį (angl. mindmap), arba surašyti užduotis, kurias turiu atlikti po susitikimo“, – pasakoja M. Feldmanas.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

Nors sprendimas didžiausią pokytį siūlo negalią turintiems asmenims, pvz., kurtiems, prastai prigirdintiems ar turintiems panašių būklių, tačiau „akinius“ galima pritaikyti ir darbe ir bet kokioje kitoje situacijoje, pvz., keliaujant..

„Ne visiems reikia pačių akinių. Tad žinoma, turime ir vien programėlės versiją, kurią jūs galėtumėte naudoti kaip žurnalistas. Jums tereikia prietaiso, įrašyti pokalbį, „XRAI“ jį iššifruotų. Bet tuomet galėtumėte dirbtinio intelekto paklausti ir paprastų klausimų, pvz., „Hey XRAI, primink, ką pasakė Mitchellis, dėl kokios priežasties jis sukūrė šiuos akinius“, – palygino pašnekovas.

Jis pastebėjo, kad kuriant šį pagalbininką apie kai kuriuos akinių pritaikymo būdus net nebuvo susimastęs. Tačiau dabar XRAI ėmė naudoti asmenys, turintys klausos apdorojimo sutrikimą – tai asmenys, kurie, nors gali gerai girdėti, bet jų smegenys negali tinkamai apdoroti garsinės informacijos, o tą pačią informaciją pateikus raštu, smegenys apdoroja tinkamai. Taipogi įrenginys naudingas žmonėms, turintiems dėmesio sutrikimų, pvz., ADHD.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

„Dėl to matome ir pareigą kaip organizacija siūlyti savo programinės įrangos nemokamą versiją“, – pabrėžė pašnekovas.

Kitas žingsnis – žiūrės į lūpas

Startuolio kūrėjas dalijasi vizija, kad ateinančios naujos technologijos leis analizuoti ne tik garsą, bet ir vaizdą – kaip juda pašnekovų lūpos.

„Evoliucija vyksta ir galime įsivaizduoti, kad naujos kartos papildytos realybės akiniai turės ne tik mikrofonus ir galimybę atvaizduoti, bet ir turės kameras. Dirbame, kad tuo pasinaudotume ir kameros padėtų išgirsti, kas yra sakoma. Kameros leistų gauti geresnį tikslumą, kai esi vakarėlyje, vestuvėse, ar triukšmingame restorane, kur sudėtinga išgirsti garsus ir išskirstyti juos į atskirus šaltinius. Galime pasinaudoti mašininio mokymosi modeliais ir skaityti žmonių lūpas – taip girdėti, ką jie sako“, – pažymėjo M. Feldmanas.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

Metavisata turi būti pagrįsta realiu pasauliu

Didžiosioms pasaulio kompanijoms iki šiol nesisekė sukurti vadinamosios „metavisatos“ – virtualaus pasaulio, kuris atkartotų tikrąjį.

„Mes tikime, kad pasaulis apsistos ties papildyta realybe – tai ir bus tikroji metavisata. Ką turiu omenyje – kad drobė, ant kurios bus tapoma, arba karkasas, kuris viską apjungs, bus mūsų įprastas normalus fizinis pasaulis, į kurį žiūrime kasdien. Mes netikime, kad kas nors nori gyventi skaitmeniniame žaidime, galbūt nebent Markas Zuckerbergas mano, kad norėtum ten gyventi. O ką mes matome – tai natūralus pasaulis, kuriame gyveni, tačiau jame dar pridedami įvairūs skaitmeniniai elementai. Mums tai yra tikroji metavisata“, – vizija pasidalijo M. Feldmanas.

Startuolis pats nekuria aparatinės įrangos, o specializuojasi tik programinės įrangos kūrime.

„Niekuomet nenorėjome būti aparatinės įrangos gamintojais. Ši sritis dabar yra karšta ir turime daug sprendimų siūlytojų, ar tai būtų „Meta“, ar „Google“ ar „Apple“, ar kiti. Jie pristato savo virtualios realybės (VR) ar papildytos realybės akinius, naujovės čia keičiasi ir skverbiasi labai greitai. Mes norime tapti „de facto“ standartine programine įranga, kuri veikia visuose akiniuose, apie kuriuos tik galima pagalvoti. Ir laukiame tokio pasaulio, kol tai virs kontaktiniais lęšiais“, – sako startuolio kūrėjas.

Jis viliasi, kad galiausiai įrenginiai taps tokie maži, kad išorės stebėtojas negalės atskiri, ar žmogaus akyje esantis lęšis yra išmanusis prietaisas. Tačiau tam dar prireiks kelerių metų – iki tol funkciją atliks ir akiniai.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

„Matome pasaulį, kuriame per artimiausius 10 metų išmanūs akiniai bus pagrindinis pasirinkimas, o ne išmanusis telefonas. Iki tol dar turi atsitikti daug dalykų, pvz., kaip parūpinti elektros energijos dėvimam įrenginiui visai dienai. „Apple“ tikrai pristatys savo papildyto realybės akinius, kurie tikriausiai dar primins labiau slidinėjimo akinius ir nebus pritaikyti bendram naudojimui kiekvieną dieną, o specifiniams poreikiams. Tačiau kuo daugiau žmonių prisijungs, tuo geriau, nes tai tik padidins inovacijų tempus“, – pažymėjo M. Feldmanas.

Jis mato ateitį, kurioje išmanūs kontaktiniai lęšiai reikš, kad nebeliks žmonėms etikečių, tokių kaip „kurčias“ ar „aklas“.

Susimokėti reikės už pažangesnes ir papildomas funkcijas: pokalbiai lieka privatūs

„XRAI Glass“ turi nemokamą bazinę versiją, tačiau geresnį transkribavimą ir vertimą siūlanti paslauga kainuotų 20 dolerių per mėnesį, o dar pažangesnės funkcijos siūlomos sumokėjus 50 dolerių per mėnesį.

M. Feldmanas sako, kad labiausiai akiniais domisi komerciniai klientai: įmonės, universitetai, vyriausybinės organizacijos, kadangi jos siekia užtikrinti darbuotojams įtraukias ir lygias galimybes dirbti.

„Į ateitį orientuotos kompanijos nori turėti įrankius žmonėms darbo vietoje, kad jie galėtų įsitraukti į pokalbius“, – paaiškina verslininkas.
XRAI Glass akiniai realiu laiku transkribuoja pokalbius

Nors kol kas „XRAI Glass“ neturi daug konkurentų, tikėtina, kad jų daugės – subtitrai papildytoje realybėje yra vienas akivaizdžiausių išmanių prietaisų panaudojimo būdų. „XRAI Glass“ bendraįkūrėjas tikisi išnaudoti turimą ankstyvo starto pranašumą. Įmonės stiprybė ir ta, kad ji nepririšta prie vieno tiekėjo, todėl gali rinktis ir taikyti geriausias technologijas, tuo metu, jei akinius siūlo, pvz., „Apple“, ji paprastai nenaudos vertimo iš kitos kompanijos.

„Ką svarbu suprasti apie mūsų programinę įrangą – patys svarbiausi pokalbiai, kuriuos visi patiria, yra privatūs pokalbiai. Ir mūsų vartotojai nenori, kad jų duomenys „gyventų debesyje“. Mes savo programinę įrangą paruošėme pagal WEB 3.0 principus, o tai reiškia, kad visi vartotojo duomenys laikomi jo prietaise. Vartotojas pats kontroliuoja savo duomenis, tik jis, ir niekas kitas: ne „Microsoft“, ne „Google“, ne „Apple“, – pabrėžė pašnekovas.

M. Feldmanas pasirodys šių metų LOGIN konferencijos scenoje. Didžiausiame Baltijos šalyse inovacijų ir progresp festivalyje – 200 pranešėjų, penkios turinio salės ir temos, kurios aktualios kiekvienam. LOGIN konferencija – jau gegužės 11–12 dienomis. Daugiau informacijos ir bilietai ČIA.