Ar elektroninėje erdvėje vis dar įmanoma likti inkognito?

 (28)
Prieš 8 tūkstantmečius atsiradęs raštas yra vienas nuostabiausių žmonijos išradimų, kuris mokslininkus domina ne tik dėl išlikusių rašytinių šaltinių turinio. Kartais rašysena apie autorių gali pasakyti gerokai daugiau nei pats turinys: todėl teismo ekspertai geba nustatyti rankraščių autorystę; o grafologai sudaryti psichologinį žmogaus portretą, atskleisdami tokias asmenines savybes kaip socialumas, temperamentas, savivertė ar trūkumai.
Balsas
© Shutterstock nuotr.

Tačiau ar įmanoma ką nors pasakyti apie žmogų, kurio pagrindine rašymo priemone tapo klaviatūra? Laimei, taip. Technologinis šuolis paskatino progresą ir kitose mokslo srityse, taip pat kompiuterinės lingvistikos.

Mokslininkai jau seniai sutaria, jog kiekvieno mūsų rašymo stilius (t.y. šablonai, kuriuos naudojame sakinių formavimui; žodyno turtingumas; frazeologizmai; netgi gramatinės ar sintaksinės klaidos) yra savotiškas mūsų „piršto antspaudas“. O rašymo stilių tyrinėjantis mokslas stilometrija, kurio užuomazgos siekia 1439 metus, padarė milžinišką šuolį būtent pastaraisiais dešimtmečiais. Visų pirma šį progresą paskatino pats tokių tyrimų poreikis.

Teismo lingvistai nuolatos susiduria su panašiomis problemomis: internetiniame forume atskleidžiama konfidenciali įmonės informacija; asmuo gauna grasinančio turinio elektroninį laišką, kurio adresas visiškai neinformatyvus; kompiuteryje randamas atsisveikinimo laiškas, tačiau neaišku ar tikrai tą laišką rašė pats savižudis; paauglių socialiniame tinkle susitikti siūlo skirtingais vardais prisistatantis pedofilas.

Tačiau uždavinys nėra toks paprastas. Įsivaizduokite... turite 150 skirtingų autorių ir po 200 kiekvieno iš jų rašytų trumpų tekstų. Gaunate naują anoniminį tekstą, žinodami tik tiek, jog jis vieno iš šių autorių, o dabar belieka nustatyti turimo teksto autorystę. Net jei kantrybė ir geležinė, žmogui išspręsti šį uždavinį – misija neįmanoma: jis tiesiog nesugeba tuo pačiu metu atsižvelgti ir savo atmintyje išlaikyti tiek daug įvairiausių detalių.

Nors elektroninių tekstų naudojimas ir pridarė daugybę problemų, tačiau naujos technologijos padeda tas problemas išspręsti. Kompiuteriui, priklausomai nuo jo galingumo bei pasirinkto metodo, tereikia kelių minučių ar valandų susidoroti su mūsų uždaviniu bei pasiekti 67 proc. tikslumą lietuvių kalbai, kuomet atsitiktinis spėjimas viršijamas daugiau nei 66 procentus. Rezultatai vis tiek nėra idealūs, tačiau pasiekti 100 proc. dirbant su kalba neverta tikėtis: koją kiša labai trumpi tekstai (na, ką ten galima pasakyti apie autorystę iš vieno ar keleto žodžių!), nusistovėję posakiai (pvz. „nekask duobės kitam, nes pats įkrisi“ visi mes sakome vienodai), mėgdžiojimas ar plagijavimas (rezultatai prastėja, kadangi tampa sunkiau surasti skiriančiuosius požymius tarp mėgdžiojamo ir mėgdžiojančio autorių).

Kai kurie uždaviniai (pavyzdžiui, rinkodaros specialistai siekia išsiaiškinti kokie vartotojai domisi jų produkcija) visiškai nereikalauja nustatyti konkrečių autorių, o tik suformuoti detalesnį autoriaus profilį, išsiaiškinant amžių, lytį, socialinį statusą, psichologinę būseną ir kt. Žinomas psichologas Jamesas Pennebakeris kartu su kompiuterinės lingvistikos specialistais daugybę metų užsiima šiais tyrimais anglų kalbai. Jo pasiekti rezultatai priverčia aiktelėti iš nuostabos, todėl tiesiog privalau pateikti keletą įdomesnių.

Ar žinote, kad kalbėtojo lytį galima efektyviai nustatyti iš jo tekste naudojamų asmeninių įvardžių (aš, tu, mes, ir t.t.)? Jų kalbėdamos moterys pasako 1,5 proc. daugiau negu vyrai. Neatrodo reikšmingas skirtumas, tačiau per metus jos pasako jų 85 tūkstančiais daugiau. Be to moterys gerokai dažniau naudoja žodelį „aš“. Vyrai vartoja daugiau daiktavardžių, moterys – veiksmažodžių. Vyrai ir moterys naudoja vienodai teigiamų jausmus nusakančių žodžių, tačiau neigiamų moterys naudoja gerokai daugiau.

Beje, kalbėjimą veikia hormonai (vyriškas testosteronas ir moteriškas estrogenas), todėl pradėjus vartoti priešingos lyties hormonus, keičiasi ir kalbėjimo stilius. Lyties nustatymo iš teksto uždavinys gerokai paprastesnis (tik dvi grupės), tačiau atsitiktinį spėjimą t.y. 50 proc. žmogus geba aplenkti vos 5 procentais, kai tuo tarpu statistiniai metodai anglų kalbai jį viršija 30 proc. ir leidžia pasiekti 80 procentų. Palyginimui: lietuvių kalbai – viršija 24 proc. ir leidžia pasiekti 74 proc. tikslumą.

Taigi... Stilometrijos metodai pasiekė tokį lygį, kad priverstų bijoti tuos, kurie ketina „slapta“ nusikalsti, bet, deja, ne tiek, kad Jūs, mielas skaitytojau, ir aš elektroninėje erdvėje galėtume jaustis visiškai saugūs.

Autorystės nustatymo tyrimus lietuvių kalbai finansuoja Lietuvos mokslo taryba (projekto Nr. LIT-8-69).

www.DELFI.lt
Parašykite savo nuomonę
arba diskutuokite anonimiškai čia
Skelbdami savo nuomonę, Jūs sutinkate su taisyklėmis
Rodyti diskusiją Rodyti diskusiją
 
Naujienų prenumerata

Technologijos

EK pritarė „Microsoft“ susitarimui įsigyti socialinį tinklą „LinkedIn“ (1)

Jungtinių Valstijų technologijų milžinė „Microsoft“ sulaukė Europos Komisijos (EK) pritarimo socialinio tinklo „LinkedIn Corp“ įsigijimo sandoriui. Tai informuoja naujienų agentūra „Reuters“.

Pirmam autonominiam skrydžiui pakilo skraidanti greitoji (24)

Suteikti medicininę pagalbą žmonėms ne visada yra lengva. Pavyzdžiui, karo zonose esančius sužeistus karius evakuacija yra ne tik sunki, bet ir pavojinga užduotis. Sraigtasparniai negali pasiekti visų vietų ir dažnai patys tampa priešiškos ugnies aukomis, o ir antžeminis transportas negali pervažiuoti sudėtingų gamtinių ir kitų kliūčių. Kokia išeitis? Autonominis lėktuvas, galintis gabenti sužeistuosius bei įrangą – tai nėra mokslinė fantastika, pirmasis prototipas jau skraido.

Modernus triratis prieš senus vokiškus automobilius: ką rinktųsi lietuviai? (22)

Lietuviai dažniausiai perka naudotus automobilius, parvežtus iš Vakarų Europos šalių. Visgi, ne vienas iš mūsų pasvajoja apie naują automobilį, kuris būtų sukomplektuotas pagal mūsų pageidavimus.

Kinijos turgelio stebuklai: ypač mobilus nešiojamas kompiuteris, kokio Lietuvoje nerasite net su žiburiu (23)

Bene geriausiai visame pasaulyje žinomas Kinijos kompiuterinės technikos gamintojas, be jokios abejonės, yra „Lenovo“. Nors pastaroji bendrovė Europoje daugumai asocijuojasi su prabanga ir verslu, Kinijoje „Lenovo“ taip pat užsiima biudžetinės klasės nešiojamų kompiuterių gamyba. Vis dėlto šį segmentą Europoje yra okupavę kiti gamintojai, todėl biudžetinės klasės „Lenovo“ nešiojamų kompiuterių dažniausiai tenka dairytis vietinėse Azijos rinkose.

Tarptautinėje operacijoje išardytas elektroninėje erdvėje veikęs tinklas „Avalanche“ (8)

Lietuvos kriminalinės policijos biuro Nusikaltimų elektroninėje erdvėje tyrimo padalinio pareigūnai dalyvavo stambaus masto tarptautinėje operacijoje, kurios metu padėjo kolegoms rinki duomenis tiriant nusikaltimus vykdomus pasinaudojant tinklu „Avalanche". Po kruopštaus, keturis metus trukusio tyrimo, Verden prokuratūra ir Lüneburg policija (Vokietija), glaudžiai bendradarbiaudami su Teisingumo departamentu, JAV Federaline prokuratūra ir Federaliniu tyrimų biuru, Eurojustu, Europolu ir tarptautiniais partneriais, išsklaidė tarptautinę, nusikalstamą tarnybinių stočių infrastruktūrą „Avalanche".