aA
Bendras Europos Sąjungos (ES) ir JAV informacinių technologijų bendrovės „IBM“ mokslininkų iš Izraelio projektas, kurio metu norima perkelti į skaitmeninę erdvę Europos istorinius tekstus, ieško savanorių. Jie padėtų padidinti nuskenuotų tekstų tikslumą, o šiuo metu valandas trunkančią dokumento skenavimo procedūrą sutrumpinti iki kelių minučių, paskelbė „EUobserver“.
© A.Didžgalvio nuotr.

Projekto tikslas – padidinti nuskenuotų tekstų tikslumą, taip pat palengvinti jų redagavimą ir paiešką internete. Tikimasi, kad naujos internetinės optinės ženklų atpažinimo (OCR – angl. optical character recognition) technologijos ir institucijų bendradarbiavimo dėka bus galima įskaityti tekstus su išblukusiu rašalu ar neįprastos formos rašmenimis, kurie šiuo metu nuskenuojami tik kaip nesikeičiantys paveikslėliai.

Projekto mokslininkai mano, kad naujoji sistema padidins skenavimo tikslumą 25–50 proc., lyginant su standartinėmis ženklų atpažinimo programomis.

Jų teigimu, įdiegus visiems prieinamą koregavimo sistemą tikimasi pritraukti savanorių, galinčių padėti procese panašiai kaip interneto enciklopedijos „Wikipedia“ neapmokamų redaguotojų armija, ir tobulinti sistemą atsižvelgiant į klaidas, kurias pastebės skaitytojai.

Naujoji technologija padeda greičiau rasti aptariamus skenuotus dokumentus, o juos atsidarius bus galima įterpti į tekstą pataisymus. Be to, atsidarius dokumentą, matomas ne visas puslapis, o tik reikalingos raidės ar žodžiai. Pavyzdžiui, kompiuteriui kartais gali būti sunku atskirti raidžių „r“ ir „n“ kombinaciją nuo raidės „m“. Tokiais atvejais, sistema surenka visus „m“ rašymo variantus ir pateikia juos kaip pavyzdį šalia abejotinų rašmenų. Taip žymiai lengviau atpažinti tikrąją raidę. Jei įtariama, kad netikslus visas žodis, jis įtraukiamas į kitų abejotinų terminų rinkinį, išdėstytą abėcėlės tvarka.

Savanoriams tereikia vienu klavišo paspaudimu patvirtinti ar atmesti siūlomus žodžio variantus.
Anksčiau norint perkelti į kompiuterį mažą knygelę reikėjo keleto valandų, jei renkama rankomis, arba apie valandą, naudojantis standartine OCR technologija, kai nuskenuotas dokumentas dar koreguojamas rankiniu būdu. Naujoji sistema sutrumpins procesą iki 30 min. Tyrėjai mano, kad netrukus šį laiką pavyks dar sutrumpinti iki 15 min, kai sistema, mokydamasi iš žmonių savanorių, išplės savo žodyną.

Briuselis ir „IBM“ ketvirtadienį paskelbė, kad šią naują technologiją planuojama pritaikyti daugiau kaip dvidešimtyje nacionalinių bibliotekų, tyrimų institutų, universitetų ir kompanijų, tarp jų – Britų bibliotekoje, Vokietijos nacionalinėje bibliotekoje ir Poznanės superkompiuterių ir tinklų centre Lenkijoje.
Europos Komisija pakeitė požiūrį į dokumentų skaitmeninimą praėjusiais metais, kai „Google“ paskelbė ketinanti sukurti internetinę prieigą prie milijonų knygų. Šis žingsnis sukėlė nerimą kai kuriems Europos leidėjams ir autorinių teisių savininkams.

Griežtai draudžiama DELFI paskelbtą informaciją panaudoti kitose interneto svetainėse, žiniasklaidos priemonėse ar kitur arba platinti mūsų medžiagą kuriuo nors pavidalu be sutikimo, o jei sutikimas gautas, būtina nurodyti DELFI kaip šaltinį.
Įvertink šį straipnį
Norėdami tobulėti, suteikiame jums galimybę įvertinti skaitomą DELFI turinį.
  • 1
  • 2
  • 3
  • 4
  • 5
(0 žmonių įvertino)
0
Parašykite savo nuomonę
arba diskutuokite anonimiškai čia
Skelbdami savo nuomonę, Jūs sutinkate su taisyklėmis
Rodyti diskusiją Rodyti diskusiją

Top naujienos

Tikrasis tuštėjančių Lietuvos regionų veidas: iš 300 eurų pensijos pragyvena dviese, emigracija naikina viską (337)

„Lietuvos regionai miršta“, – DELFI lankantis Utenos rajone sakė jo gyventojai. Pasak jų,...

Theresos May problema, vedanti į blogiausią scenarijų: ją išsprendus krizė baigtųsi akimirksniu (111)

Vienintelis būdas išsivaduoti iš krizės gniaužtų – sugebėti sutelkti parlamento daugumą,...

Naujausi prezidentiniai reitingai: lyderių trejetuke vienas pakilo, kitas leidžiasi (913)

Prezidento rinkimų reitinguose smuktelėjo pirmaujančio Gitano Nausėdos populiarumas, o jo...

Už mažamečių operacijas gydytojai ėmė kyšius: galėjo ir neduoti, visus vaikus mylėjau kaip savo (694)

Nors kvėpavimo takų ligomis sergančius vaikus gydytojas turėjo operuoti nemokamai, tačiau...

Užkalnis apie kvepalus, pagarsėjusius tik iš blogosios pusės (38)

Sovietiniais laikais, pasakysiu aš jums, su parfumerijos reikalais buvo ne kažkas. Lietuvoje...

Nufilmavo šiurpią avariją: kelio viduriu skridęs „Audi A6“ staiga rėžėsi į medį (53)

„Pavasarį parskrenda ne tik paukščiai“, – taip pareigūnai pavadino avariją, kuri įvyko...

25 kilogramų atsikračiusi Donalda Meiželytė papasakojo, kokie trys dalykai padėjo sulieknėti: sportuoti jau negaliu (88)

Žinoma televizijos laidų vedėja ir visuomenės veikėja Donalda Meiželytė puikiai žino, ką...

Valentinas Mitė. Aikštinga kaip vaikas Britanija nesugeba nei likti, nei išeiti iš ES (22)

Didžioji Britanija visada norėjo kažkokių ypatingų sau sąlygų Europos Sąjungoje, kažkokių...

Jūreiviams šis darbas buvo bausmė: ar žinote, kas vadinama varnos lizdu?

Šiuolaikiniai laivai turi radarus ir kitas modernias navigacijos sistemas. Anksčiau šią funkciją...