Spausdinti Informuoti redakciją Komentarai
ES knygų skaitmeninimo projektui reikalinga savanorių redaktorių armija

ES knygų skaitmeninimo projektui reikalinga savanorių redaktorių armija

Bendras Europos Sąjungos (ES) ir JAV informacinių technologijų bendrovės „IBM“ mokslininkų iš Izraelio projektas, kurio metu norima perkelti į skaitmeninę erdvę Europos istorinius tekstus, ieško savanorių. Jie padėtų padidinti nuskenuotų tekstų tikslumą, o šiuo metu valandas trunkančią dokumento skenavimo procedūrą sutrumpinti iki kelių minučių, paskelbė „EUobserver“.

Projekto tikslas – padidinti nuskenuotų tekstų tikslumą, taip pat palengvinti jų redagavimą ir paiešką internete. Tikimasi, kad naujos internetinės optinės ženklų atpažinimo (OCR – angl. optical character recognition) technologijos ir institucijų bendradarbiavimo dėka bus galima įskaityti tekstus su išblukusiu rašalu ar neįprastos formos rašmenimis, kurie šiuo metu nuskenuojami tik kaip nesikeičiantys paveikslėliai.

Projekto mokslininkai mano, kad naujoji sistema padidins skenavimo tikslumą 25–50 proc., lyginant su standartinėmis ženklų atpažinimo programomis.

Jų teigimu, įdiegus visiems prieinamą koregavimo sistemą tikimasi pritraukti savanorių, galinčių padėti procese panašiai kaip interneto enciklopedijos „Wikipedia“ neapmokamų redaguotojų armija, ir tobulinti sistemą atsižvelgiant į klaidas, kurias pastebės skaitytojai.

Naujoji technologija padeda greičiau rasti aptariamus skenuotus dokumentus, o juos atsidarius bus galima įterpti į tekstą pataisymus. Be to, atsidarius dokumentą, matomas ne visas puslapis, o tik reikalingos raidės ar žodžiai. Pavyzdžiui, kompiuteriui kartais gali būti sunku atskirti raidžių „r“ ir „n“ kombinaciją nuo raidės „m“. Tokiais atvejais, sistema surenka visus „m“ rašymo variantus ir pateikia juos kaip pavyzdį šalia abejotinų rašmenų. Taip žymiai lengviau atpažinti tikrąją raidę. Jei įtariama, kad netikslus visas žodis, jis įtraukiamas į kitų abejotinų terminų rinkinį, išdėstytą abėcėlės tvarka.

Savanoriams tereikia vienu klavišo paspaudimu patvirtinti ar atmesti siūlomus žodžio variantus.
Anksčiau norint perkelti į kompiuterį mažą knygelę reikėjo keleto valandų, jei renkama rankomis, arba apie valandą, naudojantis standartine OCR technologija, kai nuskenuotas dokumentas dar koreguojamas rankiniu būdu. Naujoji sistema sutrumpins procesą iki 30 min. Tyrėjai mano, kad netrukus šį laiką pavyks dar sutrumpinti iki 15 min, kai sistema, mokydamasi iš žmonių savanorių, išplės savo žodyną.

Briuselis ir „IBM“ ketvirtadienį paskelbė, kad šią naują technologiją planuojama pritaikyti daugiau kaip dvidešimtyje nacionalinių bibliotekų, tyrimų institutų, universitetų ir kompanijų, tarp jų – Britų bibliotekoje, Vokietijos nacionalinėje bibliotekoje ir Poznanės superkompiuterių ir tinklų centre Lenkijoje.
Europos Komisija pakeitė požiūrį į dokumentų skaitmeninimą praėjusiais metais, kai „Google“ paskelbė ketinanti sukurti internetinę prieigą prie milijonų knygų. Šis žingsnis sukėlė nerimą kai kuriems Europos leidėjams ir autorinių teisių savininkams.

Parašykite savo nuomonę
arba diskutuokite anonimiškai čia
Skelbdami savo nuomonę, Jūs sutinkate su taisyklėmis
Rodyti diskusiją Rodyti diskusiją
MYEP.LT FACEBOOK
MyEP.LT TWITTER
REKLAMA