Marea bibliotecă digitală: cu toţii salvăm cărţi de la moarte prin codurile CAPTCHA

2

Care e unul dintre cele mai enervante lucruri de pe Internet? Cumva, introducerea textului de verificare în căsuță? Acest program, denumit CAPTCHA, verifică dacă utilizatorul este un om sau un computer. Recunoașterea unui text distorsionat și colorat ajută la identificarea programelor automate care fac spam.

200 de milioane de CAPTCHA sunt rezolvate de oameni într-o zi la nivel global. Fiecare persoană pierde, în medie, 10 secunde pentru rezolvare unei astfel de “ghicitori”. Nu pare mult, dar se adună 150.000 de ore pierdute la nivel global într-o zi.

Pentru a evita ca acest efort să se ducă pe apa Sâmbetei, Google s-a gândit să-l folosească într-un proiect foarte amplu de digitalizare a cărților și ziarelor vechi.

Programul de digitalizare are ca scop accesibilizarea informației la nivel global și constă în scanarea cărților și ziarelor din epoca de dinainte de computer. Procesul prin care se face acest lucru constă în scanarea cărților și transformarea lor în texte folosind OCR (Optical Character Recognition). Problema e că OCR-ul nu este perfect și nu poate “citi” orice text. Textele care nu pot fi citite sunt plasate ca imagini de recunoaștere și, astfel, fiecare persoană care este nevoită să introducă textul de verificare pe un anumit site contribuie la digitalizarea textelor vechi.

Procedeul e simplu – fiecare cuvânt care nu poatefi “citit” de OCR este trimis ca text de verificare împreună cu un text cunoscut deja. Dacă acel cuvânt cunoscut este introdus corect de către utilizator, se presupune că utilizatorul este om și nu calculator și se ia în considerare și răspunsul la întrebarea care nu avea răspuns cunoscut.

Dacă vi se mai pare enervant procedeul, gândiți-vă că ajutați la salvarea informațiilor prețioase care se găsesc acum doar pe hârtie și care sunt pe cale de dispariție.

Foto: Dominic Sayers

Tags:



2 comentarii

  1. Toata ideea codului CAPTCHA este verificarea ca utilizatorul este “uman”. Din moment ca softul imi trimite un cod pe al carui raspuns nu il stie nici el, ce mai verifica el? Astfel, un utilizator “inuman” poate da orice raspuns si codul captcha devine redundant, intrucat softul nu mai verifica nimic. Sau imi scapa mi e ceva..

  2. fiecare cuvânt care nu poatefi “citit” de OCR este trimis ca text de verificare împreună cu un text cunoscut deja

    Din fraza pe care o pun,cateva cuvinte le poate citi si OCR si in functie de alea se determina daca e sau nu uman.

Leave A Reply