Re-Captcha un sistema “wiki” per decifrare libri antichi

Un sistema impiegato contro le azioni di spam viene utilizzato da ricercatori universitari per i riconoscimenti di testi contenuti in libri antichi.

Per accedere a molti siti web o per l’invio di form si utilizzano dei test automatici che chiedono all’utente, data una parola scritta in modo distorto o sfocato, di riscriverla in un campo di testo. Un “test” che serve principalmente per dare sicurezza al sito Web che colui che si sta iscrivendo a un determinato servizio o che sta facendo il login sia effettivamente una persona “umana” e non un sistema automatizzato.

Questo “test” si chiama CAPTCHA dall’acronimo inglese “completely automated public Turing test to tell computers and humans apart” (Test di Turing pubblico e completamente automatico per distinguere computer e umani). I captcha sono stati sviluppati per la prima volta nel 1997 e chi li ha inventati (Andrei Broder per Altavista) sosteneva di aver ridotto lo spam di oltre il 95%.

I test Captcha hanno avuto degli utilizzi secondari non legati unicamente all’eliminazione dello spam, il più noto riguarda il riconoscimenti di testi contenuti in libri antichi e prende il nome di RECAPTCHA.

Molte biblioteche stanno provvedendo a convertire in digitale le loro collezioni di antichi manoscritti, questa conversione viene ottenuta tramite la digitalizzazione delle pagine e la loro successiva analisi tramite un programma OCR che interpretando le immagine genera il testo contenuto.

I programmi OCR purtroppo interpretano con difficoltà le lettere sbiadite e le pagine ingiallite dei testi antichi e quindi normalmente necessitano di un supporto umano che rallenta il processo e innalza il costo della digitalizzazione.

Ricercatori della Carnegie Mellon University hanno deciso di utilizzare i sistemi captcha per interpretare le parole dubbie individuate dai programmi OCR. Quando due sistemi OCR identificano in modo diverso una parola questa viene associata a una parola nota e inviata a un utente che deve superare un test captcha per accedere a un servizio.

Si presuppone che se un utente individui correttamente la parola nota allora individuerà anche la parola ignota con elevata probabilità. Quando tre utenti danno la stessa risposta il sistema archivia la parola come corretta. Questo sistema, che si può definire viste le modalità “wiki” (collaborativo), ha permesso di convertire 440 milioni di parole con un’accuratezza del 99%. Ad agosto 2008 il sistema converte 4 milioni di parole al giorno.

Fonte: BooksBlog

Lascia una risposta

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *