3/11/2008
- I bot di Google indicizzano i testi nelle immagini
Mountain View indicizza anche i contenuti dei documenti
digitalizzati a mezzo scanner. Un tocco di OCR e le immagini formato pdf
diventano materiale ricercabile e con cui sferruzzare.
Roma - I bot di Google sgusciano anche fra file postati come immagini, fra le
ricerche compaiono risultati estratti da documenti che i netizen si sono
limitati a digitalizzare con uno scanner. Un'immagine composta da una manciata
di parole diventa una manciata di parole a cui Google consente di accedere
attraverso una ricerca.
I testi contenuti in questi documenti non saranno più isolati dalla rete: dopo
aver lavorato sui contenuti flash, Google si sta industriando per
trasformare in testi da indicizzare tutti i documenti postati in formato pdf
sotto forma di immagini, per garantire ai netizen l'accesso a documenti prima
inaccessibili se non si era a conoscenza della URL presso cui potevano essere
rintracciati o dei metadati su cui fare leva, per garantire ai netizen la
possibilità di attingere a risorse formato immagine che sappiano rispondere alle
loro domande.
"Ogni giorno, persone di tutto il mondo postano online documenti digitalizzati -
illustrano da Mountain View nel blog ufficiale - Questi file solitamente
contengono immagini di testi, piuttosto che testi veri e propri. Ma tutti questi
documenti hanno una cosa in comune: qualcuno da qualche parte ha pensato che
fossero abbastanza di valore per essere condivisi con il mondo". Alcuni
documenti sono
già stati indicizzati, alcune immagini sono già state trasformate in
risorse accessibili attraverso i motori di ricerca: è possibile accedere ai
paragrafi più remoti di documenti accademici redatti con una macchina da
scrivere e in precedenza pressoché irraggiungibili, è possibile consultare
decisioni di tribunali che ancora non hanno proceduto alla completa migrazione
al digitale.
La
tecnologia che Google ha messo in campo per rendere accessibile
l'informazione formato immagine è OCRopus, sviluppata da HP, coltivata da
Mountain View e
rilasciata affinché tutti la possano affinare. Non è dato sapere in che
porzione i documenti che circolano in rete formato immagine siano stati affidati
all'interprete di Google: il blog di Mountain View fa ora riferimento a quattro
immagini pdf convertite in testo e in formato html. È così che i netizen possono
attingere ai documenti ed estrapolare citazioni senza doversi improvvisare
amanuensi da tastiera.
Il sistema OCR di Google ancora non distingue le immagini presenti nel testo
dalle immagini del testo: nelle versioni ricercabili dei pdf non vengono incluse
le immagini che arricchiscono i documenti digitalizzati.
La conversione massiva in testo dei documenti in formato immagine, secondo
alcuni osservatori apre scenari inquietanti per quanto riguarda la privacy
dei cittadini i cui dati personali siano contenuti in documenti emessi da
istituzioni che non abbiano ora delegato a Google la transizione completa al
digitale. Ma, una volta immessa in rete,
è impensabile arginare l'informazione: "Questo -
conferma Evin Levey, dirigente di Google - è un piccolo ma importante passo
in avanti nella nostra missione tesa a rendere accessibile e utile tutta
l'informazione del mondo".
[fonte: Punto Informatico]
|