3/11/2008  - I bot di Google indicizzano i testi nelle immagini


Mountain View indicizza anche i contenuti dei documenti digitalizzati a mezzo scanner. Un tocco di OCR e le immagini formato pdf diventano materiale ricercabile e con cui sferruzzare.

Roma - I bot di Google sgusciano anche fra file postati come immagini, fra le ricerche compaiono risultati estratti da documenti che i netizen si sono limitati a digitalizzare con uno scanner. Un'immagine composta da una manciata di parole diventa una manciata di parole a cui Google consente di accedere attraverso una ricerca.

I testi contenuti in questi documenti non saranno più isolati dalla rete: dopo aver lavorato sui contenuti flash, Google si sta industriando per trasformare in testi da indicizzare tutti i documenti postati in formato pdf sotto forma di immagini, per garantire ai netizen l'accesso a documenti prima inaccessibili se non si era a conoscenza della URL presso cui potevano essere rintracciati o dei metadati su cui fare leva, per garantire ai netizen la possibilità di attingere a risorse formato immagine che sappiano rispondere alle loro domande.

"Ogni giorno, persone di tutto il mondo postano online documenti digitalizzati - illustrano da Mountain View nel blog ufficiale - Questi file solitamente contengono immagini di testi, piuttosto che testi veri e propri. Ma tutti questi documenti hanno una cosa in comune: qualcuno da qualche parte ha pensato che fossero abbastanza di valore per essere condivisi con il mondo". Alcuni documenti sono già stati indicizzati, alcune immagini sono già state trasformate in risorse accessibili attraverso i motori di ricerca: è possibile accedere ai paragrafi più remoti di documenti accademici redatti con una macchina da scrivere e in precedenza pressoché irraggiungibili, è possibile consultare decisioni di tribunali che ancora non hanno proceduto alla completa migrazione al digitale.

La tecnologia che Google ha messo in campo per rendere accessibile l'informazione formato immagine è OCRopus, sviluppata da HP, coltivata da Mountain View e rilasciata affinché tutti la possano affinare. Non è dato sapere in che porzione i documenti che circolano in rete formato immagine siano stati affidati all'interprete di Google: il blog di Mountain View fa ora riferimento a quattro immagini pdf convertite in testo e in formato html. È così che i netizen possono attingere ai documenti ed estrapolare citazioni senza doversi improvvisare amanuensi da tastiera.

Il sistema OCR di Google ancora non distingue le immagini presenti nel testo dalle immagini del testo: nelle versioni ricercabili dei pdf non vengono incluse le immagini che arricchiscono i documenti digitalizzati.

La conversione massiva in testo dei documenti in formato immagine, secondo alcuni osservatori apre scenari inquietanti per quanto riguarda la privacy dei cittadini i cui dati personali siano contenuti in documenti emessi da istituzioni che non abbiano ora delegato a Google la transizione completa al digitale. Ma, una volta immessa in rete, è impensabile arginare l'informazione: "Questo - conferma Evin Levey, dirigente di Google - è un piccolo ma importante passo in avanti nella nostra missione tesa a rendere accessibile e utile tutta l'informazione del mondo".


[fonte: Punto Informatico]

    29 luglio 2010

Online il nuovo sito per "Pol.Me.C"
Polo della Meccanica del Castelleonese
"
 

14/6/2010 - Google personalizza l'homepage. Ma la novità non piace a tutti

1/6/2010 - Microsoft Tag alla conquista degli smartphone

7/5/2010 - IE9 alla sua seconda preview

3/5/2010 - Microsoft si converte all'open source e aiuta Joomla

2/4/2010 - Google Talk adesso trasferisce i file

18/3/2010 - Niente Internet Explorer 9 per XP

26/2/2010 - Utenti di Windows, scegliete il vostro browser!

4/2/2010 - Office 2010, ultimi metri prima del traguardo

21/1/2010 - Cassandra Crossing/ La lunga memoria di Facebook

4/1/2010 - Contrappunti/ L'era di Internet

4/12/2009 - Bing e le mappe 3D

1/12/2009 - Più vicini Firefox 3.6 e Thunderbird 3

20/11/2009 - Google: ecco a voi Chrome OS

16/11/2009 - DEFT Linux 5, computer forensics open

4/11/2009 - Google Chrome aggiorna la beta

23/10/2009 - Windows 7 è tra noi

23/9/2009 - Yahoo a tutto Bing

18/9/2009 - Google Chrome guarda al futuro e promette di crescere

15/9/2009 - Fast Flip, Google volta pagina

9/9/2009 - I feed di WordPress nelle nuvole

7/9/2009 - Google, un algoritmo ecologico

2/9/2009 - Opera 10 innesta il Turbo

31/8/2009 - Firefox 3? Pericolo privacy, meglio il 2

28/7/2009 - C'era una volta Microsoft

17/7/2009 - Pavone (Iab): «Il Web advertising in Italia? Occorre muoversi, e in fretta»

16/7/2009 - Il futuro di Windows 7

14/7/2009 - Office 2010 si mette in mostra

2/7/2009 - Google migliora Outlook

25/6/2009 - Google vuole accelerare il web

3/6/2009 - KOffice 2 sfida OpenOffice anche su Windows

28/5/2009 - Gmail, Inbox preview e altre novità dai Labs

14/5/2009 - Google è la frontiera del search

4/5/2009 - Windows 7 in prova per un anno

27/4/2009 - Google Chrome e IE, attenti a quei due

14/4/2009 - Yahoo! e Microsoft si parlano sul serio

16/3/2009 - Internet Explorer 8 è velocissimo: garantisce Microsoft

17/2/2009 - Tutto il search contro lo spam degli URL

6/2/2009 - Tutti i gusti di Windows 7

22/1/2009 - Gmail, ecco le novità in arrivo nel 2009

8/1/2009 - Google: “Gmail? Molto meglio su Chrome!”