Publicat el

Google atura el projecte News Archive de digitalització de diaris

Portada del diari L'Abeille Canadienne, Québec, del 7 de desembre de 1833

Google ha enviat (19/5/2011) un correu electrònic al diaris nord-americans amb els quals s'havia associat - entre els quals el Boston Phoenix - informant que aturen el projecte News Archive, i que a partir d'ara ja no acceptaran microfilms ni altres documents provinents d'hemeroteques de diaris per a ser escannejar i indexats.

El projecte News Archive va néixer amb l'objectiu de crear un servei de cerca de notícies històriques digitalitzades i indexades publicades als diaris, de manera similar al projecte de digitalització de llibres Google Books. S'iniciava el 2006 amb la digitalització del New York Times i del Washington Post, i dos anys més tard es va expandir i incorporava importants millores com ara la cerca als textos originals digitalitzats a partir del seu format original i una línia del temps que mostra tota la informació rellevant sobre un tema publicada al llarg del temps. Els usuaris podran continuar consultant l'arxiu de diaris digitalitzats, però no tenen intenció d'introduir noves funcionalitats al contingut digitalitzat, i no està clar si continuaran amb el procés d'indexació dels textos dels diaris digitalitzats.

Google, que havia arribat a un acord per digitalitzar els fons de més de 2.000 diaris, porta digitalitzats 60 milions de pàgines que cobreixen un període de 250 anys. Eventualment els diaris i Google s'havien de repartir els beneficis per la visualització de pàgines dels arxius. Aquesta associació era especialment interessant per diaris petits i mitjans, amb pressupost limitat per escannejar i indexar la seva hemeroteca.

Tot i que segons els acords els diaris poden disposar dels seus continguts digitalitzats, el cert és que el procés més costós no és tant l'escanneig en si, sinó convertir les imatges en text, indexar el contingut (distingir entre el que són titulars, textos, peus de foto, etc), unir articles i històries que queden separades en pàgines diferents, solucionar qüestions de copyright, i altres complicacions inherents al contingut periodístic que requereixen supervisió humana.


Google indica que dedicarà les seves energies en altres nous projectes relacionats amb la indústria de la premsa, com ara Google One Pass, una plataforma que permet als editors de diari vendre contingut directament des de les pròpies webs. Per a més informació sobre Google One Pass, us remetem a aquest post de Beat.