Google sur le terrain des digital humanities

The Chronicle annonce que Google vient de lancer un programme de bourses d’étude sur les livres numérisés de Google Books. Son appel à propositions offre jusqu’à 50 000 $ pendant un an à des chercheurs pour développer des applications de fouille et d’analyse textuelle. Le financement pourrait être renouvelé une seconde année.

Ce programme, qui vise à explorer les digital humanities, se décline autour de 8 disciplines de SHS : littérature, linguistique, histoire, études classiques, philosophie, sociologie, archéologie et anthropologie.

Google indique les grands axes de son programme largement orienté sur la qualité du contenu et des métadonnées dont les faiblesses sont connues:

  • la mise au point de systèmes de correction des métadonnées et données des livres reposant sur le crowd-sourcing
  • la construction de logiciels pour suivre les changements de langues au fil du temps
  • la création de services pour découvrir des livres et des passages de livres pour une discipline donnée
  • l’élaboration de test d’hypothèse littéraire ou historique à travers l’analyse d’un livre

En outre, Google ne donne pas beaucoup de détails sur son programme (les centres de recherche concernés, la relation du programme avec la stratégie de Google Books à long terme…).

Les universités partenaires du programme de numérisation massive de Google sont probablement sélectionnées pour participer au programme (les universités de l’Ilinois et du Michigan disent avoir été sollicitées par Google). La somme relativement faible de 50 000 $ attribuée aux chercheurs laisse supposer que la recherche financée est individuelle.

Google permettrait l’utilisation de travaux sous copyright appartenant aux universités à des fins d’analyse de données qui ne soit pas de la lecture de textes. Un ou 2 centres de recherche pourraient être chargés de ce travail. Ces centres, financés par Google à hauteur de 5 millions de $, coordonneraient des projets importants, probablement collaboratifs et de longue durée.

En donnant l’accès à son matériau livresque de 12 millions de titres numérisés, Google ouvre un champ de recherche textuelle d’une ampleur jamais égalée aux chercheurs et laboratoires. Il fournit l’opportunité d’une percée des digital humanities alors que des projets d’extraction de données à grande échelle en SHS se font jour aux Etats-Unis (le projet Digging into Data Challenge, l’offre d’heures de supercalcul).

Cependant, c’est un secteur de plus dans lequel Google avance avec le danger de dépendance des chercheurs – que ce soit vis-à-vis de l’argent ou des données – voire de verrouillage en raison de la position dominante du moteur de recherche américain.