L’intégration d’outils dans des environnements textuels

Cet article (1) met en exergue 3 projets représentatifs des approches actuelles de sciences humaines numériques présentées lors d’un atelier organisé par l’Arts and Humanities e-Science Support Centre (AHeSSC) au King’s College de Londres.

Ces initiatives ont la particularité de développer des logiciels associés aux environnements de recherche virtuels qui, selon les auteurs de l’article, ouvrent de nouvelles possibilités hors du cadre de la bibliothèque classique. Ceux-ci soulignent que «les infrastructures de bibliothèque numérique devront intégrer, pas seulement les textes, mais des outils qui permettent d’y rechercher, les analyser, et en extraire des éléments par des moyens de plus en plus sophistiqués».

– Le projet Open Boek, une partie du programme néerlandais Continuous Accesses to Cultural Heritage (CATCH) est un système d’extraction d’information numérique s’appliquant aux rapports d’archéologie. Décrit dans l’article de H. Paijmans et S. Wubben, ce système, qui fonctionne selon un procédé d’apprentissage par la machine, est centré sur la reconnaissance de phrases contenant des données chronologiques et géographiques telles que des dates, des dimensions, de coordonnées, des éléments clés en archéologie.

– Le projet d’annotation sémantique Generic Architecture for Text Engineering (GATE) repose sur le logiciel Semantic Annotation Factory Environment (SAFE) . Celui-ci, sans se substituer au processus manuel d’annotation, réalise automatiquement une partie du travail, l’extraction d’information, grâce à des robots. Il est utilisé dans d’autres projets de web sémantique et de gestion de connaissances (OntotextKIM, MUSING…). S’il est particulièrement adapté à des services commerciaux d’annotation, il répond aussi aux besoins des chercheurs (linguistique informatique, traitement du langage naturel, ingénierie de la langue).

– L’environnement Software Environment for the Advancement of Scholarly Research (SEARS) fonctionnant avec des  logiciels d’extraction de données tels que NoraVis et Featurelens permet de transformer les données non (ou semi) structurées en données structurées. A ce titre, ces outils sont des considérés comme « des outils de plus en plus importants, dans le développement d’infrastructure d’études textuelles, compte tenu de la coexistence de protocoles de structuration et de gestion des archives très différents».

(1) DUNN S.,BLANKE T., Next Steps for E-Science, the Textual Humanities and VREs, A Report on Text and Grid: Research Questions for the Humanities, Sciences and Industry, UK e-Science All Hands Meeting 2007, D-Lib Magazine [en ligne] 2008, Vol.14 No.1/2 [consulté le 28/07/2011] <http://www.dlib.org/dlib/january08/dunn/01dunn.html>