L’extraction de données appliquée aux textes littéraires

Une série d’articles du dernier numéro de la revue Digital Humanities Quarterly (printemps 2009, vol.3, N°2) traite de l’extraction de données.

Ces articles rapportent des travaux réalisés dans le cadre du projet ARTFL de l’Université de Chicago et le laboratoire de cognition linguistique à l’institut de technologie de l’Illinois. Ces recherches portent sur un sous-ensemble de technologies requises pour la construction d’une future bibliothèque numérique. Elles se situent à l’intersection de l’apprentissage automatique, la fouille de données et l’analyse de textes.

Le 1er article « Words, Patterns and Documents: Experiments in Machine Learning and Text Analysis » introduit le sujet : il contextualise le projet ARTFL et précise sa finalité : utiliser l’apprentissage automatique et la fouille de textes en complément de l’analyse textuelle traditionnelle, en faisant passer par l’ordinateur une grande quantité de données. Ainsi, le potentiel d’algorithmes élaborés peut être mis à profit pour l’analyse et l’interprétation de textes littéraires. A cette fin, le projet ARTFL a développé un ensemble d’extensions d’apprentissage automatique à PhiloLogic, système de recherche et d’analyse en texte intégral : PhiloMine substitue à la notion de « recherche » sur une base de données avec un ou plusieurs mots la soumission de « tâches » (l’extraction prédictive de données, l’extraction comparative de données et l’analyse de similarité/clustering).

Le 2ème article « Vive la Différence! Text Mining Gender Difference in French Literature » examine une classification du genre des auteurs dans un corpus comprenant des textes de littérature et d’histoire française principalement du 17ème au début du 20ème siècle avec « Support Vector Machine » (SVM). Les résultats mettent en évidence des différences sémantiques caractérisant l’écriture masculine ou féminine (fréquence d’utilisation de certains mots et de groupes sémantiques).

Le 3ème article « Gender, Race, and Nationality in Black Drama, 1950-2006: Mining Differences in Language Use in Authors and their Characters » examine dans quelle mesure les outils d’apprentissage automatique peuvent mettre en évidence des caractéristiques linguistiques (de style ou de fond) des auteurs et caractériser ces auteurs par genre, race et nationalité, et ce, au sein d’une vaste collection de pièces de théâtre de dramaturges noirs de 1950 à 2006. Le 5ème article est un commentaire de cet article.

Le 4ème article Mining Eighteenth Century Ontologies: Machine Learning and Knowledge Classification in the Encyclopédie concerne une classification prédictive appliquée à l’Encyclopédie de Diderot et d’Alembert. Les 1ères expériences, qui avaient pour but de classer les articles non classés de l’Encyclopédie sous forme électronique (22000 sur 77000) ont conduit à reconsidérer la cohérence de l’ontologie construite par les encyclopédistes. L’application de cette ontologie à une revue savante du 18ème siècle,  « Journal de Trevoux » a permis de faire de nouvelles connexions entre les 2 corpus.