Les données de la recherche en SHS

Un débat émerge autour de l’évaluation et la gestion des données scientifiques (création, préservation, accès à court et long terme…). Un article (1) s’interroge sur cette problématique: quelles sont ces données et comment les définir? Quelles sont les pratiques concernant leur publication et utilisation?

L’auteure de cet article tente de mieux comprendre ces phénomènes. Elle souligne l’ampleur croissante des données en raison de leur potentiel de réutilisation, leur valeur ajoutée lorsqu’elles sont liées à d’autres ressources et leur rôle central dans les programmes d’e-science.

Elle considère les données au sein d’une chaine de valeur constituée par les publications, livres, etc…dont les proportions varient selon les disciplines. Alors que la discipline des sciences humaines est la moins avantagée du point de vue de l’accès en ligne à ses publications (84% de revues en ligne pour 93% en sciences exactes en 2005, couverture partielle de Scopus et Web of Knowledge), elle bénéficie d’un contenu dont elle est friande (livres anciens et épuisés) grâce aux programmes de numérisation massive (Google Books, OCA…).

Les données de sciences humaines sont celles qui sont les plus variées, tout enregistrement de l’activité humaine pouvant être considéré comme des données (journaux, photographies…). La frontière entre données et publications est beaucoup plus vague que dans les autres disciplines. De plus, les chercheurs en SH sont davantage dépendants de sources de données externes.

En sciences sociales, les données sont aussi diverses (enquêtes, expériences sur le terrain…). Les chercheurs en sciences sociales diffèrent de ceux de sciences exactes car ils s’appuient sur des données qui n’ont pas été produites par ou pour la recherche (documents gouvernementaux, des entreprises ou statistiques économiques). La plupart d’entre eux collecte leurs propres données.

L’auteure examine les incitations à l’accès libre des données (publication rapide…) aussi bien que ses freins, à savoir la récompense pour la publication et non pour la gestion des données, la concurrence qui pousse les chercheurs à ne pas diffuser leurs données jusqu’à ce que leurs résultats soient publiés, les problèmes de propriété intellectuelle. Ce dernier point peut être un obstacle chez les chercheurs en sciences humaines qui dépendent plus fortement de données provenant de tiers et particulièrement chez ceux qui étudient la culture contemporaine dont les données sous droit sont importantes.

En conclusion, elle explique que les prochaines étapes seront d’intégrer les données dans un ensemble cohérent. Elle met l’accent sur l’élaboration de modèles institutionnels d’accès public aux données de recherche dotés de moyens techniques et juridiques et sous-tendus par leurs liens aux publications (openURL, CrossRef, DOI…). Les éditeurs, les chercheurs et les bibliothécaires ont un rôle à jouer dans ce travail menant à la construction d’e-infrastructure.

(1) BORGMAN Christine L., Data, disciplines, and scholarly publishing, Learned Publishing, 2008, Vol 21, pp. 29–38