Journée du 2 février 2015 : « Valoriser les données de la recherche en SHS »

Lieu : MESHS (salle 2), 2 rue des Canonniers, 59000 Lille


    Entretiens, questionnaires, expérimentations, corpus de texte structuré ou non, sondages, pistes audio et vidéo, fichiers de logs… Les activités de recherche amènent tous ses acteurs à recueillir et à traiter quantité de données que la diversité des domaines scientifiques, des thématiques visées, des méthodologies de collecte et des habitudes personnelles rendent particulièrement disparates. En particulier, les activités menées au cours des stages de recherche en Master et tout au long des thèses de doctorat sont particulièrement prolifiques en données de la recherche, tout en étant singulièrement peu propices à envisager leur préservation à des fins de valorisation.

Cette journée vise à observer les initiatives prises essentiellement dans les disciplines des sciences humaines et sociales pour envisager une gestion constructive et pérenne de ces données, quelle que soit la thématique de recherche et quelle que soit la nature des données considérées, de manière à les rendre compréhensibles et exploitables pour de nouvelles actions.


    Interviews, questionnaires, experiments, structured or unstructured text corpus, surveys, audio and video tracks, log files... Research activities bring all actors to collect and process large amounts of data, with a great diversity of scientific areas, topics, collection methodologies and personal approaches. In particular, the activities carried out in research internships in Master and throughout doctoral theses produce many research data that are often poorly managed, without a plan for the preservation and dissemination for reuse.

This event will introduce the question of data management, particularly in social sciences and humanities to foster a consistent and sustainable management of these data, whatever the research topic and whatever the nature of the data considered, in order to make them understandable and reusable for further research.


Coordination : Bernard Jacquemin, maître de conférences en SIC, directeur FCEP Lille 3


 



Synthèse de la journée 1

   Cette journée a été l’occasion de développer des pistes de réflexion autour des métadonnées, de l’interopérabilité,
du partage des données de la recherche, de leurs accès et de leur réutilisation. Cette dernière préoccupation a plus
particulièrement amené à s’intéresser à la question de la conservation des données à très long terme, aux modes
d’organisation possibles entre les communautés, aux rôles joués par les infrastructures de recherche et à la
nécessité d’adopter des approches bottom-up. Dans le prolongement de ces questionnements, la prochaine journée
de séminaire organisée le 10 mars 2015 sera consacrée aux aspects juridiques.

 

Matinée : Conférences


Maxi Kindling (chercheuse en SiC, Humboldt-Universität zu Berlin), Research Data Management at Humboldt-
Universität zu Berlin. Status Quo and Perspectives

 

Présentation
   Maxi Kindling a présenté les travaux réalisés à la « Berlin School of Library and Information Science » par son groupe de travail qui est engagé dans un projet pilote s’intéressant à l’ensemble des données numériques produites par les doctorants de l’université de Humboldt. Constatant à partir de sondages électroniques réalisés au sein de l’université que les doctorants souhaitaient partager leurs données de recherche mais qu’ils ne savaient pas comment procéder, elle a montré comment son équipe essaie de proposer une structure de stockage et une documentation adaptée apportant une assistance technique et un soutien sur les questions juridiques. Les perspectives de ces travaux concernent les dynamiques et les obstacles rencontrés par le partage de données, la prise en compte de la sensibilité des chercheurs vis-à-vis de la diffusion de leurs données, la description des métadonnées, la documentation, la data curation, la conservation à long terme, la construction de banque de données et l’utilisation d’autres services.



Discussions
   Les discussions ont d’abord porté sur la façon de réunir des informations propres à concevoir des dépôts répondant
aux spécificités des données issues de la recherche en partant du constat que dans certaines disciplines de tels
dépôts existaient déjà depuis longtemps et étaient bien établis. Le débat a porté sur la façon dont l’information peut
traverser les clivages disciplinaires et l’identification des obstacles entre les diverses communautés. Max Kindling a
précisé alors que son équipe travaille dans cette direction et que les travaux présentés s’appuient sur des dépôts
existants, sur des sondages, sur des entretiens et sur l’organisation de workshops. Elle a précisé également que les
dépôts déjà constitués ne s’affichaient généralement pas comme étant des dépôts réunissant des données de
recherche, et que d’autres dépôts sont quant à eux totalement méconnus. Elle considère que son groupe de travail
pourrait avoir vocation à fournir aux communautés les informations collectées à propos des savoir-faire et laisse
donc entendre qu’il pourrait jouer très utilement un rôle de relais. Plus particulièrement, la question de la
réutilisation des données et de la conception des métadonnées a été abordée, et la difficulté de concevoir des
métadonnées capables de couvrir la diversité des usages, des types de données et des standards propres à chaque
discipline a été pointée.


(téléchargez sa présentation ici)


Françoise Genova (directrice du Centre de Données Astronomiques CDS, Observatoire de Strasbourg), Le partage
des données de la recherche : un changement de paradigme

 

Présentation

  Françoise Genova a présenté des exemples de modalités de partage des données de la recherche à partir des infrastructures numériques de recherche. Elle a souligné l’importance des enjeux que le partage soulève car il ouvre vers de nouvelles recherches et fait l’objet de discussions à des niveaux politiques interétatiques tels que le G8.  En s’appuyant sur le cas de l’astronomie, de diverses infrastructures de recherche et sur le constat que les métadonnées se trouvent au coeur de l’interopérabilité, elle montre que les sciences humaines et sociales n’ont pas pris de retard dans ce domaine car elles possèdent une infrastructure de données disciplinaire, Huma-Num, et des standards qui permettent par exemple de conserver les annotations. Elle a insisté par ailleurs sur l’importance du rôle que jouent les documentalistes dans ces infrastructures et cela quelle que soit la discipline concernée.


 


Discussions
   Les discussions se sont engagées sur la question du lien entre la structuration institutionnelle et les communautés. A ce propos l’importance d’une démarche « bottom-up » et d’une articulation entre différents niveaux ont été soulignées - la standardisation opérant à grande échelle, au niveau européen par exemple, et les consortiums en tant que lieux de réflexion disciplinaire ou de concertation collective par les communautés, au niveau local. Un concept de « documentalist embeded » a été rapporté pour répondre à la nécessité de s’imprégner de la culture de chaque discipline dans la conception d’un système d’information. Le dynamisme d’une nouvelle organisation qui prend son essor depuis 2013, la Research Data Alliance, a été mis en avant. Elle réunit en effet déjà 2500 participants issus de 92 pays et s’intéresse aux acteurs de la recherche, aux communautés, et au partage des données entre les Etats et au-delà des frontières disciplinaires. Elle vise à distinguer les bonnes pratiques dans le référencement des données de recherche et dans leur gestion, et se focalise en outre sur la longue traîne et les infrastructures.
Contrairement au W3C, elle se limite à des recommandations.

 

(téléchargez sa présentation ici)

 

Après-midi : Ateliers pratiques

 Modérateur : Florence Thiault


Hélène Prost (Inist-CNRS, GERiiCO) et Cécile Malleret (SCD, Université de Lille 3), Les données de la recherché dans
les thèses en SHS de l’Université de Lille 3

 

Présentation
 Dans leur communication, Hélène Prost et Cécile Malleret ont présenté des données se trouvant dans les annexes des thèses remises à la bibliothèque universitaire de Lille 3. Leur corpus se compose de 283 thèses, 195 imprimées et 88 au format électronique.Pour montrer la volonté de partage des doctorants, elles ont attiré l’attention sur la qualité des annexes et leur volume. Mais, elles ont aussi mis en garde devant la perte de cette richesse à cause d’une inaccessibilité due à leur hétérogénéité et à celle de leurs supports : CD, papiers, textes, tableaux, images, schémas. Pour faciliter une possible valorisation dans un environnement marqué par une telle diversité, elles formulent des recommandations quant à la structuration des annexes et la description des données qu’elles renferment. Elles suggèrent ainsi de rassembler un maximum de données dans les annexes, de paginer ces dernières, de veiller à la pérennité de leur accès et de décrire précisément les données à la fois en termes de contenu et de condition de recueil, et de préciser qui en est à l’origine.


Discussions
   Lors des échanges, il a été signalé que la question de la publication des annexes des thèses rencontre celles des
droits. Cela a permis aux intervenantes de préciser qu’au format papier, la thèse est consultable sur place, tandis
qu’en ligne, il existe deux versions : une version d’archivage qui contient l’ensemble des données, et une de diffusion
qui respecte les règles de droits de diffusion. D’un point de vue pratique, les discussions ont fait aussi ressortir la
possibilité depuis octobre 2014 de déposer plusieurs fichiers sous une même référence sur HAL et TEL. Il a aussi été
fait mention que lors des dépôts électroniques, les métadonnées des thèses sont normalisées et que les mots clés
sont choisis avec le doctorant. La question de la mise en place d’un guide pour inciter les doctorants à déposer sous
forme électronique reste ouverte.

 

(téléchargez sa présentation ici)

 

Marie-Madeleine Géroudet et Coline Blanpain (SCD, Université de Lille 1) : Quelle place pour les données de la
recherche liées aux thèses dans le projet Open Access de l'université Lille 1 ?

 

Présentation
   Dans leur communication, Marie-Madeleine Géroudet et Coline Blanpain ont interrogé le rôle d’un service commun de documentation dans la gestion et la diffusion de données liées aux thèses. Elles ont présenté à cette fin le projet d’archives ouvertes de publications de l’université Lille 1 qui relient les entrepôts de données extérieurs à cette université, tels que HAL, aux entrepôts déjà réalisés par une partie de ses chercheurs. Elles ont rappelé que ce projet recoupe des enjeux touchant au partage des données de la recherche, à leur diffusion et à leur conservation, et doit faire face par exemple au départ des chercheurs, au peu de temps qu’ils disposent pour se consacrer à la documentation et à la nécessité de prendre en compte les diverses sensibilités des laboratoires. Elles ont aussi décrit le projet de mise en place de l’infrastructure d’archives ouvertes à Lille 1 qui comprend les modalités de désignations de laboratoires partenaires, une prospection des entrepôts existants, un audit de données, la conception d’une offre cohérente de services, une réflexion sur l’accompagnement des chercheurs dans le dépôt de leurs données et les moyens dont un service de documentation peut disposer, notamment les compétences particulières que requerrait un bibliothécaire qui serait spécialisé dans la curation de ce type de données.

 

Discussions
   Les discussions ont permis de soulever la question de la collaboration et de ses modes entre les universités de Lille 1,
2 et 3. Il a été affirmé que l’implication des laboratoires était indispensable, que des approches « top down »
mèneraient à l’échec et que les directeurs de thèse seraient difficiles à intégrer dans un processus de publication en
ligne étant donné leur sensibilité parfois faible aux possibilités offertes par les outils électroniques. Le choix de
passer par des laboratoires pilotes a donc été conforté. Des questions sont restées ouvertes, comme l’incapacité à
fournir des réponses génériques qui conviendraient à tout type de données.

 

(téléchargez leur présentation ici)

 

Nicolas Larrousse (Huma-Num-NAKALA) : Les données de la recherche à Huma-Num : les services Nakala

 

Présentation
   Cette présentation s’est centrée sur Huma-Num, une infrastructure de recherche dédiée à l’archivage et à la conservation à très long terme de données déjà recueillies par des chercheurs en SHS, qui fournit à cette fin des outils, comme des licences logicielles, et des services, tels que l’hébergement de données. Pour faire face à la fragilité des données numériques due à l’usure de leur support et à l’obsolescence de leur format, mais aussi à l’oubli numérique, oubli de leur existence ou de la façon de les utiliser, Huma-Num établit des liens entre différents outils et plateformes comme le CINES, les archives nationales, les entrepôts OAI ou encore triple store. Elle propose aussi un outil, Nakala, qui favorise le partage de données en les exposant au moyen d’un identifiant, d’un accès permanent à la source et d’une description reprenant des métadonnées standardisées. Globalement, il a été souligné que Nakala déchargeait son utilisateur de la gestion des données sur des durées indéterminées en assurant leur partage et leur interopérabilité ; en les dissociant de leur outil d’utilisation ; et en préparant leur entrée dans Isidore. Ainsi, il a été affirmé que Nakala facilitait le processus d’archivage à long terme.

 

Discussions
   Les discussions ont d’abord concerné la participation des institutions de recherche à des groupes de recherche
internationaux au sein de DARIAH, une infrastructure de recherche européenne, puis elles se sont tournées vers les
modalités de prise de contact avec Huma-Num. Nicolas Larrousse a précisé qu’elle se réalisait en posant
directement des questions par mail sans passer par un formulaire. Enfin, il a été aussi rapporté qu’Huma-Num avait
vocation à soutenir de nombreuses initiatives et à organiser chaque année une école d’été.

 

(téléchargez sa présentation ici)

 

Synthèse par Geoffroy Gawin, Doctorant en SIC. Laboratoire GERiiCO. Université de Lille 3