Séminaire doctoral DRTD

« Les données de la recherche dans les thèses de doctorat »

École doctorale SHS - Année 2016 – 2017

 

Faisant suite au séminaire tenu en 2015-2016 sur « les données de la recherche dans les thèses de doctorat en sciences humaines et sociales » financé par la MESHS (projet Partenariat) financé par la MESHS (projet Partenariat) et au Livre blanc[1] qui en a résulté, le laboratoire GERiiCO (Stéphane Chaudiron) et le SCD de Lille 3 (Isabelle Westeel) organisent un séminaire doctoral méthodologique sur la mise en place d’un plan de gestion des données de la recherche.

 

Contexte

 

Dans le mouvement des Humanités numériques, le libre accès aux publications scientifiques et aux données de la recherche est à l’ordre du jour. Les agences de financement (ANR, programme H2020 notamment) exigent de la part des porteurs de projets soumettant une demande de financement que soit explicitement prévu un plan de gestion des données qui seront recueillies et produites dans le cadre de la recherche. Pour répondre à cette exigence, des répertoires de données se mettent en place, en France (Nakala dans le cadre d’Huma-Num) et à l’étranger (par exemple le DANS aux Pays-Bas, HISTAT en Allemagne dans le domaine des statistiques historiques ou l’Archeology Data Service en Grande-Bretagne). Le registre des répertoires de données (re3data.org[2]) identifie plus de 1300 répertoires à ce jour, dans de multiples domaines.

 

Les enjeux liés à l’archivage et à l’accessibilité des données de la recherche sont nombreux : l’enjeu est d’abord de nature patrimoniale car décrire et archiver de manière pérenne les données permettra une réutilisation future par d’autres chercheurs. L’enjeu est ensuite de nature heuristique car il s’agit de permettre l’exploration des données (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text mining, classification, cartographie, visualisation…) afin de construire un sens nouveau. Il répond enfin à une exigence en termes de politique scientifique car, imposé dans les programmes de financement, il est devenu un élément clé dans les réponses aux appels à projets.

 

Objectifs

 

À partir de trois exemples de données (entretiens, textes et images), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2017. Le programme est le suivant.

 

 

Programme

 

Séance 1 : Introduction : Gérer les données de la recherche – pourquoi, comment ?

Mardi 7 février 2017 de 14h00 à 17h00, salle B2.247

C.Malleret, J.Schöpfel

Cette séance aura pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.  

 


Séance 2 : Créer un plan de gestion des données de la recherche

Mardi 14 février 2017 de 14h00 à 17h00, salle B2.247

C.Malleret, J.Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à la conservation et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une partie de la séance sera consacrée à la formation à l’outil en ligne DMPOnline et au lancement des travaux individuels.  

 


Séance 3 : Le cycle de vie des données

Mardi 7 mars 2017 de 14h00 à 17h00, salle B2.247

B.Jacquemin, J.Schöpfel

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre. Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne. Un temps sera consacré à faire le point sur les plans de gestion des doctorants, par rapport à l’avancement de leurs propres projets de recherche.  

 


Séance 4 : Décrire les données de la recherche 

Mardi 4 avril 2017 de 14h00 à 17h00, salle B2.468

B.Jacquemin, E.Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par : - une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ; - et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins. Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.  

 


Séance 5 : Structurer les données de la recherche 

Mardi 16 mai 2017 de 14h00 à 17h00, salle B2.468

B.Jacquemin, E.Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes. Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests. Quels formats descriptifs ?  Montrer des exemples de structuration de données ; Comment baliser les données ; TD sur 3 types de données : corpus de textes, images, enquêtes.  

 


Séance 6 : Conserver et partager des données 

Mardi 6 juin 2017 de 14h00 à 17h00, salle B2.468

C.Malleret, J.Schöpfel

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche, dans les domaines SHS. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Une partie de la séance sera consacrée aux solutions pour les données des doctorants.  

 


Séance 7 : Bilan et évaluation

Mardi 4 juillet 2017 de 14h00 à 16h00, salle B2.468

B.Jacquemin, J.Schöpfel

La dernière séance du séminaire sera consacrée à l’évaluation des plans de gestion des doctorants et à un échange avec les participants au séminaire.