Journée du 21 avril 2015 : « Maîtriser les technologies pour valoriser les données »

Lieu : MESHS (salle 2), 2 rue des Canonniers, 59000 Lille


Cette troisième journée du séminaire « Les données de la recherche dans les humanités numériques » s’attache à la découverte et à l’analyse de différentes technologies numériques qui, peuvent ou pourraient permettre de valoriser les données de la recherche en Sciences Humaines et Sociales. L’ensemble des présentations ne portent pas obligatoirement sur des usages de ces technologies dans un contexte d’ « Humanités numériques » mais permettent de réfléchir à la place de ces «  outils »  dans la production, le traitement, la pérennisation et la valorisation des « données » de la recherche en Sciences Humaines et Sociales.  

Le matin, deux conférences magistrales ont présenté le développement et l’usage de technologies de traitement automatique des textes et des langues dans des cadres extérieurs aux SHS : celui du traitement et de la valorisation de corpus documentaires de la recherche en chimie, et celui de la fouille textuelle au service d’une analyse des besoins et des opinions dans un cadre marketing. L’atelier de l’après-midi a permis de dialoguer avec un ingénieur de recherche,  un informaticien et une chercheuse en SIC sur les technologies de partage et de valorisation des « données » de la recherche.

Plusieurs enjeux surgissent clairement à la lecture du programme et lors de la présentation de cette journée par Joachim Schöpfel, maître de conférence en Sic et directeur de l’ANRT et  Stéphane Chaudiron, professeur en SIC et directeur du laboratoire GERiiCO.

  

Face à toutes ces questions, cette journée vise à apporter des réponses concrètes pou savoir comment ces technologies peuvent aider à stocker, conserver, rendre interopérables les données de la recherche.


  1. Une journée européenne

Cette journée a été conçue comme une journée européenne. Ce choix s’explique  par le renforcement récent, en Europe, de cette question de la publication des données de la recherche en SHS. Comme nous le rappellent Peter Murray Rust de l’Open Knowledge Foundation et Kees Waterman du  Data Archiving and Networked Services à La Haye, la publication des données de la recherche s’inscrit dans deux mouvements qui, ici, se rejoignent, même s’ils n’ont pas les mêmes logiques.

Le premier est celui du Libre Accès, qui, depuis les premiers développements techniques d’archives ouvertes et la conférence de Budapest en 2002, n’a cessé de prendre de l’ampleur et d’assoir son projet social de partage des connaissances à l’échelle mondiale. Si le modèle du libre accès est désormais très présent dans le cadre des publications scientifiques, même s’il reste en concurrence avec celui des logiques éditoriales et évaluatrices de la revue, il en est encore à ses débuts pour ce qui est des données de la recherche.

Le deuxième est celui, sous l’impulsion, entre autres,  de directives européennes, d’une volonté de développer une efficience de la recherche en sciences sociales. Cette efficience, retour sur investissement de l’argent public, s’inscrit dans une logique où les SHS répondraient avant tout à la demande sociale croissante d’expertise  par le partage du réservoir de connaissances que seraient les « données » de la recherche en SHS et par l’extension du principe de vérifiabilité des sciences dites dures à l’enquête en SHS.

 

  1. Les intervenants

La diversité des intervenants a permis de nourrir le débat sur la portée des technologies numériques en SHS lorsqu’il s’agit de gérer, conserver, valoriser, partager les données de la recherche. Il est visible que pour l’instant la publication des données de la recherche reste très ancrée dans le modèle des sciences de l’expérimentation. Mais en même temps des approches comme la terminologie et la cartographie sont, elles,  profondément relié à l’analyse des discours, scientifiques ou non.

Peter Murray-Rust est chimiste. Il est actuellement maître de conférence en informatique moléculaire à l’Université de Cambridge et Senior Research Fellow au Churchill College. Il est surtout connu comme supporter du mouvement du libre accès. En tant que tel, il est membre du conseil consultatif de l’Open Knowledge Foundation et auteur des Panton Principles for open scientific data.

Charles Huot est PDG de la société TEMIS et président du GFII (Groupement Français de l’Industrie de l’Information). TEMIS est une entreprise spécialisée dans la fouille textuelle (text mining) et plus généralement dans le traitement automatique des textes et les big data textuelles. Elle a pour clients des acteurs de l’édition scientifique, des agences de presse, des entreprises pharmaceutiques, des organismes de la sécurité ou de la défense et toute entreprise désirant mieux connaître ses relations avec ses clients, ses fournisseurs en gérant mieux les données personnelles.

Kees Waterman est gestionnaire de données senior au Data Archiving and Networked Services à La Haye. Le DANS a été créé par l’Académie néerlandaise royale des Sciences (KNAW) et l’Organisation néerlandaise pour la Recherche scientifique (NWO). Il a pour but d’offrir un accès numérique permanent aux données de la recherche et de le promouvoir.

Mathieu Roche est chercheur en informatique (HDR)  au sein de l’UMR TETIS à Montpellier et du CIRAD, et  membre associé du LIRMM. Ses domaines de recherche sont la fouille de texte, la recherche d’information, le Traitement Automatique du Langage Naturel et les systèmes d’information. Le CIRAD est un organisme de recherche agronomique et de coopération pour le développement durable des régions tropicales et méditerranéennes. L’UMR TETIS («Territoires, environnement, télédétection et information spatiale»)  « constitue un pôle de recherche appliquée de dimension européenne en approches spatiales, télédétection et information géographique pour l’environnement, l’agriculture et les territoires ». Dans ce cadre, il développé des outils de traitement des corpus scientifiques.

Marta Severo est maître de conférence en SIC au laboratoire GERiiCO à l’Université de Lille 3. Ses axes de recherches sont « Médias et territoires », « Représentations du territoire par les données Internet », « Traces numériques et méthodes numériques pour les SHS », « Net-activisme », « Ville numérique ». Dans le cadre de ses recherches, elle a développé une réflexion sur l’usage de la cartographie en SIC.

 

Coordination : Joachim Schöpfel, maître de conférences en SIC, directeur ANRT

 

Matinée : Conférences

Peter Murray-Rust (Open Knowledge Foundation, Cambridge),« Issues in electronic theses and open research data »

 

Présentation

   Le préambule de la conférence de Peter Murray-Rust l’inscrit  clairement dans un militantisme du libre accès. Autour du slogan « Change the world », l’ambition de Peter Murray-Rut est de participer, avec sa fondation, à la création de communautés pour changer le monde de la publication scientifique. Pour lui, les jeunes chercheurs doivent être les plus impliqués dans ces changements. Ce changement serait du même ordre que celui de la Révolution Française battant en brèche la domination des églises. Les citoyens, dans les universités et ailleurs, doivent, faire valoir leur droit à une société ouverte. Le Libre (Open) c’est utiliser, réutiliser, modifier, redistribuer. Au-delà des controverses, il faut faire avec la connaissance ce qui a été fait avec les logiciels. En prenant la main, les communautés universitaires vont pouvoir échapper à l’emprise des sociétés commerciales sur les usages du réseau : citons Facebook, Academia.edu, Thomson, Researchgate ou Google Scholar. Il faut rapidement, dans les universités, construire des technologies que l’on maîtrise. La liberté de publications doit s’ancrer dans l’héritage des encyclopédistes, ou dans celui du Free Speech Movement à Berkeley en 1966. On peut même parler de « Lumières numériques » (digital enlightments), mouvement dans lequel sont impliqués de nombreux jeunes chercheurs.

En même temps on constate la nécessité de mieux partager l’information pour améliorer l’action publique. La publication universitaire est un échec face à cette nécessité. Un exemple fameux est le manque de circulation des connaissances expertes dans le développement de la dernière grande épidémie d’Ebola. Et pourtant le Libéria était connu comme une zone à risque depuis 1982.

L’idée est alors de construire  un système de découverte (« Discovery System ») tourné vers l’idée de la connaissance comme bien public. D’ailleurs HAL, service public, est  très performant. Il semble aberrant de payer deux fois le financement de la recherche et le rachat de ces résultats auprès d’entreprises. L’idée est de faire dans les sciences ce que fait Openstreetmap pour la cartographie.  Pour s’orienter dans l’ensemble des publications scientifiques, la fouille textuelle semble un  moyen de relier et donc de cartographier une grande quantité de documents : « The Right to Read is the Right to Mine » / « Le Droit de Lire est le Droit de Fouiller ».

Peter Murray-Rust et son équipe ont donc développé un outil de recherche et de cartographie des publications scientifiques en chimie. Le lien entre un million de documents se fait par ce que Peter Murray-Rust qualifie de « faits » scientifiques. La technologie de fouille de contenu (Content Mining) permet d’extraire des « faits » de la littérature scientifique. Chaque document est indexé par ces « faits » scientifiques et ce traitement est complété par des métadonnées classiques. Qu’entend-t-on par contenu ? Est considéré comme contenu les cartes, les textes, les schémas, les formules, les tableaux etc. Une telle fouille de contenu n’est possible qu’avec des publications scientifiques formatées selon la logique de la publication scientifique en science dite dure où l’enchaînement hypothèses, matériels et méthodes, résultats est quasi systématique et où les règles de rédaction des schémas, figures et tableaux sont standardisées. Voici alors  les étapes : récolte sur le Web ➔ survol automatique des documents ➔repérage des  formats de publication ➔ format normalisés avec extraction des diagrammes et OCR ➔ HTML ➔ Indexation et transformation  (CAT-alogue Index) ➔ redistribuer les articles et les faits extraits des textes. Les techniques d’extraction s’appuient sur la régularité de paquets de mots, des graphiques,  et le repérage des expressions régulières (en tenant compte de leur fréquence d’occurrence) qui ont toujours le même sens dans les publications en chimie. Par exemple la préposition « in » signifie un lien entre des molécules. L’outil de recherche se nomme Cottagelabs.

 

Discussions

   Suite à quelques échanges avec les auditeurs, il semblerait nécessaire, pour pouvoir étendre ce mouvement et développer ces outils, en sciences comme en SHS,  de normaliser les formes sémantiques, de lutter contre la mauvaise qualité des images et des graphiques et de totalement standardiser les formes de l’écriture scientifique : quelques essais ont été faits en économie où il est possible d’extraire les diagrammes et les statistiques mais la fluidité de l’écriture en sciences sociales semble peu convenir à ce genre de technologies. Par contre,  le format XML est très pertinent pour développer l’extraction de contenu.


(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-peter-murray-rust.html )


Charles Huot (PDG TEMIS, président du GFII), « Les technologies du Big data au service de la recherche »

 

Présentation

Le but d’une entreprise comme TEMIS est de pouvoir faire de la fouille sur tout type de texte. Il s’agit de dépasser les fantasmes sur le quantitatif et les Big Data pour plutôt s’appuyer sur les complémentarités entre une bonne expérience en Text Mining et le Data Mining. Il n’y pas de génération miraculeuse de connaissances à partir des données.

Le Data Mining, depuis 2005-2006, est surtout très utile et très utilisé dans le cadre médical : diagnostic, modèles épidémiologiques. Il est également utilisé pour exploiter des données structurées pour faire du profilage client et notamment anticiper le risque d’un départ du client.

Avec le Text Mining, il s’agit aussi de structurer du texte non structuré pour pouvoir après faire des extractions. Actuellement, on considère que les données sont à 20 % structurées (dans des bases de données) et à 80 % non structurées (comme dans des forums en ligne par exemple, mais aussi dans des bases de données).  Il s’agit donc de structurer ces données pour faire des extractions, agréger les données et produire des métadonnées. Ce processus participe au développement d’un Web sémantique au service de la veille ou de la gestion des connaissances.

Et donc au final, TEMIS va coupler des informations structurées avec des informations non structurées en traitant des résultats d’enquêtes d’opinion, des appels téléphoniques, des méls clients, des méls internes, des contrats, des rapports de maintenances, des informations techniques, des articles, des essais cliniques, des blogs, des forums etc. « Dépression et mobilité » est un exemple de projet Big data mené par TEMIS exploitant à la fois des données structurées (fiche patient) et des données non structurées (forums).

Pour traiter ces différents types de données, le principe clé de TEMIS est celui des 3V : volume, vitesse et variété.  Il faut pouvoir normaliser les textes à partir de formats et de langues multiples.  Voici le processus de base.

  1. Données textuelles libres ➔2.  Structuration et enrichissement ➔3. Exploitation de contenu 

Ou encore  

  1. Collecter, gérer les formats ➔2.  Normalisation des documents, analyse morphosyntaxique, extraction d’information (connaissance, métadonnées), catégorisation/clustering ➔ 3. Navigation, graphiques, fichiers, classification etc.

De tels processus combinent des technologies linguistiques, statistiques et informatiques. Et il faut être capable de contextualiser les données en plus de la combinaison de ces compétences.

Pour cela, on combine des méthodes statistiques et sémantiques : vecteurs de termes, concepts sémantiques proches. Au cœur du système de traitement des données (Luxid), il y a un module logiciel d’étiquetage morphosyntaxique (Xelda) qui procède en 5 étapes : identification de la langue, tokenisation (mots, mots composés, ponctuation, expressions numériques etc.), segmentation (identifier les phrases : identifier fin / début de phrases selon la qualité de structuration de l’entrée : balises HTML etc.) , analyse morphologique (quelle est la forme normalisée ?), désambiguïsation grammaticale (modèle markovien, apprentissage de la machine en fonction de la position du mot dans la phrase). Pour mener à bien une telle analyse, il est nécessaire que la machine soit « nourrie » de « cartouches de connaissances » où sont engrangés les lexiques et règles morphologiques d’un métier, d’un domaine de connaissance, d’un objet d’études.

Deux exemples : mesurer l’égalité des décisions de justice en faisant le lien entre données chiffrées (indemnités) et données textuelles (contenus des arrêts) ; mesurer le niveau d’émotion des appels clients d’EDF qui passe par des outils de transcription puis de fouille textuelle (projet Voxfactory).



Discussions
   Deux questions ont été abordées dans la discussion. Celle des outils de transcription et de leurs modalités d’apprentissages : l’apprentissage des langues se fait entre autres par le différentiel entre son usage dans Wikipédia et le modèle de référence de la langue classique. Celle de la protection des données personnelles : pour une entreprise comme TEMIS, il s’agit surtout de protéger les employés de l’entreprise cliente.

 

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-charles-huot.html )


 

Après-midi : Ateliers pratiques

 Modérateur : Eric Kergosien


Kees Waterman (Senior Datamanager, Data Archiving and Networked Services, La Haye), « Research data management, data archiving and dissemination and the roles of a Trustworthy Digital Repository (TDR): The case of DANS »

 

Présentation 

   Le projet de DANS s’ancre dans la volonté d’étendre la confiance envers la communauté pour la publication des ressources. Il s’agit de développer l’usage d’une banque de dépôts des données de la recherche avec comme objectif de créer, traiter, analyser, conserver, donner accès et réutiliser les données de la recherche, notamment en SHS.  Trois services s’articulent : EASY pour le dépôt et l’accès aux données, Dutch Dataverse Network pour gérer les données en court de projet (cours et moyen terme) et PERSID pour assurer la génération des identifiants uniques et donc le moissonnage des métadonnées.

Actuellement, dans EASY, 30000 paquets de données sont archivés avec pour l’essentiel des données en biologie, médecine, sciences sociales, études culturelles et sciences comportementales. Chaque ensemble de données est référencé par des métadonnées géographiques, des métadonnées Dublin Core et une gestion des publics et des accès. Lors du dépôt, sont exigées au minimum les informations nécessaires à l’exploitation des données : problématique de la recherche, méthodologie, modes de récolte des données – questionnaires, protocoles d’observation, variables de l’expérience, etc. certains formats sont recommandés.

Les dépôts explosent quantitativement avec un accroissement clair depuis 2009.  La question se pose alors d’essayer d’en mesurer la réutilisation. Cette mesure se fait pour l’instant par le nombre de téléchargements.

Ce projet est plus large que celui du partage des donnée : il s’agit aussi d’asurer leur conservation en fournissant un support technique aux chercheurs, de développer une infrastructure des données aux Pays-Bas, de mettre en place une certification des données (on voit bien ici l’empreinte du modèle de vérifiabilité de l’expérience propre aux sciences dures) et enfin de construire des relations entre les universités.  Le projet s’articule avec d’autres projets néerlandais ou européens : surveydata.nl , EHRI (études sur l’holocauste), ARIADNE (normalisation des métadonnées), EUDAT (European Data Services) et CARARE (projet pour la visualisation des données).


Discussions 

   Lors de la discussion, il apparaît que le projet se diversifie concrètement par des accords avec des organisations pour le dépôt de leurs données, par le développement de dépôts disciplinaires (archéologie). Le plus dur est de lutter contre la méfiance des chercheurs à partager leurs données. Une des solutions préconisées par Kees Waterman, face à cette méfiance, est de former les universitaires à la gestion des données, de valoriser les dépôts sécurisés, de développer un modèle financier et gestionnaire pour supporter le développement de ces archives.  Il faut être transparent et engagé. C’est pourquoi a été mise en place une norme en 2012 : la norme ISO TDR (Trust Digital Repository). Dans une enquête auprès de 30 institutions de recherche sur une politique de données, les critères par ordre d’importance sont l’intégrité, la conservation, le contrôle des accès et la récupération. Plus qu’un partage des données il semblerait surtout qu’il s’agisse d’une conservation des données pour les équipes déjà constituées.  

La mesure de la réutilisation reste d’ailleurs assez pauvre. Les téléchargements ne sont pas significatifs d’une réutilisation et de quelle réutilisation. Malgré des enquêtes, il ‘a pas été possible à DANS de savoir si les chercheurs ont réutilisé des données qui n’étaient pas les leurs soit pour publier des résultats soit pour comparer des méthodologies de travail ou les contextes de recherche.  

DANS reste essentiellement un projet néerlandais articulé au dépôt de littérature grise des Pays-Bas (H2020) et à quelques projets européens ; la langue est essentiellement le néerlandais avec une part d’anglais. Et enfin la recherche se fait sur les métadonnées pas sur les données primaires.

 

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-kees-waterman.html )

 

Mathieu Roche (CIRAD, TETIS et LIRMM) : « Fouiller les données textuelles issues de la recherche : approches et nouveaux défis »

 

Présentation

   Mathieu Roche a présenté des projets d’extraction terminologique dont les méthodes sont très proches du travail de TEMIS.

Il s’agit de traiter les données de la recherche du CIRAD, laboratoire en agronomie, avec comme défi, celui des 3 V des BIg Data : vitesse, volume, variété. La fouille textuelle permet d’étiqueter des documents avec des mots-clés et de les assembler ou de les séparer (donc les classer) en fonction de la similarité ou de la différence de ces mots-clés.   Voilà le processus : acquisition ➔ corpus brut ➔ nettoyage / formatage ➔ corpus nettoyé ➔ étiquetage grammatical : corpus étiqueté (difficulté avec des textes non structurés de  type tweet et sms) ➔ extraction des termes ➔ liste de termes.

A partir des corpus étiqueté, on extrait des candidats termes, puis on pondère ces descripteurs selon leur caractère discriminant ou non, et leur combinaison avec d’autres termes. Il s’agit d’expérimenter une solidification des données entre les publications et les données « brutes » de la recherche.  En effet les documents publiés par les chercheurs du CIRAD sont eux indexés par des documentalistes avec le thésaurus Agrovoc et des noms géographiques. Il va donc y avoir une confrontation entre cette indexation humaine et les résultats de la fouille de texte.  Il s’agit entre autres de vérifier la cohérence entre le thésaurus et les données de la recherche pour enrichir les uns et les autres. Et ainsi cartographier les thématiques de recherche et faire surgir les thèmes émergents.

Ce projet a pour but essentiel de rendre visible le réseau de la recherche en reliant les thèmes,  les données spatiales et les auteurs des recherches dans une carte de ces recherches.  Pour cela  a été réutilisés les outils du laboratoire LIRMM, développés pour des données biomédicales. Le corpus est constitué d’abstracts des publications, des outils Biotex et Gentex. On utilise la méthode développée par Juan Antonio Lossio pour enrichir les ontologies biomédicales en France : le logiciel Biotex est un étiqueteur grammatical avec un thésaurus biomédical intégré et un outillage linguistique pour le français, l’anglais et l’espagnol.  Il s’agit d’extraire des termes simples et composés et les valider automatiquement d’après un thésaurus déjà existant. A l’intersection des extractions et du thésaurus Agrovoc, il a été possible de vérifier que les termes composés sont les plus pertinents pour indexer les données de la recherche ; 140 ont été listés ; et une carte des publications par lieu (pays, ville) a été établie.

D’autres V  seraient possibles lorsque l’on parle de Big Data : véracité, valorisation etc.

 

Discussions
   La discussion a porté sur l’extraction terminologique dans Biotex. Biotex est un outil qui utilise la technologie un peu ancienne du Treetagger. Malgré cette critique, Mathieu Roche considère que cela reste un outil performant notamment pour travailler les « patrons » terminologiques. Il continue de privilégier la méthode statistique et la confrontation des résultats à des thésaurus déjà existants. Biotex étant en ligne, il serait possible d’utiliser les apports des usagers. Mais cela s’est peu fait.  La question finale reste celle de l’intérêt d’un travail d’extraction sur des corpus scientifiques alors que les chercheurs indexent leurs travaux avec pertinence.  Pour Mathieu Roche, l’intérêt d’un tel travail reste l’apparition de termes composés rares significatifs des thèmes émergents de la recherche : ces termes apparaissant surtout dans la comparaison, d’une année sur l’autre, des extractions.  

 

 

Marta Severo (GERiiCO, Université de Lille 3) : comment cartographier les données de la recherche

 

Présentation

Cette présentation vise à expliquer l’usage en SIC des outils de cartographie Web.  Marta Severo insiste sur le fait que le terme de cartographie ne doit pas être pris au pied de la lettre. Il s’agit avant tout d’un outil de représentation des liens hypertextuels, s’appuyant sur l’idée que les liens hypertextuels sont des liens signifiants. Le logiciel utilisé dans ces cartographies est GEPHI, logiciel libre et gratuit. Le but est de rendre visible le lien entre les «données » en s’appuyant sur la théorie des graphes en informatique. On qualifie de nœud le mot et de lien la co-occurrence de ce mot. Le graphe est orienté quand ce couple noeud-lien est concrétisé par un lien hypertextuel.

Deux méthodes sont possibles pour construire les corpus : soit manuellement selon les choix des chercheurs (avec un logiciel comme Navicrawler), soit par une collecte automatisée à l’aide de logiciels comme Issuecrawler. Avec Navicrawler, pour chaque page, est généré une liste de liens et je décide manuellement des liens pertinents ou non. Cet apport manuel permet de choisir dans la multiplicité des liens dans le web. Cela permet de définir les limites du corpus : ce choix se fera en fonction du cadre analyse. Avec un outil automatique, on lui donne une liste de sites web et il cherche automatiquement les liens  avec le risque de récolter un corpus très hétérogène.  

L’étape suivante est la qualification de ces liens d’après son cadre de recherche : ces liens sont des liens thématiques des liens d’acteurs, des liens communautaires etc.  Marta Severo a par exemple utilisé cette cartographie pour visualiser les  relations entre acteurs dans le patrimoine immatériel en Europe.  L’outil a permis de repérer des acteurs dominants.  C’est bien l’étape de qualification des nœuds et des liens qui va donner du sens à ces cartographies  et orienter la structuration des données.

Comment  se déroulent cette structuration des données dans Gephi ? Un  tableau des nœuds et un tableau des relations  sont constitués.  Chaque noeud doit avoir un identifiant, les relations couplent origine et destination du lien. Donc on choisit des étiquettes aux nœuds, ce qui va qualifier les données.

Comment alors  lire des graphes des hyperliens ? Que cela nous dit-il en plus ?

On peut lire trois éléments et les combiner :

  1. La proximité

  2. On peut réfléchir sur les classements, changer la taille de noeuds en proportion de l’autorité du site par exemple.

  3. On peut identifier des communautés discursives ? Chercher des univers sémantiques, chercher des relations entre acteurs, des liens entre opinions etc.

Le but est souvent d’analyser les ponts qui relient différentes sous-communautés. Plusieurs projets d’analyse des communautés politiques, des opinions, des relations discursives sont cités.

Il nous reste l’étape finale de la spatialisation pour visualiser les données. Cette spatialisation est contrainte par les algorithmes disponibles avec soit une mise en avant des divisions, soit une mise en avant des complémentarités, soit une optique de classement, soit une répartition géographique. On connaît mal les algorithmes, ils sont mal documentés.

 

Discussions

   Dans la discussion il apparaît alors deux complexités méthodologiques à l’usage de la cartographie : le premier est l’absence de maîtrise des algorithmes de spatialisation, le deuxième est la qualification des nœuds et relations par leur catégorisation et leur degré d’autorité. Cette qualification est du ressort du chercheur, tout en étant parfois déduite du « travail » de collecte des liens par le logiciel. Il semblerait nécessaire de clarifier si ces catégorisations et ce poids accordé à certains nœuds plutôt que d’autres vient d’un travail préalable d’analyse du corpus, du cadre de recherche, ou des premiers résultats de la collecte.

Pour l’instant les outils traitent une quantité relative de données mais  des progrès sont en cours sur les volumes traitables.

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-marta-severo.html )

 

 

Conclusion

Comme le rappelle Joachim Schöpfel ; cette journée s’inscrit dans un projet plus large de Lille 3 et de la MESHS devant aboutir à un livre blanc de recommandations pour le traitement et le partage des données de la recherche.

Trois technologies avec trois logiques différentes ont été présentées :

La première semble extensible, dans des conditions de confiance, à tous les domaines de la recherche. Il semble par contre difficile de mesurer le réel usage de ces données de la recherche, en dehors des équipes d’origine. Et de tels outils semblent pour l’instant surtout répondre aux exigences d’un management de la recherche et à l’extension des principes de la vérifiabilité des expériences au-delà des sciences dures.

La deuxième permet de relier et de qualifier/décrire des données mais dans des contextes qui, pour les exemples vus, ne sont pas exactement ceux des SHS. D’un côté, en chimie et en agronomie, il y aurait l’idée que les textes scientifiques donnent directement accès à des « faits » scientifiques. Et du côté du marketing et des enquêtes d’opinion, il y aurait l’idée que des fragments textuels, isolés et restructurés seront des indicateurs transparents des émotions ou des opinions. Il apparaît néanmoins chez TEMIS comme dans les travaux de Mathieu Roche que le contexte social de la recherche ou de l’enquête marketing est un paramètre essentiel à la compréhension de ces « données ».  Il n’en resterait pas moins que pour l’instant le Big Data serait surtout affaire d’épidémiologie et qu’enquêtes d’opinion plus que de recherches en SHS.

La troisième, qui aurait mérité plus de temps d’exposition peut-être, pose, comme cela a été évoqué dans la discussion, la question du couplage méthodologique entre un cadre de recherche forgé par les équipes de chercheurs en SHS et un outil dont les technologies informatiques complexes ne sont pas complètement connus des chercheurs.

Dans tous les cas, pour que ces technologies deviennent pleinement des outils de la recherche en SHS, il semble urgent d’éclaircir les notions de  « données », de « faits » en SHS et surtout  l’idée que ces « données » et ces « faits » existeraient directement dans les textes. La meilleure piste de réflexion est sans doute cette belle exigence du DANS qui oblige les chercheurs à déposer avec leurs « données », leur projet, leur question et leur méthodologie.

 

(voir la conclusion : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-conclusion.html )

 

Synthèse par Béatrice Micheau Doctorante, Laboratoire GERiiCO, Université de Lille 3, Université Lille nord de France