exit

Sciences humaines et sociales   > Accueil   > Archéologies numériques   > Numéro 1   > Article

Haruspex, Outil de Gestion de Connaissances non Structurées

Haruspex, Knowledge Management Tool for Unstructured Data


Matthieu Quantin
IRCCyN UMR_CNRS_6597 École Centrale de Nantes

Benjamin HERVY
IRCCyN UMR_CNRS_6597 École Centrale de Nantes

Florent Laroche
IRCCyN UMR_CNRS_6597 École Centrale de Nantes

Jean-Louis Kerouanton
CFV EA_1161 Université de Nantes



Publié le 13 octobre 2017   DOI : 10.21494/ISTE.OP.2017.0172

Résumé

Abstract

Mots-clés

Keywords

L’objet de cette communication est de proposer une méthode pour l’analyse et l’exploitation de corpus de documents non-structurés ou faiblement structurés. Le terme non-structuré se réfère au concept informatique de données non-décrites, non-marquées explicitement. Aujourd’hui la création de corpus de données numériques (ouverts ou privés) est un phénomène massif. Toujours plus de données sont scannées, photographiées, retranscrites, etc pour être analysées. Les jeux de données (numériques) constituent la matière exclusive, quotidienne du chercheur. Ces jeux de données sont souvent construits spécialement pour les besoins du projet voire collectés par le chercheur lui-même. Ce phénomène demande à être accompagné par une évolution des outils d’analyse : données physiques et données numériques ont des potentiels d’analyse différents. Or le chercheur en SHS est souvent démuni face aux sources non structurées qu’il collecte : articles, scan d’archives, documents OCR, images et métadonnées. La mise en place d’une base de données se résume souvent (au mieux) à un « tableau excel ». Les domaines du bigdata et du data-mining sont cantonnés à des projets de très grande envergure, pour des données déjà structurées, avec une équipe de soutien logistique conséquente. Un fossé se creuse entre le chercheur en histoire, en archéologie, en sociologie et les « humanités numériques ». L’outil proposé, intitulé Haruspex, vise à réduire ce gap. Il traite des données texte (et images éventuellement) en français ou en anglais, pour produire une base de données orientée graphe, requêtable, contenant les documents liés entre-eux (proximité sémantique). En entrée, divers formats (pdf, txt, odt, latex…) sont pris en charge, le processus se déroule ensuite en 4 étapes : 1. Gestion de corpus : création ou récupération d’éventuelles métadonnées (dates, lieux, étiquetage) pour les documents ; concaténation, découpage, regroupements, exclusion, … 2. Indexation sémantique de ce corpus : extraction de mots clés (génériques mais aussi très spécifiques), puis classification de ces mot-clés en catégories (si possible). 3. Modération des résultats précédents par l’utilisateur. 4. Calcul de la « distance sémantique » entre documents à partir de l’indexation modérée. Les premiers essais dans divers domaines – patrimoine industriel, histoire de la chimie au XXe siècle, histoire du travail dans les colonies et analyse des publication scientifiques – sont concluants aux yeux des chercheurs du domaine concerné.

This study presents a method designed to analyse and tap corpus made of unstructured or weakly structured documents. The term structured refers to a computer point of view, and means non-described, non explicitly marked up data. Nowadays, digital (open, or private) corpus creation is a massive trend. More and more data is being scanned, photographed, faithfully transposed, etc. to be analysed (among other uses). Digital data set is the exclusive material, daily handled by the researcher. These sets are often specifically designed for a project, even collected by the researcher himself. This trend needs to be accompanied by analytic tools. Actually physical and digital data have different potentials of analysis. Yet, the researcher in humanities often remains powerless facing the unstructured data he collects: articles, scan of archives, OCR documents, media and their metadata. Deploying a database is often limited to an “excel sheet” or some few SQL tables. Big data and data-mining technologies are restricted to large scale project, for already structured text, with a significant IT support team. This opens the gap between historians, archaeologist, sociologist and the “digital humanities”. This tool, nammed Haruspex, aims at closing this gap. It processes textual data, eventually combined with pictures, written in french or english, and outputs a graph oriented database. This database contains interlinked documents (semantic closeness). As inputs, several formats (pdf, txt, odt, latex …) are supported. The process is ran through 4 steps: 1. Corpus management: create or extract eventual metadata (date, place, tags) for each document; manipulate them: concatenate, split, gather, exclude…2. Semantic indexing of the corpus: keyword extraction (generic but also specific) and classification of these keyword in categories (if possible). 3. Results monitoring by the researcher. 4. Computing the “semantic closeness” between documents from the monitored keywords. First tests of haruspex concern several fields of study: shipyards industrial heritage , history of chemistry in the XXth century, labour history in french colonies and contemporary scientific publications studies. These tests convinced the concerned researchers.

graphe indexation proximité sémantique corpus texte non-structuré

graph index semantic closeness corpus unstructured text