Information et communication > Accueil > Recherche d’information, document et web sémantique > Numéro
Avec la croissance extrêmement rapide de la quantité de documents numériques dans nos sociétés,
l’automatisation de l’indexation est devenue un enjeu de recherche central pour la gestion documentaire. Plusieurs
compétitions scientifiques portant sur des tâches d’indexation automatique ont vu le jour ces dernières années. Cet
article rend compte de notre participation à l’une d’entre elles, soit l’édition 2016 du Défi fouille de textes (DEFT-2016).
Dans un premier temps, nous présentons un état de la situation concernant l’importance, mais aussi les enjeux et les
défis de l’indexation automatique. Après avoir présenté les grandes lignes de la campagne d’évaluation DEFT-2016,
nous introduisons l’approche que nous avons développée. Celle-ci repose sur la construction d’un espace sémantique de
mots-clés. L’évaluation des performances de notre approche et l’analyse des résultats suggèrent que notre méthode est
particulièrement adaptée à des tâches d’indexation automatique qui nécessitent une part importante d’assignation de
mots-clés contrôlés qui sont absents du contenu textuel des documents.
Cet article présente la contribution d’eXenSa à l’édition 2016 du DÉfi Fouille de Textes (DEFT) dont la tâche consiste
à indexer des documents scientifiques par des mots-clefs, préalablement sélectionnés par des professionnels. Le système proposé est
purement statistique et combine une approche graphique et une approche sémantique. La première approche cherche dans le titre et
le résumé du document des mots graphiquement proches des mots-clefs du thésaurus. La seconde approche attribue à un nouveau
document des mots-clefs associés aux documents du corpus d’entraînement qui lui sont sémantiquement proches. Les deux approches
utilisent des représentations vectorielles apprises en utilisant l’algorithme NC-ISC, un algorithme stochastique de factorisation de matrices.
Notre approche a été classée première en terme de F-mesure sur deux des corpus de spécialité proposés et deuxième sur les deux
autres.
Cet article décrit la campagne 2016 du défi fouille de textes (DEFT), qui pour sa douzième édition a proposé aux participants
de simuler la tâche d’indexation de documents scientifiques réalisée par des documentalistes, experts dans des domaines de
spécialité. L’indexation consiste à proposer un ensemble de mots-clés pour une notice bibliographique, en français, de quatre domaines
de spécialité (linguistique, sciences de l’information, archéologie et chimie). Cette tâche d’indexation de document scientifique est difficile
qu’elle soit réalisée manuellement ou automatiquement. Nous présentons la pratique de l’indexation manuelle et les méthodes état de
l’art pour l’indexation automatique ainsi que leurs évaluations. Nous décrivons ensuite les données mises à disposition des participants,
le déroulement de la campagne et les résultats obtenus évalués avec les mesures de précision, rappel, et f1-mesure, calculées avec une
macro-moyenne.
Cet article présente la participation de l’équipe TALN du LINA au défi fouille de textes (DEFT) 2016. Pour la tâche d’indexation
de documents de domaines de spécialité par l’intermédiaire de leurs mots-clés, nous avons proposé une méthode à base de
graphe, TopicCoRank, dans la lignée des approches à base de graphes proposées en recherche d’information. TopicCoRank modélise
les informations présentes dans le document et la connaissance du domaine pour réaliser une indexation plus exhaustive et respectueuse
du vocabulaire du domaine. Notre système s’est classé à la troisième place quel que soit le domaine de spécialité.
Ce billet dresse un bilan des présentations et des discussions qui ont eu lieu lors de l’atelier « Journalisme computationnel » du 24 janvier 2017. L’atelier était organisé par Laurent Amsaleg (CNRS, IRISA), Vincent Claveau (CNRS, IRISA) et Xavier Tannier (LIMSI-Univ. Paris Sud). Il était adossé la conférence EGC2017 se tenant à Grenoble.