exit

Information et communication   > Accueil   > Recherche d’information, document et web sémantique   > Numéro 1   > Article

Les espaces sémantiques de mots-clés : une méthode d’indexation automatique de documents par assignation de mots-clés

Keyword Representations in Semantic Vector Space: a Keyword Assignment Method for Automatic Document Indexing


Jean-François Chartier
Université de Montréal
Canada

Dominic Forest
Université de Montréal
Canada



Publié le 26 janvier 2018   DOI : 10.21494/ISTE.OP.2018.0206

Résumé

Abstract

Mots-clés

Keywords

Avec la croissance extrêmement rapide de la quantité de documents numériques dans nos sociétés,
l’automatisation de l’indexation est devenue un enjeu de recherche central pour la gestion documentaire. Plusieurs
compétitions scientifiques portant sur des tâches d’indexation automatique ont vu le jour ces dernières années. Cet
article rend compte de notre participation à l’une d’entre elles, soit l’édition 2016 du Défi fouille de textes (DEFT-2016).
Dans un premier temps, nous présentons un état de la situation concernant l’importance, mais aussi les enjeux et les
défis de l’indexation automatique. Après avoir présenté les grandes lignes de la campagne d’évaluation DEFT-2016,
nous introduisons l’approche que nous avons développée. Celle-ci repose sur la construction d’un espace sémantique de
mots-clés. L’évaluation des performances de notre approche et l’analyse des résultats suggèrent que notre méthode est
particulièrement adaptée à des tâches d’indexation automatique qui nécessitent une part importante d’assignation de
mots-clés contrôlés qui sont absents du contenu textuel des documents.




With the extremely rapid growth of the amount of digital documents in our societies, automatic keyword
indexing has become a central research issue in information retrieval and document management. Several scientific
competitions dealing with automatic indexing tasks have emerged in recent years. This article reports our participation in
one of them, the 2016 edition of Défi Fouille de Texte (DEFT-2016). First, we present a state of the art regarding the
importance, the issues and the challenges of automatic keyword indexing. After presenting the context and the task of the
DEFT-2016, we introduce the method we have developed. This method is based on the construction of a keyword
semantic vector space. The evaluation of our method and the analysis of the results suggest that our approach is
particularly adapted to automatic keyword indexing tasks which require a large proportion of controlled keyword
assignment that are absent from the text content of the documents.

extraction de mots-clés assignation de mots-clés indexation automatique Algorithme non-supervisé Algorithme supervisé Espace sémantique Défi fouille de textes DEFT

Automatic Keyword Indexing Keyword Assignment Keyword Extraction Supervised Machine Learning Unsupervised Machine Learning Semantic Vector Space Défi Fouille de Textes DEFT