Information and Communication > Home > Information Retrieval, Document and Semantic Web > Issue 1 > Article
Jean-François Chartier
Université de Montréal
Canada
Dominic Forest
Université de Montréal
Canada
Published on 26 January 2018 DOI : 10.21494/ISTE.OP.2018.0206
With the extremely rapid growth of the amount of digital documents in our societies, automatic keyword
indexing has become a central research issue in information retrieval and document management. Several scientific
competitions dealing with automatic indexing tasks have emerged in recent years. This article reports our participation in
one of them, the 2016 edition of Défi Fouille de Texte (DEFT-2016). First, we present a state of the art regarding the
importance, the issues and the challenges of automatic keyword indexing. After presenting the context and the task of the
DEFT-2016, we introduce the method we have developed. This method is based on the construction of a keyword
semantic vector space. The evaluation of our method and the analysis of the results suggest that our approach is
particularly adapted to automatic keyword indexing tasks which require a large proportion of controlled keyword
assignment that are absent from the text content of the documents.
Avec la croissance extrêmement rapide de la quantité de documents numériques dans nos sociétés,
l’automatisation de l’indexation est devenue un enjeu de recherche central pour la gestion documentaire. Plusieurs
compétitions scientifiques portant sur des tâches d’indexation automatique ont vu le jour ces dernières années. Cet
article rend compte de notre participation à l’une d’entre elles, soit l’édition 2016 du Défi fouille de textes (DEFT-2016).
Dans un premier temps, nous présentons un état de la situation concernant l’importance, mais aussi les enjeux et les
défis de l’indexation automatique. Après avoir présenté les grandes lignes de la campagne d’évaluation DEFT-2016,
nous introduisons l’approche que nous avons développée. Celle-ci repose sur la construction d’un espace sémantique de
mots-clés. L’évaluation des performances de notre approche et l’analyse des résultats suggèrent que notre méthode est
particulièrement adaptée à des tâches d’indexation automatique qui nécessitent une part importante d’assignation de
mots-clés contrôlés qui sont absents du contenu textuel des documents.
Automatic Keyword Indexing Keyword Assignment Keyword Extraction Supervised Machine Learning Unsupervised Machine Learning Semantic Vector Space Défi Fouille de Textes DEFT
extraction de mots-clés assignation de mots-clés indexation automatique Algorithme non-supervisé Algorithme supervisé Espace sémantique Défi fouille de textes DEFT