exit

Information et communication   > Accueil   > Recherche d’information, document et web sémantique   > Numéro 1   > Article

Représentation vectorielle de documents pour l’indexation de notices bibliographiques

Document vector embeddings for bibliographic records indexing


Morgane Marchand
eXenSa

Geoffroy Fouquier
eXenSa

Emmanuel Marchand
eXenSa

Guillaume Pitel
eXenSa



Publié le 9 janvier 2018   DOI : 10.21494/ISTE.OP.2018.0208

Résumé

Abstract

Mots-clés

Keywords

Cet article présente la contribution d’eXenSa à l’édition 2016 du DÉfi Fouille de Textes (DEFT) dont la tâche consiste
à indexer des documents scientifiques par des mots-clefs, préalablement sélectionnés par des professionnels. Le système proposé est
purement statistique et combine une approche graphique et une approche sémantique. La première approche cherche dans le titre et
le résumé du document des mots graphiquement proches des mots-clefs du thésaurus. La seconde approche attribue à un nouveau
document des mots-clefs associés aux documents du corpus d’entraînement qui lui sont sémantiquement proches. Les deux approches
utilisent des représentations vectorielles apprises en utilisant l’algorithme NC-ISC, un algorithme stochastique de factorisation de matrices.
Notre approche a été classée première en terme de F-mesure sur deux des corpus de spécialité proposés et deuxième sur les deux
autres.

This article presents the eXenSa contribution to the 2016 DEFT shared task. The proposed task consists in indexing
bibliographic records with keywords chosen by professional indexers. We propose a statistical approach which combines graphical and
semantic approaches. The first approach defines a document keywords as thesaurus terms graphically similar to terms contained in
the title or the abstract of this document. The second approach assigns to document the keywords associated with semantically similar
documents in training corpora. Both approaches use vector space models generated using NC-ISC, a stochastic matrix factorisation
algorithm. Our system obtains the best F-score on half of the four test corpora and ranks second for the two others.

Indexation mots-clefs espaces sémantiques représentation vectorielle de mots

Indexation keywords semantic spaces word vector embedding