exit

Information et communication   > Accueil   > Revue ouverte d’ingénierie des systèmes d’information   > Numéro 1   > Article

RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle

RFreeStem: A language and rule-free stemmer


Xavier Baril
Airbus SAS Operations

Oihana Coustié
IRIT UMR5505 CNRS

Josiane Mothe
Université de Toulouse

Olivier Teste
Université de Toulouse



Publié le 19 janvier 2021   DOI : 10.21494/ISTE.OP.2021.0605

Résumé

Abstract

Mots-clés

Keywords

La racinisation est un pré-traitement essentiel dans de nombreuses tâches de fouille de texte. Les algorithmes les plus utilisés sont basés sur l’application successive de règles spécifiques à la langue. Cette construction les rend fortement dépendants de la langue d’application. Par opposition, les raciniseurs basés sur des corpus présentent souvent une importante complexité algorithmique, les rendant peu efficaces. Ils ne mettent pas non plus nécessairement à disposition les racines extraites, pourtant requises pour certaines tâches de traitement de texte. Nous proposons ici une nouvelle approche, appelée RFreeStem, qui se base sur l’étude d’un corpus et peut être appliquée à différentes langues. L’implémentation de notre méthode est flexible et efficace, car basée sur un unique parcours des n-grammes. Nous détaillons également une méthode d’extraction des racines. Nos expériences montrent que RFreeStem améliore les résultats des tâches de traitement de texte, plus encore que la référence de l’état de l’art, Porter, tout en proposant une racinisation sur des langues peu dotées, où aucune version de Porter n’est implémentée.

With the large expansion of available textual data, text mining has become of special interest. Due to their unstructured nature, such data require important preprocessing steps. Among them, stemming algorithms conflate the variants of words into their stems. However, the most popular algorithms are rule-based, and therefore highly languagedependent. In contrast, corpus-based stemmers often exhibit significant algorithmic complexity, making them inefficient. They do not necessarily provide the extracted stems either, which are required for certain text mining tasks. We propose a new approach, RFreeStem, that is corpus-based and can therefore be applied on many languages. The implementation of our method is flexible and efficient, since it relies on a single running through the words’ n-grams. We also detail a method to extract the stems. Our experiments show that RFreeStem improves the results of text mining tasks, even more than the Porter reference, while providing a stemming solution on poorly endowed languages, which do not benefit from a version of Porter.

Système d’information fouille de texte recherche d’information analyse de sentiments racinisation

information systems Text Mining information retrieval Sentiment Analysis stemmer NLP