Information and Communication > Home > Open Journal in Information Systems Engineering > Issue 1 > Article

RFreeStem: A language and rule-free stemmer

RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle

Previous article
Next article

PDF Citation

Xavier Baril
Airbus SAS Operations

Oihana Coustié
IRIT UMR5505 CNRS

Josiane Mothe
Université de Toulouse

Olivier Teste
Université de Toulouse

Published on 19 January 2021 DOI : 10.21494/ISTE.OP.2021.0605

Abstract

Résumé

Keywords

Mots-clés

With the large expansion of available textual data, text mining has become of special interest. Due to their unstructured nature, such data require important preprocessing steps. Among them, stemming algorithms conflate the variants of words into their stems. However, the most popular algorithms are rule-based, and therefore highly languagedependent. In contrast, corpus-based stemmers often exhibit significant algorithmic complexity, making them inefficient. They do not necessarily provide the extracted stems either, which are required for certain text mining tasks. We propose a new approach, RFreeStem, that is corpus-based and can therefore be applied on many languages. The implementation of our method is flexible and efficient, since it relies on a single running through the words’ n-grams. We also detail a method to extract the stems. Our experiments show that RFreeStem improves the results of text mining tasks, even more than the Porter reference, while providing a stemming solution on poorly endowed languages, which do not benefit from a version of Porter.

La racinisation est un pré-traitement essentiel dans de nombreuses tâches de fouille de texte. Les algorithmes les plus utilisés sont basés sur l’application successive de règles spécifiques à la langue. Cette construction les rend fortement dépendants de la langue d’application. Par opposition, les raciniseurs basés sur des corpus présentent souvent une importante complexité algorithmique, les rendant peu efficaces. Ils ne mettent pas non plus nécessairement à disposition les racines extraites, pourtant requises pour certaines tâches de traitement de texte. Nous proposons ici une nouvelle approche, appelée RFreeStem, qui se base sur l’étude d’un corpus et peut être appliquée à différentes langues. L’implémentation de notre méthode est flexible et efficace, car basée sur un unique parcours des n-grammes. Nous détaillons également une méthode d’extraction des racines. Nos expériences montrent que RFreeStem améliore les résultats des tâches de traitement de texte, plus encore que la référence de l’état de l’art, Porter, tout en proposant une racinisation sur des langues peu dotées, où aucune version de Porter n’est implémentée.

information systems Text Mining information retrieval Sentiment Analysis stemmer NLP

Système d’information fouille de texte recherche d’information analyse de sentiments racinisation

Previous article Next article

Information and Communication > Home > Open Journal in Information Systems Engineering > Issue 1 > Article