Titre : RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle Auteurs : Josiane Mothe, Xavier Baril, Oihana Coustié, Olivier Teste, Revue : Revue ouverte d’ingénierie des systèmes d’information Numéro : Numéro 1 Volume : 2 Date : 2021/01/19 DOI : 10.21494/ISTE.OP.2021.0605 ISSN : 2634-1468 Résumé : La racinisation est un pré-traitement essentiel dans de nombreuses tâches de fouille de texte. Les algorithmes les plus utilisés sont basés sur l’application successive de règles spécifiques à la langue. Cette construction les rend fortement dépendants de la langue d’application. Par opposition, les raciniseurs basés sur des corpus présentent souvent une importante complexité algorithmique, les rendant peu efficaces. Ils ne mettent pas non plus nécessairement à disposition les racines extraites, pourtant requises pour certaines tâches de traitement de texte. Nous proposons ici une nouvelle approche, appelée RFreeStem, qui se base sur l’étude d’un corpus et peut être appliquée à différentes langues. L’implémentation de notre méthode est flexible et efficace, car basée sur un unique parcours des n-grammes. Nous détaillons également une méthode d’extraction des racines. Nos expériences montrent que RFreeStem améliore les résultats des tâches de traitement de texte, plus encore que la référence de l’état de l’art, Porter, tout en proposant une racinisation sur des langues peu dotées, où aucune version de Porter n’est implémentée. Éditeur : ISTE OpenScience