TY - Type of reference TI - RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle AU - Josiane Mothe AU - Xavier Baril AU - Oihana Coustié AU - Olivier Teste AB - La racinisation est un pré-traitement essentiel dans de nombreuses tâches de fouille de texte. Les algorithmes les plus utilisés sont basés sur l’application successive de règles spécifiques à la langue. Cette construction les rend fortement dépendants de la langue d’application. Par opposition, les raciniseurs basés sur des corpus présentent souvent une importante complexité algorithmique, les rendant peu efficaces. Ils ne mettent pas non plus nécessairement à disposition les racines extraites, pourtant requises pour certaines tâches de traitement de texte. Nous proposons ici une nouvelle approche, appelée RFreeStem, qui se base sur l’étude d’un corpus et peut être appliquée à différentes langues. L’implémentation de notre méthode est flexible et efficace, car basée sur un unique parcours des n-grammes. Nous détaillons également une méthode d’extraction des racines. Nos expériences montrent que RFreeStem améliore les résultats des tâches de traitement de texte, plus encore que la référence de l’état de l’art, Porter, tout en proposant une racinisation sur des langues peu dotées, où aucune version de Porter n’est implémentée. DO - 10.21494/ISTE.OP.2021.0605 JF - Revue ouverte d’ingénierie des systèmes d’information KW - Système d’information, fouille de texte, recherche d’information, analyse de sentiments, racinisation, information systems, Text Mining, information retrieval, Sentiment Analysis, stemmer, NLP, L1 - https://openscience.fr/IMG/pdf/iste_roisi21v2n1_4.pdf LA - fr PB - ISTE OpenScience DA - 2021/01/19 SN - 2634-1468 TT - RFreeStem: A language and rule-free stemmer UR - https://openscience.fr/RFreeStem-Une-methode-de-racinisation-independante-de-la-langue-et-sans-regle IS - Numéro 1 VL - 2 ER -