exit

Information et communication   > Accueil   > Revue ouverte d’ingénierie des systèmes d’information   > Numéro Spécial   > Article

Étude de l’influence des représentations textuelles sur la détection d’évènements dans des flux de données

A study of the influence of textual representation on event detection in data streams


Elliot MAÎTRE
IRIT
France

Max CHEVALIER
IRIT
France

Bernard DOUSSET
IRIT
France

Jean-Philippe GITTO
Scalian
France

Olivier TESTE
IRIT
France



Publié le 10 avril 2024   DOI : 10.21494/ISTE.OP.2024.1139

Résumé

Abstract

Mots-clés

Keywords

La détection d’évènements à partir des données postées sur internet est un sujet important de la recherche d’information. Les sources de données potentiellement intéressantes sont multiples et peuvent prendre la forme de flux de données textuelles plus ou moins structurées. Nous étudions dans cet article la détection d’évènements dans les flux de données textuelles et plus particulièrement l’impact de la représentation du texte sur la qualité des évènements détectés. Nous comparons différentes approches de traitement du langage dans deux contextes : supervisé et non supervisé. Nous étudions la question de l’efficacité des modèles basés sur les architectures Transformer pour la détection d’évènements dans les documents courts. Cette étude nous permet de conclure que, contrairement à ce qui avait pu être précédemment montré, les architectures Transformer peuvent être compétitives par rapport aux méthodes classiques.

Detection of real-world events using online data sources is a trending topic in the information retrieval domain. Multiple data sources are potentially of interest and some of them are data streams. There are multiple data sources that are potentially interesting, and some of them are textual data streams, structured or unstructured. We propose to analyse the problem of event detection from text data stream and to focus particularly on the importance of the representation of the textual data. To do so, we compare multiple approaches in different contexts: supervised and unsupervised. We focus on the performances of Transformer-based architectures for event detection on short text documents, and we conclude that, contrary to previous studies, these architectures can be competitive compared to classical methods.

Recherche d’Information Détection d’évènements Traitement automatique du langage naturel Partitionnement de données

Information Retrieval Event Detection Natural Language Processing Clustering