exit

Information and Communication   > Home   > Information Retrieval, Document and Semantic Web   > Issue 1   > Article

Harness the hetorogeneity in textual data

Exploitation de l’hétérogénéité dans les données textuelles


Jacques Fize
CIRAD et AgroParisTech

Mathieu Roche
CIRAD et AgroParisTech

Maguelonne Teisseire
AgroParisTech et IRSTEA



Published on 19 February 2019   DOI : 10.21494/ISTE.OP.2019.0334

Abstract

Résumé

Keywords

Mots-clés

Over the last decades, there has been an increasing use of information systems, resulting in an exponential increase in textual data. Although the volumetric dimension of these textual data has been resolved, its heterogeneous dimension remains a challenge for the scientific community. The management of the heterogeneity in data offers many opportunities through an access to a richer information. In our work, we design a process for mapping heterogeneous textual data, based on their spatiality. In this article, we present the results returned by this process on data produced in Madagascar as part of the BVLAC project, led by CIRAD. Based on a set of 4 quality criteria, we obtain good spatial correspondence between these documents.

Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles. Bien que l’aspect volumétrique de ces données textuelles soit résolu, sa dimension hétérogène reste un défi pour la communauté scientifique. La maitrise de ces données hétérogènes offre de nombreuses opportunités par un accès à une information plus riche. Dans nos travaux, nous concevons un processus de mise en correspondance de données textuelles hétérogènes, basé sur leur spatialité. Dans cet article, nous présentons les résultats retournés par ce processus sur des données produites à Madagascar dans le cadre du projet BVLAC, dirigé par le CIRAD. En se basant sur un ensemble de 4 critères de qualité, nous obtenons de bonnes correspondances spatiales entre ces documents.

text-mining spatial similarity spatial representation

Fouille de texte similarité spatiale représentation spatiale