exit

Information et communication   > Accueil   > Recherche d’information, document et web sémantique   > Numéro 1   > Article

Correction des données : retour d’expérience sur la plate-forme RECITAL de transcription participative

Data correction for transcription in crowdsourcing. A feedback from RECITAL platform.


Benjamin HERVY
LS2N - Polytech Nantes

Pierre PÉTILLON
Polytech Nantes School of Engineering

Hugo PIGEON
Polytech Nantes School of Engineering

Guillaume RASCHIA
LS2N - Polytech Nantes



Publié le 18 mars 2019   DOI : 10.21494/ISTE.OP.2019.0348

Résumé

Abstract

Mots-clés

Keywords

Les sciences participatives trouvent une place de choix dans les projets d’humanités numériques. En effet, le recours à la foule, notamment dans le cas de la transcription de documents anciens, permet de pallier en partie les contraintes des techniques de reconnaissance automatique d’écriture. Cette approche apporte également des outils complémentaires à la validation de l’expert pour des tâches fastidieuses comme la classification ou l’extraction d’information à partir d’un texte. Cependant, ce type d’approche génère des problématiques inhérentes à la méthodologie employée et à la nature du corpus. Dans cet article, nous proposons des pistes d’évaluation et de résolution du problème de la qualité des données et de leur correction. Pour cela, nous nous appuyons sur le projet CIRESFI et la plateforme RECITAL de transcription des registres comptables de la Comédie Italienne.

Crowdsourcing have been widely deployed to cover some challenges in digital humanities, like in the transcription of old handwritten documents. Such approach is especially useful to tackle existing limits in automatic handwriting recognition techniques. Crowdsourcing allows workers to help experts in extraction and classification of information, when the workload is daunting. Yet, it yields some specific challenges related to the quality of produced data. In this paper, we discuss data quality in a research project called CIRESFI which aims at transcribing Italian Comedy financial archives through the RECITAL web platform.We finally propose some leads to tackle these issues.

Sciences participatives Humanités numériques Manuscrits anciens Transcription Qualité des données Comédie Italienne

Citizen sciences Digital Humanities Old handwritten documents Transcription Data quality Italian Comedy