Information et communication > Accueil > Recherche d’information, document et web sémantique > Numéro 1 > Article
Benjamin HERVY
LS2N - Polytech Nantes
Pierre PÉTILLON
Polytech Nantes School of Engineering
Hugo PIGEON
Polytech Nantes School of Engineering
Guillaume RASCHIA
LS2N - Polytech Nantes
Publié le 18 mars 2019 DOI : 10.21494/ISTE.OP.2019.0348
Les sciences participatives trouvent une place de choix dans les projets d’humanités numériques. En effet, le recours à la foule, notamment dans le cas de la transcription de documents anciens, permet de pallier en partie les contraintes des techniques de reconnaissance automatique d’écriture. Cette approche apporte également des outils complémentaires à la validation de l’expert
pour des tâches fastidieuses comme la classification ou l’extraction d’information à partir d’un texte. Cependant, ce type d’approche génère des problématiques inhérentes à la méthodologie employée et à la nature du corpus. Dans cet article, nous proposons des pistes d’évaluation et de résolution du problème de la qualité des données et de leur correction. Pour cela, nous nous appuyons sur le projet CIRESFI et la plateforme RECITAL de transcription des registres comptables de la Comédie Italienne.
Crowdsourcing have been widely deployed to cover some challenges in digital humanities, like in the transcription of old handwritten documents. Such approach is especially useful to tackle existing limits in automatic handwriting recognition techniques. Crowdsourcing allows workers to help experts in extraction and classification of information, when the workload is daunting. Yet, it yields
some specific challenges related to the quality of produced data. In this paper, we discuss data quality in a research project called CIRESFI which aims at transcribing Italian Comedy financial archives through the RECITAL web platform.We finally propose some leads to tackle these issues.
Sciences participatives Humanités numériques Manuscrits anciens Transcription Qualité des données Comédie Italienne
Citizen sciences Digital Humanities Old handwritten documents Transcription Data quality Italian Comedy