Publication de nouvelles données en langue arabe

Des données rendues open source

La Médiathèque de la MMSH est partenaire de ce  projet.

Transcription automatique du roman d’Alexandre en moyen-arabe pour la MMSH et l’ANR LiPoL, en partenariat avec DISTAM et le GIS MOMM.Le jeu de données produit par les équipes de LiPoL, dans le cadre du hackathon Alexandre  supervisé, par la société CALFA est désormais en ligne.

Au total, 291 pages de cinq manuscrits ont été annotées et transcrites afin de surmonter efficacement ces documents variés en moyen-arabe. Ces données (environ 5000 lignes de textes) s’ajoutent aux données produites dans RASAM et Tarima produites par Calfa et DISTAM ces dernières années.

Toutes rendues open source, elles sont la référence pour la création de modèles HTR polyvalents pour les graphies arabes.

 

La société Calfa

développe des technologies de détection de texte et d’analyse automatique de documents manuscrits pour les langues orientales. Son équipe est composée de doctorants et ingénieurs en intelligence artificielle, spécialistes de l’apprentissage profond (Deep Learning).

 

En savoir plus sur le partenariat 

Claire Cialone-Grégoire ingénieure d’études en humanités numérique de l’ANR Lipol

claire.cialone-gregoire[at]cnrs.fr

 

Illustration : Extrait du manuscrit Ms orient A 2385 de la Forschungsbibliothek Gotha de l’université d’Erfurt, CC BY-SA 4.0 [en ligne] https://dhb.thulb.uni-jena.de/rsc/viewer/ufb_derivate_00005081/Ms-orient-A-02385_004.tif 

Partager

Contact

Cialone-Grégoire Claire