Voici comment des chercheurs français ont réussi à retranscrire 32 000 manuscrits médiévaux grâce à l'IA

SOURCE | 4 days ago

✨ Enhance your Social Media content with NViNiO•AI™ for FREE

La numérisation des archives médiévales a beau avoir progressé ces dernières décennies, la retranscription restait un goulot d'étranglement considérable : des milliers de textes numérisés, mais illisibles pour les machines et quasi inaccessibles pour les chercheurs faute de temps.

C'est ce verrou que des chercheurs de l'Institut national de recherche en sciences et technologies du numérique (Inria) ont fait sauter, en déployant une IA capable de lire des écritures anciennes à une vitesse sans précédent. Cet exploit a eu lieu il y a plusieurs mois, mais si vous êtes passé à côté, il mérite vraiment qu'on s'y attarde.

Un corpus de 3 milliards de mots né d'une IA entraînée sur mesure

Thibault Clérice, chercheur en humanités computationnelles au sein de l'équipe ALMAnaCH du Centre Inria de Paris, pilote le projet CoMMa (Corpus of Multilingual Medieval Archives). Le résultat : un corpus unique au monde de plus de 3 milliards de mots, issu de manuscrits principalement en latin (du IXe au XVIe siècle) et en ancien français (XIIe au XVIe siècle). Pour l'ancien français seul, ce corpus est désormais quarante fois plus volumineux qu'avant le projet.

Illustration du papyrus décrypté par une IA. © XD pour Futura avec DALL-E

Ces papyrus qui n’ont jamais pu être ouverts ont été déchiffrés pour la première fois !

Dans le cadre d’un challenge, pour la première fois, trois étudiants sont parvenus à déchiffrer grâce à une IA le texte d’un rouleau de papyrus calciné par l’éruption du Vésuve à Herculanum il y a près de 2 000 ans.... Lire la suite

Mais pourquoi ne pas avoir simplement utilisé ChatGPT ou Mistral ? Ces modèles grand public sont inadaptés. Le français médiéval n'a pas d'orthographe fixe : deux copies du même texte, réalisées par des scribes variés, peuvent présenter jusqu'à 50 % de mots écrits différemment.

Après deux années à concevoir un modèle et à entraîner une IA, des chercheurs français ont retranscrit et traduit 32 000 manuscrits, en ancien français et en latin, s'étalant du VIIIᵉ au XVIᵉ siècle. La machine a bouclé le tout en quatre mois ! © dmitriymoroz, iStock

En latin, entre 35 et 40 % des mots sont abrégés au XIVe siècle. Dans un traité de médecine, occasionnellement seulement la moitié des lettres d'un mot sont présentes. Les grands modèles de langage, fondés sur la prédiction statistique, inventent là où ils ne savent pas : c'est le problème des « hallucinations ».

La nouvelle IA de Google permet de restaurer les inscriptions latines endommagées. © Google et XD avec ChatGPT

Comment une IA de Google réussit à reconstituer des textes romains disparus depuis des siècles

Aeneas, la nouvelle intelligence artificielle de Google, est capable d’estimer la date et le lieu d’écriture des textes anciens en latin endommagés. Elle est ensuite capable de prédire les caractères manquants.... Lire la suite

L'équipe a donc opté pour une approche radicalement différente, fondée sur la reconnaissance graphique caractère par caractère, via les outils open source Kraken et eScriptorium. Un accent compte comme un signe distinct. Cette méthode privilégie l'erreur de reconnaissance (confondre « ri » avec « n ») plutôt que l'invention pure, bien plus dommageable pour la recherche historique.

CATMuS, le socle indispensable : des années de travail manuel pour libérer l'IA

Avant de lancer CoMMa, il a fallu construire le projet CATMuS (Consistent Approaches to Transcribing Manuscripts), démarré en 2022. Concrètement, des chercheurs et des philologues ont retranscrit manuellement :

200 000 lignes de texte ;issues de 300 manuscrits différents ;en 11 langues distinctes ;sur une période allant du IXe au XVIe siècle.

La règle d'or ? Ne rien corriger. Ni les abréviations, ni les fautes de copiste, ni les inversions de lettres. L'objectif était de coller au plus près de la réalité brute des documents. Ce corpus d'entraînement a ensuite permis de calibrer l'algorithme pour l'appliquer à grande échelle sur les fonds numérisés de Gallica, de la bibliothèque Bodléienne d'Oxford, de la Bibliothèque de l'État de Bavière à Munich, ou encore de la plateforme suisse E-Codices.

L'une des nombreuses tablettes d'argile gravées de caractères cunéiformes, désormais déchiffrés par l'IA. © Maike Glöckner, Uni Halle

Des écrits cunéiformes décryptés en un clin d'œil par une intelligence artificielle

En Allemagne, les efforts combinés de plusieurs équipes de scientifiques ont permis de déchiffrer des tablettes cunéiformes datant des premiers siècles de l'Antiquité. Les universitaires ont eu recours à une technique inédite : la modélisation des écrits en 3D et la lecture par une intelligence artificielle, facilitant ainsi le travail de décryptage.... Lire la suite

Les transcriptions produites sont brutes, sans correction a posteriori. Le taux d'erreur moyen, mesuré sur 670 manuscrits, s'établit à 9,7 %. Les métadonnées de chaque document indiquent le pourcentage de lignes correctement reconnues, souvent supérieur à 80 %. Seuls les manuscrits tardifs à écriture cursive, sous-représentés dans les données d'entraînement, obtiennent des scores plus faibles.

L'ensemble du corpus CoMMa est librement téléchargeable en ligne : pour tout chercheur ou passionné d'histoire médiévale, c'est une mine d'accès direct à des textes qui dormaient depuis des siècles dans des bibliothèques inaccessibles.

✨ Enhance your brand's digital communication with NViNiO•Link™ : Get started for FREE here

Read Entire Article

Voici comment des chercheurs français ont réussi à retranscrire 32 000 manuscrits médiévaux grâce à l'IA

Un corpus de 3 milliards de mots né d'une IA entraînée sur mesure

CATMuS, le socle indispensable : des années de travail manuel pour libérer l'IA

Related

20 pattes, 20 yeux : ce robot donne l’impression de venir d’un autre monde

Voici pourquoi ChatGPT et les autres IA sont encore très loin du cerveau humain

NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark

Votre vie privée à portée de clic ? Une enquête révèle numéro de Sécu, IBAN, rendez-vous médicaux… par simple recherche !

Trending

Popular

TOGO | Grandes ambitions énergétiques

États-Unis : Donald Trump remporte l’élection présidentielle par KO

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

Au Kenya, des femmes transforment les voitures à essence en véhicules électriques