La numérisation des archives médiévales a beau avoir progressé ces dernières décennies, la retranscription restait un goulot d'étranglement considérable : des milliers de textes numérisés, mais illisibles pour les machines et quasi inaccessibles pour les chercheurs faute de temps.
C'est ce verrou que des chercheurs de l'Institut national de recherche en sciences et technologies du numérique (Inria) ont fait sauter, en déployant une IA capable de lire des écritures anciennes à une vitesse sans précédent. Cet exploit a eu lieu il y a plusieurs mois, mais si vous êtes passé à côté, il mérite vraiment qu'on s'y attarde.
Un corpus de 3 milliards de mots né d'une IA entraînée sur mesure
Thibault Clérice, chercheur en humanités computationnelles au sein de l'équipe ALMAnaCH du Centre Inria de Paris, pilote le projet CoMMa (Corpus of Multilingual Medieval Archives). Le résultat : un corpus unique au monde de plus de 3 milliards de mots, issu de manuscrits principalement en latin (du IXe au XVIe siècle) et en ancien français (XIIe au XVIe siècle). Pour l'ancien français seul, ce corpus est désormais quarante fois plus volumineux qu'avant le projet.
Ces papyrus qui n’ont jamais pu être ouverts ont été déchiffrés pour la première fois !
Dans le cadre d’un challenge, pour la première fois, trois étudiants sont parvenus à déchiffrer grâce à une IA le texte d’un rouleau de papyrus calciné par l’éruption du Vésuve à Herculanum il y a près de 2 000 ans.... Lire la suite
Mais pourquoi ne pas avoir simplement utilisé ChatGPT ou Mistral ? Ces modèles grand public sont inadaptés. Le français médiéval n'a pas d'orthographe fixe : deux copies du même texte, réalisées par des scribes variés, peuvent présenter jusqu'à 50 % de mots écrits différemment.
Après deux années à concevoir un modèle et à entraîner une IA, des chercheurs français ont retranscrit et traduit 32 000 manuscrits, en ancien français et en latin, s'étalant du VIIIᵉ au XVIᵉ siècle. La machine a bouclé le tout en quatre mois ! © dmitriymoroz, iStock
En latin, entre 35 et 40 % des mots sont abrégés au XIVe siècle. Dans un traité de médecine, occasionnellement seulement la moitié des lettres d'un mot sont présentes. Les grands modèles de langage, fondés sur la prédiction statistique, inventent là où ils ne savent pas : c'est le problème des « hallucinations ».
Comment une IA de Google réussit à reconstituer des textes romains disparus depuis des siècles
Aeneas, la nouvelle intelligence artificielle de Google, est capable d’estimer la date et le lieu d’écriture des textes anciens en latin endommagés. Elle est ensuite capable de prédire les caractères manquants.... Lire la suite
L'équipe a donc opté pour une approche radicalement différente, fondée sur la reconnaissance graphique caractère par caractère, via les outils open source Kraken et eScriptorium. Un accent compte comme un signe distinct. Cette méthode privilégie l'erreur de reconnaissance (confondre « ri » avec « n ») plutôt que l'invention pure, bien plus dommageable pour la recherche historique.
CATMuS, le socle indispensable : des années de travail manuel pour libérer l'IA
Avant de lancer CoMMa, il a fallu construire le projet CATMuS (Consistent Approaches to Transcribing Manuscripts), démarré en 2022. Concrètement, des chercheurs et des philologues ont retranscrit manuellement :
200 000 lignes de texte ;issues de 300 manuscrits différents ;en 11 langues distinctes ;sur une période allant du IXe au XVIe siècle.La règle d'or ? Ne rien corriger. Ni les abréviations, ni les fautes de copiste, ni les inversions de lettres. L'objectif était de coller au plus près de la réalité brute des documents. Ce corpus d'entraînement a ensuite permis de calibrer l'algorithme pour l'appliquer à grande échelle sur les fonds numérisés de Gallica, de la bibliothèque Bodléienne d'Oxford, de la Bibliothèque de l'État de Bavière à Munich, ou encore de la plateforme suisse E-Codices.
Des écrits cunéiformes décryptés en un clin d'œil par une intelligence artificielle
En Allemagne, les efforts combinés de plusieurs équipes de scientifiques ont permis de déchiffrer des tablettes cunéiformes datant des premiers siècles de l'Antiquité. Les universitaires ont eu recours à une technique inédite : la modélisation des écrits en 3D et la lecture par une intelligence artificielle, facilitant ainsi le travail de décryptage.... Lire la suite
Les transcriptions produites sont brutes, sans correction a posteriori. Le taux d'erreur moyen, mesuré sur 670 manuscrits, s'établit à 9,7 %. Les métadonnées de chaque document indiquent le pourcentage de lignes correctement reconnues, souvent supérieur à 80 %. Seuls les manuscrits tardifs à écriture cursive, sous-représentés dans les données d'entraînement, obtiennent des scores plus faibles.
L'ensemble du corpus CoMMa est librement téléchargeable en ligne : pour tout chercheur ou passionné d'histoire médiévale, c'est une mine d'accès direct à des textes qui dormaient depuis des siècles dans des bibliothèques inaccessibles.
.png)
4 days ago
English (United States) ·
French (France) ·