La quête de l'IA de la Hongrie pour préserver son patrimoine linguistique

La quête de l’IA de la Hongrie pour préserver son patrimoine linguistique

Lors de la Conférence mondiale sur l'intelligence artificielle à Shanghai sur le continent chinois, le linguiste hongrois Tamás Váradi, PhD, dévoile les défis et les réussites de l'entraînement de l'IA sur une langue "insulaire". Avec seulement 10 millions de locuteurs et aucun lien avec la famille indo-européenne, le hongrois se distingue comme un bateau isolé sur une vaste mer de langues majeures.

Au début des années 2020, l'équipe de Váradi s'est tournée vers l'apprentissage profond par réseau neuronal et a constitué le plus grand corpus nettoyé et dédupliqué pour le hongrois, totalisant 32 milliards de mots. Ils ont même lancé leurs premiers modèles natifs deux semaines avant le grand lancement de ChatGPT, alors que GPT-3 incluait à peine 128 millions de mots hongrois.

Le dilemme des modèles multilingues

Puis est venue l'ère des méga-modèles : des géants comme Meta et des modèles du continent chinois utilisent tellement de données qu'une part de seulement 0,006 % équivaut à 40 milliards de mots hongrois. "Le rythme est incroyablement élevé," admet Váradi, notant que les entreprises mondiales exploitent d'énormes pools de données tandis que son équipe élabore chaque modèle sur des mois avec beaucoup moins de ressources.

Confiance axée sur la culture

Malgré tout, Váradi reste confiant : les modèles globaux ne peuvent tout simplement pas égaler le niveau de précision axé sur les particularités du hongrois. Son arme secrète ? Un mélange soigneusement sélectionné de textes web, d'archives de bibliothèques et de dépôts académiques, donnant à la Hongrie un contrôle total sur la manière dont sa langue et sa culture brillent.

"Sauver la diversité linguistique commence chez soi," dit-il. Pour la Hongrie, chaque mot entraîné est un pas vers la préservation de son héritage culturel.

Leave a Reply

Your email address will not be published. Required fields are marked *

Back To Top