La place de la langue française dans le web et dans les bases de données utilisées pour l'entraînement des IA
La place du français sur le web et dans les bases de données
Le français est la cinquième langue la plus parlée dans le monde et la sixième sur Internet ( représentant 3,3 % des internautes et 2,5 % des sites web, il est également présent dans environ 4,1 % des pages de Wikipédia), mais il est moins représenté que l'anglais dans les bases de données utilisées pour entraîner les intelligences artificielles génératives. La part des langues comme l’allemand, le russe, le chinois, l’espagnol et le français est inférieure à 6 % dans Common Crawl, une base de données utilisée pour l’entraînement des IA génératives.
Les enjeux de la diversité linguistique et culturelle
Ce constat met en lumière l’importance d’assurer une représentation linguistique et culturelle riche et variée, surtout avec l’augmentation de l’utilisation des agents conversationnels basés sur des modèles de langages. La faible représentation du français et d'autres langues dans les données d'entraînement peut conduire à des biais et à des distorsions dans les services d'intelligence artificielle, qui peuvent affecter l'accès à l'information et la valorisation du patrimoine culturel.
Les initiatives pour promouvoir le français et les autres langues
La France a réagi en consolidant les bases de données du CNRS, de la BNF et de l’INA pour les valoriser auprès des entreprises entraînant des modèles de langue. L’ALT-EDIC, un consortium européen coordonné par la France, vise à promouvoir la diversité linguistique. Des initiatives comme Common Corpus et CroissantLLM montrent qu’une représentation linguistique plus diversifiée est possible dans les données d’entraînement.
Les perspectives et les défis des technologies de langage
Les technologies de langage associées à l'intelligence artificielle offrent des possibilités de traduction simultanée, de synthèse vocale et de génération de texte, mais elles posent aussi des risques de manipulation, de falsification et de perte d'authenticité de l'expression orale.
Source : https://cnnumerique.fr/lettre-dinformation/cocorico-en-louchebem-ca-donne-quoi