À peine quatre jours après sa publication, le jeu de données Nemotron-Personas-Vietnam, développé conjointement par le groupe FPT et NVIDIA, a intégré le Top 15 des jeux de données les plus tendance sur Hugging Face, la principale plateforme mondiale de partage de modèles et de données d’intelligence artificielle open source.
Un jeu de données de « portraits des Vietnamiens » au service du développement de l’IA
Sur Hugging Face, le classement des ressources les plus populaires reflète l’intérêt suscité auprès de la communauté, mesuré notamment à travers le nombre de téléchargements, les mentions « J’aime » et les interactions.
L’entrée de Nemotron-Personas-Vietnam dans ce classement témoigne de l’attention croissante que porte la communauté internationale de l’IA à un jeu de données conçu spécifiquement pour la langue vietnamienne et le contexte vietnamien.
Cette reconnaissance illustre également l’importance grandissante des données locales à l’heure où de nombreux pays cherchent à développer une intelligence artificielle souveraine.
Nemotron-Personas-Vietnam n’est pas un grand modèle de langage, mais un jeu de données fondamental servant de ressource de base aux développeurs pour la conception de systèmes d’intelligence artificielle.
Ce jeu de données est construit sous forme de personas en vietnamien, c’est-à-dire de profils fictifs représentant la diversité de la population vietnamienne dans sa vie quotidienne, ses études, son activité professionnelle et ses centres d’intérêt.
Ces personas ne correspondent pas à des personnes réelles. Il s’agit de données synthétiques générées par un système d’IA à partir de distributions statistiques et de méthodes de validation destinées à refléter au plus près la réalité de la société vietnamienne.
La version publique de Nemotron-Personas-Vietnam contient 100 000 enregistrements correspondant à 900 000 personas, pour un volume total de 118 millions de tokens, dont 52 millions consacrés aux personas eux-mêmes.
Les tokens peuvent être définis comme les unités élémentaires utilisées par les modèles d’IA pour lire et traiter le langage.
Un volume de 118 millions de tokens témoigne ainsi d’une base textuelle considérable, suffisante pour soutenir les développeurs dans la création de données d’entraînement, le réglage fin (fine-tuning) ou l’évaluation de modèles d’IA en vietnamien.
Chaque enregistrement comporte de nombreux champs d’information : profession, compétences, objectifs de carrière, centres d’intérêt sportifs, artistiques, touristiques et gastronomiques, âge, sexe, niveau d’études, situation familiale, zone de résidence et localité.
Cette description multidimensionnelle permet aux développeurs de filtrer, segmenter et générer des scénarios adaptés à différents profils d’utilisateurs, secteurs d’activité ou contextes d’application.
Le jeu de données couvre six provinces et villes relevant directement de l’autorité centrale : Hanoï, Hô Chi Minh-Ville, Hai Phong, Da Nang, Can Tho et Dong Nai, conformément au nouveau découpage administratif du Vietnam après la réorganisation de 2025.
Nemotron-Personas-Vietnam est diffusé librement sur Hugging Face et peut être utilisé à des fins commerciales ou non commerciales, sous réserve d’une attribution appropriée de la source.
Les chercheurs, start-up, entreprises et membres de la communauté vietnamienne de l’IA disposent ainsi d’une ressource de base leur permettant d’expérimenter, d’entraîner, d’ajuster et d’évaluer des systèmes d’intelligence artificielle.
Promouvoir une IA souveraine pour le Vietnam
Grâce à Nemotron-Personas-Vietnam, les développeurs disposent désormais d’une source de données reflétant davantage les caractéristiques de la population vietnamienne.
Ils peuvent ainsi générer davantage de données synthétiques, réduire les biais lors de l’entraînement des modèles et améliorer la diversité des réponses produites par les systèmes d’IA en vietnamien.
Il s’agit d’une étape importante pour permettre à l’IA non seulement de « parler vietnamien », mais aussi de mieux comprendre les Vietnamiens, la société vietnamienne et les problématiques propres au pays.
Selon Ngo Xuan Bach : « FPT est convaincu qu’une IA souveraine doit être construite dès ses fondations afin de refléter la langue, la culture et les réalités économiques locales. »
« Le jeu de données Nemotron-Personas-Vietnam illustre notre engagement à permettre aux développeurs locaux d’accéder plus facilement aux ressources nécessaires pour concevoir des solutions d’IA adaptées aux Vietnamiens et susceptibles d’être déployées à l’échelle régionale », a-t-il souligné.
La coopération entre FPT et NVIDIA repose sur un objectif commun : mettre à disposition de la communauté de l’IA des modèles, des jeux de données et des bibliothèques ouverts et performants.
Ces ressources permettent de développer des systèmes capables de mieux prendre en compte la langue, la culture, la réglementation, les infrastructures de données et les objectifs économiques propres à chaque pays, plutôt que de dépendre exclusivement de modèles globaux génériques.
Dans ce partenariat, NVIDIA apporte son architecture de modèles ouverts, la bibliothèque de données synthétiques NVIDIA NeMo Data Designer ainsi que la méthode Nemotron-Personas.
Cette approche structurée permet de créer des jeux de données synthétiques à grande échelle reflétant les caractéristiques démographiques, géographiques et les contextes d’usage propres à chaque pays.
FPT contribue de son côté par son expertise locale, ses capacités de validation des données, ses infrastructures de données et ses compétences en recherche sur l’IA, mobilisées à travers FPT Smart Cloud, l’Institut Quantum AI & Cyber Security et FPT DC5.
À l’échelle mondiale, les jeux de données de type persona s’imposent progressivement comme une approche essentielle dans le développement de l’intelligence artificielle, notamment pour les modèles nécessitant des données synthétiques diversifiées afin de réduire les biais et de mieux représenter les contextes réels des utilisateurs.
Dans la gamme Nemotron-Personas, NVIDIA a déjà développé des jeux de données similaires pour plusieurs pays et régions, notamment les États-Unis, le Japon, l’Inde, Singapour, le Brésil et la France.
La plupart des modèles d’IA les plus populaires aujourd’hui sont principalement entraînés sur des données en anglais et dans un contexte occidental.
Lorsqu’ils sont appliqués au Vietnam, ils peuvent ne pas saisir pleinement les spécificités liées à la langue, à la culture, aux métiers, aux particularités régionales, aux modes de communication ou aux besoins concrets des utilisateurs vietnamiens.
Il peut en résulter des réponses moins naturelles, moins précises ou insuffisamment adaptées au contexte local.
La présence de Nemotron-Personas-Vietnam parmi les ressources les plus populaires sur Hugging Face montre que les données locales occupent désormais une place croissante dans le développement de l’intelligence artificielle.
Pour le Vietnam, il s’agit d’une initiative concrète visant à enrichir les ressources disponibles pour la communauté technologique, à soutenir les entreprises et les chercheurs dans la création de systèmes d’IA comprenant mieux les Vietnamiens, répondant plus efficacement à leurs besoins et capables de s’étendre à l’échelle régionale.