Ce qu’il faut savoir sur le jeu de données d’IA « Portraits des Vietnamiens » classé parmi les 15 plus populaires au monde

FPT et NVIDIA ont publié un jeu de données en vietnamien destiné au développement d’une intelligence artificielle souveraine au Vietnam. Quatre jours seulement après son lancement, celui-ci s’est hissé parmi les 15 jeux de données les plus populaires sur Hugging Face.

mercredi 10 juin 2026 07:03

À peine quatre jours après sa publication, le jeu de données Nemotron-Personas-Vietnam, développé conjointement par le groupe FPT et NVIDIA, a intégré le Top 15 des jeux de données les plus tendance sur Hugging Face, la principale plateforme mondiale de partage de modèles et de données d’intelligence artificielle open source.

Un jeu de données de « portraits des Vietnamiens » au service du développement de l’IA

Sur Hugging Face, le classement des ressources les plus populaires reflète l’intérêt suscité auprès de la communauté, mesuré notamment à travers le nombre de téléchargements, les mentions « J’aime » et les interactions.

L’entrée de Nemotron-Personas-Vietnam dans ce classement témoigne de l’attention croissante que porte la communauté internationale de l’IA à un jeu de données conçu spécifiquement pour la langue vietnamienne et le contexte vietnamien.

Cette reconnaissance illustre également l’importance grandissante des données locales à l’heure où de nombreux pays cherchent à développer une intelligence artificielle souveraine.

Nemotron-Personas-Vietnam n’est pas un grand modèle de langage, mais un jeu de données fondamental servant de ressource de base aux développeurs pour la conception de systèmes d’intelligence artificielle.

Ce jeu de données est construit sous forme de personas en vietnamien, c’est-à-dire de profils fictifs représentant la diversité de la population vietnamienne dans sa vie quotidienne, ses études, son activité professionnelle et ses centres d’intérêt.

Ces personas ne correspondent pas à des personnes réelles. Il s’agit de données synthétiques générées par un système d’IA à partir de distributions statistiques et de méthodes de validation destinées à refléter au plus près la réalité de la société vietnamienne.

Nemotron-Personas-Vietnam comprend 100 000 enregistrements, soit l’équivalent de 900 000 personas en vietnamien.

La version publique de Nemotron-Personas-Vietnam contient 100 000 enregistrements correspondant à 900 000 personas, pour un volume total de 118 millions de tokens, dont 52 millions consacrés aux personas eux-mêmes.

Les tokens peuvent être définis comme les unités élémentaires utilisées par les modèles d’IA pour lire et traiter le langage.

Un volume de 118 millions de tokens témoigne ainsi d’une base textuelle considérable, suffisante pour soutenir les développeurs dans la création de données d’entraînement, le réglage fin (fine-tuning) ou l’évaluation de modèles d’IA en vietnamien.

Chaque enregistrement comporte de nombreux champs d’information : profession, compétences, objectifs de carrière, centres d’intérêt sportifs, artistiques, touristiques et gastronomiques, âge, sexe, niveau d’études, situation familiale, zone de résidence et localité.

Cette description multidimensionnelle permet aux développeurs de filtrer, segmenter et générer des scénarios adaptés à différents profils d’utilisateurs, secteurs d’activité ou contextes d’application.

Le jeu de données couvre six provinces et villes relevant directement de l’autorité centrale : Hanoï, Hô Chi Minh-Ville, Hai Phong, Da Nang, Can Tho et Dong Nai, conformément au nouveau découpage administratif du Vietnam après la réorganisation de 2025.

Nemotron-Personas-Vietnam est diffusé librement sur Hugging Face et peut être utilisé à des fins commerciales ou non commerciales, sous réserve d’une attribution appropriée de la source.

Les chercheurs, start-up, entreprises et membres de la communauté vietnamienne de l’IA disposent ainsi d’une ressource de base leur permettant d’expérimenter, d’entraîner, d’ajuster et d’évaluer des systèmes d’intelligence artificielle.

Promouvoir une IA souveraine pour le Vietnam

Grâce à Nemotron-Personas-Vietnam, les développeurs disposent désormais d’une source de données reflétant davantage les caractéristiques de la population vietnamienne.

Ils peuvent ainsi générer davantage de données synthétiques, réduire les biais lors de l’entraînement des modèles et améliorer la diversité des réponses produites par les systèmes d’IA en vietnamien.

Il s’agit d’une étape importante pour permettre à l’IA non seulement de « parler vietnamien », mais aussi de mieux comprendre les Vietnamiens, la société vietnamienne et les problématiques propres au pays.

Ngo Xuan Bach, professeur associé et docteur, directeur de la division Produits IA de FPT Smart Cloud et directeur de l’Institut Quantum AI & Cyber Security du groupe FPT.

Selon Ngo Xuan Bach : « FPT est convaincu qu’une IA souveraine doit être construite dès ses fondations afin de refléter la langue, la culture et les réalités économiques locales. »

« Le jeu de données Nemotron-Personas-Vietnam illustre notre engagement à permettre aux développeurs locaux d’accéder plus facilement aux ressources nécessaires pour concevoir des solutions d’IA adaptées aux Vietnamiens et susceptibles d’être déployées à l’échelle régionale », a-t-il souligné.

La coopération entre FPT et NVIDIA repose sur un objectif commun : mettre à disposition de la communauté de l’IA des modèles, des jeux de données et des bibliothèques ouverts et performants.

Ces ressources permettent de développer des systèmes capables de mieux prendre en compte la langue, la culture, la réglementation, les infrastructures de données et les objectifs économiques propres à chaque pays, plutôt que de dépendre exclusivement de modèles globaux génériques.

Dans ce partenariat, NVIDIA apporte son architecture de modèles ouverts, la bibliothèque de données synthétiques NVIDIA NeMo Data Designer ainsi que la méthode Nemotron-Personas.

Cette approche structurée permet de créer des jeux de données synthétiques à grande échelle reflétant les caractéristiques démographiques, géographiques et les contextes d’usage propres à chaque pays.

FPT contribue de son côté par son expertise locale, ses capacités de validation des données, ses infrastructures de données et ses compétences en recherche sur l’IA, mobilisées à travers FPT Smart Cloud, l’Institut Quantum AI & Cyber Security et FPT DC5.

À l’échelle mondiale, les jeux de données de type persona s’imposent progressivement comme une approche essentielle dans le développement de l’intelligence artificielle, notamment pour les modèles nécessitant des données synthétiques diversifiées afin de réduire les biais et de mieux représenter les contextes réels des utilisateurs.

Dans la gamme Nemotron-Personas, NVIDIA a déjà développé des jeux de données similaires pour plusieurs pays et régions, notamment les États-Unis, le Japon, l’Inde, Singapour, le Brésil et la France.

La plupart des modèles d’IA les plus populaires aujourd’hui sont principalement entraînés sur des données en anglais et dans un contexte occidental.

Lorsqu’ils sont appliqués au Vietnam, ils peuvent ne pas saisir pleinement les spécificités liées à la langue, à la culture, aux métiers, aux particularités régionales, aux modes de communication ou aux besoins concrets des utilisateurs vietnamiens.

Il peut en résulter des réponses moins naturelles, moins précises ou insuffisamment adaptées au contexte local.

La présence de Nemotron-Personas-Vietnam parmi les ressources les plus populaires sur Hugging Face montre que les données locales occupent désormais une place croissante dans le développement de l’intelligence artificielle.

Pour le Vietnam, il s’agit d’une initiative concrète visant à enrichir les ressources disponibles pour la communauté technologique, à soutenir les entreprises et les chercheurs dans la création de systèmes d’IA comprenant mieux les Vietnamiens, répondant plus efficacement à leurs besoins et capables de s’étendre à l’échelle régionale.

NDEL

AI FPT NVIDIA

Ce qu’il faut savoir sur le jeu de données d’IA « Portraits des Vietnamiens » classé parmi les 15 plus populaires au monde

Un réseau de données climatiques unique en ASEAN cofondé par un scientifique vietnamien

L’IA, un « partenaire stratégique » du développement durable

Opportunité pour le Vietnam de promouvoir l’économie circulaire dans la production

Le sud-coréen Dot veut faciliter l'accès des malvoyants à l'éducation au Vietnam

Vietnam : développer un écosystème de ressources humaines en cybersécurité

Dans la même rubrique

Un réseau de données climatiques unique en ASEAN cofondé par un scientifique vietnamien

Le sud-coréen Dot veut faciliter l'accès des malvoyants à l'éducation au Vietnam

Faire des données une nouvelle ressource stratégique

Le Vietnam réaffirme son engagement pour une IA centrée sur l'humain et le travail décent

LG Innotek va construire sa première usine de supports de puces électroniques au Vietnam

La coentreprise Viettel-Laos décroche les droits de diffusion du Mondial 2026

Protéger les enfants à l'ère de l'intelligence artificielle

Le Vietnam met en avant son savoir-faire technologique à Vienne

Mobiliser les ressources internationales pour développer l'écosystème de l'IA au Vietnam

Le Vietnam s'inspire de l'expertise estonienne pour bâtir sa stratégie de citoyenneté numérique

Le Vietnam abrite le premier centre de données certifié Uptime Tier III de nouvelle génération en Asie-Pacifique

Robotique : la technologie vietnamienne impressionne à l'ICRA 2026

LG construit sa première usine de substrats pour semi-conducteurs au Vietnam

Le développement des technologies stratégiques doit se traduire en résultats mesurables

Le Vietnam et la République de Corée renforcent leur coopération en matière de science, de technologie et d’innovation

Le Vietnam intensifie la lutte contre les atteintes à la propriété intellectuelle

Ce qu’il faut savoir sur le jeu de données d’IA « Portraits des Vietnamiens » classé parmi les 15 plus populaires au monde

Sur le même sujet