FPT và Nvidia phát hành tập dữ liệu tiếng Việt với 900.000 'hồ sơ nhân vật'

11 giờ trước 28

Thứ ba, 9/6/2026, 08:40 (GMT+7)

Tập dữ liệu Nemotron-Personas-Vietnam, do FPT và Nvidia phát triển, nằm trong top 10 tập dữ liệu thịnh hành trên Hugging Face sau 5 ngày phát hành.

Nemotron-Personas-Vietnam gồm 900.000 "hồ sơ nhân vật" (persona) tiếng Việt, phục vụ huấn luyện, tinh chỉnh các mô hình trí tuệ nhân tạo. Mỗi persona là một người Việt giả định, có thông tin về tên, độ tuổi, nơi sinh sống, nghề nghiệp, thu nhập, tình trạng hôn nhân... Persona không phải về người thật mà là dữ liệu tổng hợp do một hệ thống AI tạo ra, nhưng dựa trên phân bố thống kê và phương pháp kiểm chứng nhằm phản ánh sát thực tế xã hội Việt Nam.

Nemotron-Personas-Vietnam được phát hành trên Hugging Face, nền tảng chia sẻ mô hình và dữ liệu AI mã nguồn mở hàng đầu thế giới, vào tuần trước, cho phép sử dụng cho mục đích thương mại và phi thương mại miễn là ghi nhận nguồn.

 Hugging Face

Một phân loại trong bộ dữ liệu Nemotron-Personas-Vietnam dựa trên nhóm nghề nghiệp. Ảnh: Hugging Face

Theo FPT, phiên bản phát hành công khai của Nemotron-Personas-Vietnam có tổng dung lượng 118 triệu token (đơn vị mà mô hình AI dùng để đọc và xử lý ngôn ngữ) - quy mô đủ lớn để hỗ trợ nhà phát triển trong quá trình tạo dữ liệu huấn luyện, tinh chỉnh hoặc đánh giá mô hình AI tiếng Việt.

Trong số 900.000 bản ghi persona, mỗi bản được mô tả qua nhiều trường thông tin khác nhau, bao gồm nghề nghiệp, kỹ năng, mục tiêu nghề nghiệp, sở thích thể thao, nghệ thuật, du lịch, ẩm thực, độ tuổi, giới tính, trình độ học vấn, tình trạng hôn nhân, khu vực cư trú và địa phương. Việc mô tả persona theo nhiều chiều giúp nhà phát triển có thể lọc, phân nhóm và tạo kịch bản dữ liệu phù hợp với từng nhóm người dùng, từng ngành nghề hoặc nhu cầu ứng dụng cụ thể.

Phần lớn mô hình AI phổ biến hiện nay được huấn luyện trên dữ liệu tiếng Anh và bối cảnh phương Tây. Khi áp dụng vào Việt Nam, các mô hình có thể chưa hiểu đầy đủ những khác biệt về ngôn ngữ, văn hóa, nghề nghiệp, vùng miền, cách giao tiếp và nhu cầu thực tế của người dùng. Nếu có nhiều dữ liệu bản địa hơn, nhà phát triển AI có thể giảm thiên lệch trong quá trình huấn luyện và xây dựng các mô hình AI phù hợp hơn với nhu cầu người dùng và xã hội Việt Nam.

Ảnh: FPT

"AI có chủ quyền phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương. Tập dữ liệu Nemotron-Personas-Vietnam giúp nhà phát triển AI tiếp cận các nguồn lực cần thiết để xây dựng giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực", PGS. TS Ngô Xuân Bách, Giám đốc khối sản phẩm AI tại FPT Smart Cloud, cho biết.

Nemotron-Personas là phương pháp của Nvidia để xây dựng hồ sơ người giả lập nhưng có tính thực tế thống kê. Bộ dữ liệu của Mỹ có khoảng 6 triệu bản ghi, Hàn Quốc có 7 triệu. FPT cho biết dựa trên phương pháp của Nvidia và chuyên môn, hiểu biết bản địa, năng lực xác thực dữ liệu, hạ tầng dữ liệu và năng lực nghiên cứu AI để phát triển bộ dữ liệu.

Nam Nguyễn

Đọc toàn bộ bài viết