'Khoảnh khắc DeepSeek tiếp theo' của Trung Quốc

2 시간 전 7

GLM-5.2 của Zhipu AI được đánh giá có hiệu năng gần tương đương mô hình OpenAI, Anthropic và Google trên các bảng xếp hạng lập trình, trong khi chi phí phát triển rẻ hơn.

GLM 5.2 do công ty Zhipu AI (Z.ai) của Trung Quốc phát triển và đang thu hút sự chú ý nhờ khả năng lập trình gần tương đương với các mô hình mạnh nhất hiện nay của Mỹ.

Theo xếp hạng FrontierSWE, đo lường mức độ một AI có thể hoàn thành các dự án kỹ thuật quy mô lớn và kéo dài hàng chục giờ, GLM-5.2 đạt 74,4%, vượt GPT-5.5 của OpenAI và Opus 4.7 của Anthropic. Mô hình mã nguồn mở mới của Trung Quốc chỉ kém Opus 4.8 chưa đến một điểm phần trăm.

Ở hai xếp hạng khác là PostTrainBench và SWE-Marathon, đều đo lường khả năng thực hiện nhiệm vụ phức tạp và nhiều bước, GLM-5.2 đều nằm trong top 3 toàn cầu cùng với các mô hình tốt nhất của Mỹ.

"GLM-5.2 đánh dấu 'khoảnh khắc DeepSeek' mới đối với AI Trung Quốc", Kyle Chan, nhà nghiên cứu tại Viện Brookings, nói trên SCMP. "Mô hình mới của Z.ai cho thấy Trung Quốc chỉ chậm hơn Mỹ vài tháng về hiệu năng AI, dù có khả năng tiếp cận năng lực tính toán kém hơn nhiều".

Theo Chan, mô hình mã nguồn mở này xuất hiện vào "giai đoạn hoàn hảo" khi nhiều người lo ngại về chi phí dành cho AI tăng vọt. Chi phí sử dụng GLM-5.2 bằng một nửa so với các mô hình từ công ty Mỹ, trong khi năng lực nằm trong top đầu.

Lập trình là một trong những ứng dụng thương mại tăng trưởng nhanh nhất của các mô hình ngôn ngữ lớn. Anthropic, dẫn đầu về AI lập trình, tháng trước dự kiến doanh thu năm khoảng 47 tỷ USD, tăng từ mức 1 tỷ USD đầu 2025, theo các tài liệu gọi vốn gần đây.

Theo Nathan Lambert, nhà nghiên cứu tại Viện Nghiên cứu trí tuệ nhân tạo Allen, GLM-5.2 là một trong những mô hình trọng số mở đầu tiên có thể coi là lựa chọn thay thế. Dạng mô hình này cho phép người dùng điều chỉnh bộ trọng số đã huấn luyện.

Tuy nhiên, theo CNBC, GLM-5.2 vẫn đi sau mô hình Mỹ trong một số bài đánh giá. DeepSWE, xếp hạng đánh giá năng lực kỹ thuật phần mềm, đặt mô hình này ở vị trí thứ 5, sau các mô hình của Anthropic và OpenAI.

Người dùng cũng ghi nhận một số điểm kém hiệu quả trong vận hành. Sridhar Ramaswamy, CEO công ty cung cấp phần mềm dữ liệu Mỹ Snowflake, cho rằng GLM-5.2 đạt hiệu năng tổng thể tương đương Claude Opus 4.7, nhưng bộc lộ một số hạn chế như dừng tác vụ quá sớm và phân tích quá mức các chi tiết không chính xác.

Tang Jie, nhà sáng lập Zhipu AI, chia sẻ trên mạng xã hội rằng mô hình có thể cải thiện nếu có thêm nguồn lực dành cho học tăng cường.

Nam Nguyễn

전체 기사 읽기