Xiaomi lặng lẽ bước vào cuộc đua AI với MiMo-7B

- Cập nhật tin tức
Xiaomi vừa trình làng MiMo-7B, hệ thống AI mã nguồn mở đầu tiên, được thiết kế để cạnh tranh với các tên tuổi lớn trong lĩnh vực ngôn ngữ và suy luận.

Xiaomi đã chính thức tham gia vào thế giới của các mô hình ngôn ngữ lớn (LLM) với sự ra mắt của MiMo-7B, một hệ thống AI mã nguồn mở. Được phát triển bởi đội ngũ mới mang tên Big Model Core Team, MiMo-7B tập trung vào các nhiệm vụ đòi hỏi khả năng suy luận và đã chứng minh được hiệu suất vượt trội so với các đối thủ như OpenAI và Alibaba trong các bài kiểm tra về suy luận toán học và mã hóa.

MiMo-7B sở hữu 7 tỷ tham số, một con số tuy nhỏ hơn so với các LLM hàng đầu nhưng Xiaomi tự tin khẳng định hiệu năng của nó ngang ngửa với những hệ thống lớn hơn như o1-mini của OpenAI và Qwen-32B-Preview của Alibaba. Điểm mạnh của MiMo-7B nằm ở quy trình huấn luyện nghiêm ngặt, khi Xiaomi đã phát triển một tập dữ liệu chuyên sâu gồm 200 tỷ token tập trung vào suy luận và trải qua ba giai đoạn huấn luyện với tổng cộng 25 nghìn tỷ token.

Khác với phương pháp truyền thống chỉ dự đoán token tiếp theo, MiMo-7B áp dụng việc dự đoán nhiều token cùng lúc, giúp giảm thời gian suy diễn mà vẫn giữ vững chất lượng đầu ra. Giai đoạn hậu huấn luyện bao gồm các kỹ thuật học tăng cường kết hợp với cải tiến cơ sở hạ tầng. Xiaomi đã phát triển một thuật toán tùy chỉnh có tên 'Test Difficulty Driven Reward' để vượt qua những thách thức trong các tác vụ học tăng cường phức tạp, đồng thời sử dụng phương pháp 'Easy Data Re-Sampling' để ổn định quá trình huấn luyện.

Về mặt hạ tầng, Xiaomi đã xây dựng hệ thống triển khai Seamless Rollout nhằm giảm thiểu thời gian ngừng hoạt động của GPU trong quá trình huấn luyện và đánh giá, giúp tăng tốc độ huấn luyện lên 2,29 lần và cải thiện đáng kể hiệu suất đánh giá. Công cụ này cũng hỗ trợ các chiến lược suy diễn như dự đoán nhiều token trong môi trường vLLM.

MiMo-7B hiện có bốn phiên bản công khai. Phiên bản Base là mô hình gốc đã được huấn luyện ban đầu. Phiên bản SFT được tinh chỉnh thêm bằng dữ liệu có giám sát. Phiên bản RL-Zero phát triển từ Base thông qua học tăng cường. Cuối cùng, phiên bản RL được tinh chỉnh sâu từ SFT và được đánh giá là có độ chính xác cao nhất.

Xiaomi cũng công bố kết quả benchmark để khẳng định khả năng của MiMo-7B: phiên bản RL đạt 95,8% trên bộ dữ liệu MATH-500 và hơn 68% trên AIME 2024. Trong lập trình, mô hình đạt 57,8% trên LiveCodeBench v5 và gần 50% trên phiên bản 6. Đối với các nhiệm vụ kiến thức tổng quát như DROP, MMLU-Pro và GPQA, điểm số đạt mức trung bình đến cao 50, một con số ấn tượng đối với mô hình 7B.

Hiện tại, MiMo-7B đã được công bố trên nền tảng Hugging Face theo giấy phép mã nguồn mở, mở ra cơ hội cho cộng đồng khám phá và phát triển thêm những ứng dụng mới từ mô hình này.


0.06675 sec| 799.422 kb