Cuộc thi RRC do Trung tâm Thị giác Máy tính thuộc Đại học Autònoma de Barcelona (Tây Ban Nha) tổ chức, với sự tham gia của các trường đại học, viện nghiên cứu và tập đoàn công nghệ toàn cầu. Cuộc thi nhằm thúc đẩy các giải pháp thị giác máy tính ứng dụng trong dịch thuật, quản trị dữ liệu, đô thị thông minh, xử lý tài liệu lịch sử.
Theo bảng xếp hạng do RRC công bố tháng 6, mô hình AI đọc hiểu tài liệu dạng ảnh CATI-VLM của Viện Ứng dụng Công nghệ CMC (CMC ATI) đứng thứ 12 trong hạng mục trả lời câu hỏi từ tài liệu hình ảnh (DocumentVisualQuestionAnswering - DocVQA).
Bảng xếp hạng của RRC về trả lời câu hỏi từ tài liệu hình ảnh.
Đại diện CMC cho biết CATI-VLM được xây dựng từ kho dữ liệu 5 TB, có khả năng phân tích và hiểu nội dung trong tài liệu ảnh theo cách trực quan. Không dừng ở nhận dạng ký tự, mô hình còn phân tích được cấu trúc bố cục, nhận diện thành phần phi văn bản như checkbox, biểu đồ, chữ ký, công thức..., đồng thời nắm bắt phong cách thể hiện như font chữ hay các vùng được tô đậm.
CATI-VLM có thể trả lời câu hỏi đặt ra từ hình ảnh tài liệu, tương tự ChatGPT, không cần học trước từ biểu mẫu cụ thể. Trên bảng xếp hạng của RRC, CATI-VLM đạt độ chính xác cao nhất trong 4/7 bộ dữ liệu, dù chỉ sử dụng ba tỷ tham số. Mô hình vượt qua nhiều sản phẩm của các tập đoàn công nghệ lớn như GPT-4 VisionTurbo kết hợp AmazonTextract OCR (hạng 34), hay Baidu (hạng 22).
Đại diện nhóm nghiên cứu, TS. Đặng Minh Tuấn, Viện trưởng CMC ATI, cho biết đây là minh chứng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam. Kết quả đến từ việc nhóm đã tập trung tối ưu hiệu suất và độ chính xác, thay vì chạy đua số lượng tham số. Cách làm này giúp mô hình hoạt động hiệu quả trên hạ tầng phù hợp với điều kiện Việt Nam.
Theo ông Nguyễn Trung Chính, Chủ tịch CMC, đây là thành quả của hơn 10 năm đầu tư vào nghiên cứu và phát triển của tập đoàn, thể hiện chiến lược làm chủ công nghệ Việt và hướng tới chinh phục thị trường toàn cầu. "Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai với các gã khổng lồ công nghệ toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới", ông nói.
Viện Ứng dụng Công nghệ CMC cho biết CATI-VLM sẽ được ứng dụng vào chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI như trợ lý ảo hỗ trợ rà soát văn bản pháp luật, nền tảng số hóa tài liệu, hệ quản trị tri thức, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng xử lý tài liệu.