Các nhà nghiên cứu tại MIT hướng dẫn các mô hình AI diễn giải…

Để đẩy nhanh và cải thiện quá trình ra quyết định trong một thị trường toàn cầu đầy biến động, các doanh nghiệp có thể triển khai các mô hình trí tuệ nhân tạo tạo sinh nhằm hỗ trợ tóm tắt và diễn giải các biểu đồ thường xuất hiện trong các bản tóm tắt thị trường và báo cáo tài chính. Tuy nhiên, ngay cả những mô hình thị giác-ngôn ngữ tiên tiến nhất đôi khi cũng gặp khó khăn với nhiệm vụ này, bởi vì nó đòi hỏi mô hình phải tích hợp khả năng hiểu biết về hình ảnh, số liệu và ngôn ngữ. Một công ty đầu tư vào một mô hình hiện đại vẫn có thể nhận được thông tin không chính xác hoặc không đầy đủ. Để khắc phục khoảng cách về hiệu suất này, các nhà nghiên cứu từ MIT và MIT-IBM Computing Resear

Để đẩy nhanh và tinh chỉnh quá trình ra quyết định trong một thị trường toàn cầu đầy biến động, các doanh nghiệp có thể triển khai các mô hình trí tuệ nhân tạo tạo sinh nhằm hỗ trợ tóm tắt và diễn giải các biểu đồ thường xuất hiện trong các bản tóm tắt thị trường và báo cáo tài chính. Tuy nhiên, ngay cả những mô hình thị giác-ngôn ngữ (vision-language models) tiên tiến nhất đôi khi cũng gặp khó khăn với nhiệm vụ này, vì nó đòi hỏi mô hình phải tích hợp khả năng hiểu biết về hình ảnh, số liệu và ngôn ngữ. Một công ty đầu tư vào một mô hình hiện đại vẫn có thể nhận được thông tin không chính xác hoặc không đầy đủ. Để khắc phục khoảng cách hiệu suất này, các nhà nghiên cứu từ MIT và Phòng thí nghiệm Nghiên cứu Máy tính MIT-IBM đã phát triển một tài nguyên đa diện dành cho người dùng AI, được thiết kế đặc biệt để dạy các mô hình thị giác-ngôn ngữ (VLM) cách diễn giải biểu đồ một cách hiệu quả. Họ đã sử dụng một phương pháp tạo dữ liệu mới để xây dựng một bộ dữ liệu hiện đại bao gồm hơn một triệu biểu đồ đa dạng. Bộ dữ liệu này cũng mã hóa nhiều thành phần hình ảnh, ngôn ngữ và số liệu của mỗi hình ảnh biểu đồ, cho phép các mô hình suy luận mạnh mẽ về thông tin trong biểu đồ. Các nhà nghiên cứu đã sử dụng bộ dữ liệu này, được gọi là ChartNet, để huấn luyện một loạt các VLM mã nguồn mở. Nhiều mô hình nhỏ hơn này đã vượt trội đáng kể so với các mô hình thương mại lớn hơn nhiều lần về các nhiệm vụ như trích xuất dữ liệu và tóm tắt biểu đồ. Bằng cách cho phép các mô hình mã nguồn mở vượt trội hơn các đối tác thương mại của chúng, ChartNet có thể giúp các công ty nhỏ với ngân sách hạn chế dễ dàng sử dụng AI hơn. Bộ dữ liệu mã nguồn mở có thể được sử dụng để cải thiện khả năng của các mô hình AI cho các nhiệm vụ như phân tích xu hướng kinh doanh và diễn giải hình ảnh khoa học. Jovana Kondic, nghiên cứu sinh ngành kỹ thuật điện và khoa học máy tính (EECS) tại MIT và là tác giả chính của một bài báo về ChartNet, cho biết: “Chúng tôi đã phát triển ChartNet để trở thành một giải pháp toàn diện cho việc hiểu biểu đồ, bao gồm về cơ bản mọi thứ mà một mô hình AI và một chuyên gia đang huấn luyện mô hình đó có thể cần. Chúng tôi hy vọng công trình của chúng tôi sẽ thúc đẩy các nhà nghiên cứu đạt được hiệu suất tiên tiến với các mô hình nhỏ hơn không yêu cầu lượng tính toán vô hạn.” Cô được tham gia vào bài báo bởi nhiều đồng tác giả từ MIT, Phòng thí nghiệm Nghiên cứu Máy tính MIT-IBM và IBM Research, bao gồm Pengyuan Li, thành viên nghiên cứu tại IBM Research; Dhiraj Joshi, nhà khoa học cấp cao tại IBM Research; Isaac Sanchez, kỹ sư phần mềm tại IBM Research; Aude Oliva, giám đốc hợp tác công nghiệp chiến lược tại MIT Schwarzman College of Computing, giám đốc MIT của Phòng thí nghiệm Nghiên cứu Máy tính MIT-IBM, và nhà khoa học nghiên cứu cấp cao tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL); và Rogerio Feris, nhà khoa học chính và quản lý tại Phòng thí nghiệm Nghiên cứu Máy tính MIT-IBM. Nghiên cứu sẽ được trình bày tại Hội nghị IEEE về Thị giác Máy tính và Nhận dạng Mẫu. **Nút thắt cổ chai về bộ dữ liệu** Kondic cho biết, các nhà nghiên cứu đã đạt được những bước tiến lớn trong việc phát triển các mô hình AI tạo sinh xuất sắc trong xử lý ngôn ngữ tự nhiên và suy luận về hình ảnh tự nhiên. Tuy nhiên, ít công trình tập trung vào việc diễn giải dữ liệu đa phương thức phức tạp có trong biểu đồ. Tuy nhiên, đối với các doanh nghiệp lớn và nhỏ trong hầu hết mọi ngành, việc hiểu biểu đồ là một nhiệm vụ quan trọng. Joshi cho biết: “Ngành tài chính phát triển mạnh nhờ các biểu đồ. Nếu các mô hình thị giác-ngôn ngữ có thể trích xuất thông tin từ các biểu đồ, như mô tả xu hướng, điều đó sẽ tạo điều kiện thuận lợi cho nhiều quy trình làm việc diễn ra sau đó.” Việc thiếu dữ liệu huấn luyện chất lượng cao là một nút thắt cổ chai lớn cản trở sự phát triển của các VLM có thể diễn giải chính xác các biểu đồ. Nhiều bộ dữ liệu chứa các hình ảnh biểu đồ hạn chế được lấy từ internet và thường thiếu quy mô cần thiết cùng thông tin bổ sung để giúp mô hình diễn giải dữ liệu cơ bản. Ông Kondic cho biết: “Một mô hình thị giác-ngôn ngữ, không giống như bộ não của chúng ta, có thể cần xem hàng nghìn ví dụ trong quá trình huấn luyện để nhận diện một cách đáng tin cậy một thứ gì đó là biểu đồ đường”. Các nhà nghiên cứu đã tìm cách khắc phục những thiếu sót đó bằng cách tạo ra dữ liệu tổng hợp. Dữ liệu tổng hợp được tạo ra một cách nhân tạo bởi các thuật toán để mô phỏng các đặc tính thống kê của dữ liệu thực tế. Bộ dữ liệu ChartNet chứa hơn một triệu hình ảnh biểu đồ chất lượng cao, cùng với mã tương ứng được sử dụng để tạo ra mỗi biểu đồ, một mô tả bằng văn bản và một bảng chứa thông tin số của nó. Ngoài ra, mỗi điểm dữ liệu bao gồm các cặp câu hỏi-trả lời để dạy mô hình cách trả lời đúng các câu hỏi về hình ảnh biểu đồ. Ông Kondic nói: “Những chế độ dữ liệu bổ sung này hướng dẫn mô hình kết nối và căn chỉnh các mảnh thông tin khác nhau mà hình ảnh biểu đồ mã hóa”. **Tạo dữ liệu** Để xây dựng ChartNet, các nhà nghiên cứu đã tạo ra một quy trình tạo dữ liệu tổng hợp gồm hai bước. Đầu tiên, hệ thống tự động của họ dịch bất kỳ tập hợp hình ảnh biểu đồ có sẵn nào thành mã. Sau đó, hệ thống lặp đi lặp lại tăng cường mã đó để thay đổi các khía cạnh khác nhau của mỗi biểu đồ, chẳng hạn như loại biểu đồ, giá trị dữ liệu, chủ đề, màu sắc, v.v. Ông Kondic giải thích: “Chúng tôi có thể bắt đầu từ một biểu đồ duy nhất mà chúng tôi sử dụng làm hạt giống và đưa ra hàng trăm bản mở rộng của nó. Đây là cách chúng tôi có thể xây dựng một bộ dữ liệu với hơn một triệu hình ảnh đa dạng”. Họ cũng kết hợp một quy trình kiểm tra chất lượng tự động để đảm bảo dữ liệu tổng hợp có chất lượng cao. Quá trình này xác minh rằng mã có thể thực thi và các hình ảnh biểu đồ được hiển thị là chính xác và rõ ràng. Bà nói: “Chúng tôi không chỉ muốn tạo ra các mẫu đa dạng. Chúng tôi cũng muốn thông tin được trình bày một cách có ý nghĩa”. ChartNet cũng bao gồm một lựa chọn các điểm dữ liệu biểu đồ được chú thích bởi các chuyên gia con người. Điều này cung cấp quyền truy cập vào các loại biểu đồ bổ sung và dữ liệu hỗ trợ mang lại sự đảm bảo về tính hợp lệ. Ông Joshi nói thêm, một chuyên gia có thể sử dụng dữ liệu được chú thích để tinh chỉnh một VLM (mô hình thị giác-ngôn ngữ) hiện có, nâng cao hơn nữa hiệu suất cho một ứng dụng cụ thể. Các nhà nghiên cứu đã thử nghiệm ChartNet bằng cách huấn luyện dòng mô hình IBM Granite Vision cũng như một số mô hình mã nguồn mở khác với nhiều kích cỡ khác nhau và đánh giá chúng trên các tác vụ diễn giải biểu đồ khác nhau. Bộ dữ liệu đã cải thiện độ chính xác của tất cả các mô hình trong c.

Các nhà nghiên cứu tại MIT hướng dẫn các mô hình AI diễn giải biểu đồ