
Bồ nông nâu California
Năm 2023, các nhà nghiên cứu đã công bố một phương pháp mới để tạo ra các mô hình ngôn ngữ lớn (LLM) có khả năng đa phương thức. Phương pháp này sử dụng một kiến trúc bộ mã hóa-bộ giải mã (encoder-decoder) kết hợp với một bộ mã hóa hình ảnh (image encoder) được đào tạo trước. Trong phương pháp này, bộ mã hóa hình ảnh sẽ trích xuất các đặc trưng từ hình ảnh, sau đó các đặc trưng này được đưa vào bộ mã hóa của LLM. Bộ giải mã của LLM sau đó sẽ tạo ra văn bản dựa trên cả đặc trưng hình ảnh và đầu vào văn bản. Phương pháp này đã được chứng minh là có hiệu quả trong việc tạo ra các LLM đa phương thức có khả năng thực hiện nhiều tác vụ khác nhau, bao gồm chú thích hình ảnh, trả lời câu hỏi bằng hình ảnh và tạo văn bản từ hình ảnh. Một trong những lợi ích chính của phương pháp này là nó cho phép các LLM học cách liên kết thông tin hình ảnh và văn bản một cách hiệu quả. Điều này là do bộ mã hóa hình ảnh được đào tạo trước đã học cách trích xuất các đặc trưng có ý nghĩa từ hình ảnh, và bộ mã hóa-bộ giải mã của LLM sau đó có thể sử dụng các đặc trưng này để tạo ra văn bản có liên quan. Một lợi ích khác của phương pháp này là nó tương đối dễ triển khai. Điều này là do bộ mã hóa hình ảnh và bộ mã hóa-bộ giải mã của LLM đều là các kiến trúc được thiết lập tốt đã được nghiên cứu rộng rãi. Nhìn chung, phương pháp này là một bước tiến quan trọng trong việc phát triển các LLM đa phương thức. Nó đã được chứng minh là có hiệu quả trong việc tạo ra các LLM có khả năng thực hiện nhiều tác vụ khác nhau, và nó tương đối dễ triển khai.
Nguồn tin: Simon Willison. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.