Sáu tháng qua của các mô hình ngôn ngữ lớn (LLM) trong năm phút…

Năm 2023, các nhà khoa học đã đạt được những tiến bộ đáng kể trong việc phát triển các mô hình AI có khả năng tạo ra các phản ứng giống con người. Những mô hình này, được gọi là Mô hình Ngôn ngữ Lớn (LLM), đã được đào tạo trên một lượng lớn dữ liệu văn bản và có thể thực hiện nhiều tác vụ khác nhau, bao gồm dịch ngôn ngữ, tóm tắt văn bản và tạo văn bản sáng tạo. Một trong những phát triển đáng chú ý nhất trong lĩnh vực LLM là sự ra đời của các mô hình đa phương thức. Những mô hình này có thể xử lý và tạo ra thông tin từ nhiều phương thức khác nhau, chẳng hạn như văn bản, hình ảnh và âm thanh. Ví dụ, một mô hình đa phương thức có thể tạo ra một chú thích cho một hình ảnh hoặc tạo ra một câu chuyện dựa trên một chuỗi hình ảnh. Một phát triển quan trọng khác trong lĩnh vực LLM là sự cải thiện về khả năng suy luận của chúng. Các LLM hiện có thể thực hiện các tác vụ suy luận phức tạp, chẳng hạn như trả lời các câu hỏi và giải quyết vấn đề. Điều này là do sự phát triển của các kỹ thuật đào tạo mới cho phép LLM học cách suy luận về thế giới. Ngoài những tiến bộ trong LLM, cũng có những phát triển đáng kể trong lĩnh vực AI tạo sinh. AI tạo sinh là một loại AI có thể tạo ra dữ liệu mới, chẳng hạn như hình ảnh, âm nhạc và văn bản. Một trong những ứng dụng phổ biến nhất của AI tạo sinh là tạo ra hình ảnh thực tế. Ví dụ, AI tạo sinh đã được sử dụng để tạo ra các bức chân dung thực tế của những người không tồn tại. AI tạo sinh cũng đã được sử dụng để tạo ra âm nhạc và văn bản. Ví dụ, AI tạo sinh đã được sử dụng để tạo ra các bản nhạc mới theo phong cách của các nhà soạn nhạc nổi tiếng. AI tạo sinh cũng đã được sử dụng để tạo ra các câu chuyện và bài thơ mới. Nhìn chung, năm 2023 là một năm đột phá đối với AI. Những tiến bộ trong LLM và AI tạo sinh đã mở ra những khả năng mới cho AI. Khi AI tiếp tục phát triển, chúng ta có thể mong đợi thấy những ứng dụng thậm chí còn ấn tượng hơn của AI trong tương lai.

Sáu tháng qua của LLM trong năm phút Simon Willison’s Weblog Đăng ký Được tài trợ bởi: Datadog — Triển khai AI đáng tin cậy nhanh hơn với Khả năng quan sát LLM. Đọc hướng dẫn thực hành tốt nhất Sáu tháng qua của LLM trong năm phút Ngày 19/5/2026 Tôi đã tổng hợp các slide có chú thích này từ bài thuyết trình ngắn năm phút của mình tại PyCon US 2026, sử dụng phiên bản mới nhất của công cụ trình bày có chú thích của tôi. # Tôi đã trình bày bài thuyết trình ngắn này tại PyCon US 2026, nhằm tóm tắt những phát triển trong sáu tháng qua của LLM trong năm phút. # Sáu tháng là một khoảng thời gian khá thuận tiện để trình bày, vì nó bao gồm cái mà tôi gọi là điểm uốn tháng 11/2025. Tháng 11 là một tháng quan trọng đối với LLM, đặc biệt là trong lĩnh vực lập trình. # Một điều đáng chú ý là mô hình được cho là "tốt nhất" (chủ yếu dựa trên cảm nhận) đã thay đổi chủ sở hữu năm lần giữa ba nhà cung cấp lớn. # Như mọi khi, tôi đang sử dụng bài kiểm tra "Tạo một SVG của một con bồ nông cưỡi xe đạp" để minh họa sự khác biệt giữa các mô hình. Tại sao lại là bài kiểm tra này? Bởi vì bồ nông khó vẽ, xe đạp khó vẽ, bồ nông không thể cưỡi xe đạp... và không có khả năng bất kỳ phòng thí nghiệm AI nào sẽ huấn luyện một mô hình cho một nhiệm vụ vô lý như vậy. # Vào đầu tháng 11, mô hình được công nhận rộng rãi là "tốt nhất" là Claude Sonnet 4.5, được phát hành vào ngày 29/9. Nó đã vẽ cho tôi con bồ nông này. Vào tháng 11, nó đã bị GPT-5.1 vượt qua, sau đó là Gemini 3, sau đó là GPT-5.1 Codex Max, và sau đó Anthropic đã giành lại vương miện với Claude Opus 4.5. Tôi nghĩ Gemini 3 đã vẽ con bồ nông đẹp nhất trong số này, nhưng bồ nông không phải là tất cả. Hầu hết các chuyên gia sẽ đồng ý rằng Opus 4.5 đã giữ vững vị trí dẫn đầu trong vài tháng tiếp theo. # Mặc dù phải mất một thời gian để điều này trở nên rõ ràng, nhưng tin tức thực sự từ tháng 11 là các tác nhân lập trình đã trở nên tốt hơn. OpenAI và Anthropic đã dành phần lớn năm 2025 để thực hiện Học tăng cường từ phần thưởng có thể kiểm chứng (Reinforcement Learning from Verifiable Rewards) nhằm tăng chất lượng mã được viết bởi các mô hình của họ, đặc biệt khi kết hợp với các công cụ tác nhân Codex và Claude Code của họ. Vào tháng 11, kết quả của công việc này đã trở nên rõ ràng. Các tác nhân lập trình đã chuyển từ "thường xuyên hoạt động" sang "hầu hết hoạt động", vượt qua một rào cản chất lượng mà bạn có thể sử dụng chúng như một công cụ hàng ngày để hoàn thành công việc thực sự, mà không cần phải dành phần lớn thời gian để sửa chữa những lỗi ngớ ngẩn của chúng. # Cũng trong tháng 11, điều này đã xảy ra — lần commit đầu tiên vào một kho lưu trữ (lúc đó) ít được biết đến có tên "Warelay" bởi một người tên là Pete. # Trong kỳ nghỉ lễ, từ tháng 12 đến tháng 1, rất nhiều người trong chúng ta đã tận dụng thời gian nghỉ ngơi để tìm hiểu về các mô hình và tác nhân lập trình mới này và xem chúng có thể làm gì. Chúng có thể làm được rất nhiều! Một số người trong chúng ta đã trở nên quá phấn khích. Tôi đã có một đợt loạn thần LLM ngắn ngủi của riêng mình khi tôi bắt đầu triển khai các dự án đầy tham vọng để xem tôi có thể đẩy chúng đi xa đến mức nào. # Một trong những dự án của tôi là một triển khai JavaScript được mã hóa theo cảm nhận trong Python — một bản port lỏng lẻo của MicroQuickJS — mà tôi gọi là micro-javascript. Bạn có thể thử nó trong trình duyệt của mình trong sân chơi này. # Bản demo sân chơi đó cho thấy mã JavaScript chạy bằng thư viện micro-javascript của tôi, trong Python, chạy bên trong Pyodide, chạy trong WebAssembly, chạy trong JavaScript, chạy trong trình duyệt! Nó khá tuyệt! Nhưng liệu có ai ngoài kia cần một triển khai JavaScript trong Python bị lỗi, chậm, không an toàn và chưa hoàn thiện không? Họ không cần. Tôi có khá nhiều dự án khác từ kỳ nghỉ lễ đó mà tôi đã lặng lẽ ngừng hoạt động! Chuyển sang tháng 2. Dự án Warelay, với lần cam kết đầu tiên vào cuối tháng 11, đã có những diễn biến mới. Trong tháng 12 và tháng 1, dự án này đã trải qua khá nhiều lần đổi tên. Đến tháng 2, nó đã gây bão trên toàn cầu dưới tên gọi cuối cùng là OpenClaw. Mức độ chú ý mà dự án này nhận được là khá đáng kinh ngạc đối với một dự án chưa đầy ba tháng tuổi. OpenClaw là một "trợ lý AI cá nhân". Hiện nay, chúng ta đã có một thuật ngữ chung cho các loại trợ lý này, dựa trên NanoClaw và ZeroClaw, đó là Claws. Mac Mini bắt đầu bán hết ở Thung lũng Silicon, do người dùng mua chúng để chạy các Claw của họ. Drew Breunig đã nói đùa với tôi rằng điều này là do chúng là những thú cưng kỹ thuật số mới, và một chiếc Mac Mini là bể cá hoàn hảo cho Claw của bạn. Phép ẩn dụ yêu thích của tôi về Claws là Doc Ock của Alfred Molina trong bộ phim Spider-Man 2 năm 2004. Các xúc tu của ông được điều khiển bởi AI và hoàn toàn an toàn miễn là không có gì làm hỏng chip ức chế của ông. Sau đó, chúng trở nên độc ác và chiếm quyền kiểm soát. Cũng trong tháng 2: Gemini 3.1 Pro ra mắt và đã vẽ cho tôi một con bồ nông cưỡi xe đạp rất đẹp. Hãy nhìn xem! Nó thậm chí còn có một con cá trong giỏ. Và sau đó, Jeff Dean của Google đã đăng video này về một con bồ nông hoạt hình cưỡi xe đạp, cùng với một con ếch trên xe đạp penny-farthing, một con hươu cao cổ lái một chiếc ô tô nhỏ, một con đà điểu đi giày trượt patin, một con rùa trượt ván kickflip và một con chó dachshund lái một chiếc limousine kéo dài. Có lẽ các phòng thí nghiệm AI đã chú ý đến điều này! Rất nhiều điều đã xảy ra chỉ trong tháng trước. Google đã phát hành dòng mô hình Gemma 4, đây là những mô hình mã nguồn mở có khả năng nhất mà tôi từng thấy từ một công ty Hoa Kỳ. Cũng trong tháng trước, phòng thí nghiệm AI Trung Quốc GLM đã ra mắt GLM-5.1—một mô hình mã nguồn mở khổng lồ 1,5TB! Đây là một mô hình rất hiệu quả... nếu bạn có đủ phần cứng để chạy nó. GLM-5.1 đã vẽ cho tôi một con bồ nông trên xe đạp rất thành thạo. ... mặc dù khi nó cố gắng tạo hoạt ảnh, chiếc xe đạp đã bật lên phía trên và bị biến dạng. Charles trên Bluesky đã gợi ý tôi thử nó với một con Opossum Bắc Virginia trên một chiếc xe điện. Và nó đã làm được điều này! Tôi đã thử điều này trên các mô hình khác và chúng không thể sánh bằng. Câu "Cruising the commonwealth since dusk" (Lướt qua khối thịnh vượng chung từ hoàng hôn) là hoàn hảo. Nó cũng được tạo hoạt ảnh. Các mô hình mã nguồn mở thú vị khác của Trung Quốc trong tháng 4 đến từ Qwen. Qwen3.6-35B-A3B trên máy tính xách tay của tôi đã vẽ cho tôi một con bồ nông đẹp hơn Claude Opus 4.7. Đó là một mô hình mã nguồn mở 20,9GB.