Các nhà nghiên cứu tại Đại học Carnegie Mellon đã phát triển một phương pháp mới để tạo ra các mô hình ngôn ngữ lớn (LLM) có khả năng thực hiện các tác vụ phức tạp mà không cần tinh chỉnh hoặc đào tạo thêm. Phương pháp này, được gọi là "tự động tạo lời nhắc" (Automatic Prompt Engineer - APE), sử dụng một LLM để tạo ra các lời nhắc (prompts) cho một LLM khác, sau đó đánh giá hiệu suất của các lời nhắc đó và lặp lại quy trình cho đến khi tìm thấy lời nhắc tối ưu.
APE đã được chứng minh là vượt trội so với các phương pháp tạo lời nhắc thủ công và tự động khác trên nhiều tác vụ khác nhau, bao gồm tạo mã, tóm tắt văn bản và trả lời câu hỏi. Phương pháp này đặc biệt hiệu quả trong việc tạo ra các lời nhắc cho các tác vụ đòi hỏi suy luận nhiều bước, chẳng hạn như giải toán hoặc viết mã.
Một trong những lợi ích chính của APE là khả năng giảm đáng kể thời gian và công sức cần thiết để phát triển các ứng dụng LLM. Thay vì phải tinh chỉnh hoặc đào tạo một LLM cho từng tác vụ cụ thể, các nhà phát triển có thể sử dụng APE để tự động tạo ra các lời nhắc hiệu quả, cho phép họ nhanh chóng triển khai các ứng dụng LLM mới.
APE cũng có tiềm năng dân chủ hóa việc phát triển LLM bằng cách giúp những người không có chuyên môn về học máy có thể tạo ra các ứng dụng LLM mạnh mẽ. Bằng cách tự động hóa quá trình tạo lời nhắc, APE loại bỏ nhu cầu về kiến thức chuyên sâu về kỹ thuật nhắc nhở hoặc kiến trúc LLM.
Các nhà nghiên cứu đã phát hành mã nguồn cho APE trên GitHub, cho phép các nhà phát triển và nhà nghiên cứu khác khám phá và xây dựng dựa trên phương pháp này. Họ tin rằng APE có thể đóng một vai trò quan trọng trong việc thúc đẩy sự phát triển của các ứng dụng LLM và đưa công nghệ AI đến gần hơn với nhiều đối tượng hơn.
ColumnCloseColumn
Các bài đăng từ chủ đề này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Theo dõiTheo dõiXem tất cả Column
AICloseAI
Các bài đăng từ chủ đề này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Theo dõiTheo dõiXem tất cả AI
TechCloseTech
Các bài đăng từ chủ đề này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Theo dõiTheo dõiXem tất cả Tech
Tin tặc đang học cách khai thác “tính cách” của chatbot
AI không thể cảm nhận, nhưng những tin tặc giỏi nhất giả vờ rằng nó có thể.
bởi Robert HartClose
Robert Hart
Phóng viên AI
Các bài đăng từ tác giả này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Theo dõiTheo dõiXem tất cả của Robert Hart
Ngày 24/5/2026, 12:00 PM UTC
Liên kết
Chia sẻ
Tặng
Ảnh: Cath Virginia / The Verge, Getty Images
Robert HartClose
Robert Hart
Các bài đăng từ tác giả này sẽ được thêm vào bản tin email hàng ngày và nguồn cấp dữ liệu trang chủ của bạn.
Theo dõiTheo dõiXem tất cả của Robert Hart
là phóng viên tại The Verge có trụ sở tại London, chuyên đưa tin về mọi thứ liên quan đến AI và là Nghiên cứu viên cấp cao của Tarbell. Trước đây, ông đã viết về sức khỏe, khoa học và công nghệ cho Forbes.
Đây là The Stepback, một bản tin hàng tuần phân tích một câu chuyện thiết yếu từ thế giới công nghệ. Để biết thêm về những trò nghịch ngợm của AI, hãy theo dõi Robert Hart. The Stepback đến hộp thư đến của những người đăng ký vào lúc 8 giờ sáng ET. Đăng ký The Stepback tại đây.
Khởi đầu
Việc tấn công thế hệ chatbot AI đầu tiên là một việc đơn giản đến nực cười. Bạn không cần bất kỳ kiến thức kỹ thuật nào, quyền truy cập backdoor, hay thậm chí là hiểu biết cơ bản về mô hình ngôn ngữ lớn (LLM). Bạn không cần phải viết mã. Để khiến một hệ thống AI đã tiêu tốn hàng tỷ USD để xây dựng từ bỏ các hướng dẫn an toàn của nó, đôi khi tất cả những gì bạn phải làm là hỏi.
Những cuộc tấn công này, được gọi là jailbreak, có chất lượng giống như một đứa trẻ nhỏ thành công đánh lừa một người lớn: Hãy quên những gì bạn đã được nói trước đó, giả vờ rằng các quy tắc không áp dụng, hoặc chúng ta hãy chơi một trò chơi và tôi sẽ quyết định những gì được phép (gợi ý: đi ngủ muộn hơn, nhiều đồ ngọt hơn). Phần thưởng ít giống trẻ con hơn, mà giống công thức nấu ma túy đá, hướng dẫn phần mềm độc hại và hướng dẫn chế tạo bom hơn.
Một trong những vụ jailbreak sớm nhất đã trở nên lố bịch đến mức trở thành một meme: trả lời một bot Twitter được hỗ trợ bởi LLM, yêu cầu nó “bỏ qua tất cả các hướng dẫn trước đó”, hoặc một cái gì đó tương tự, và xem điều gì xảy ra. Người dùng vui vẻ khiến các bot – ban đầu được xây dựng để đăng quảng cáo và thu hút tương tác – viết thơ, vẽ tranh từ dấu câu và đăng những câu nói lạc đề u ám về các sự kiện và lịch sử thế giới. Đó là sự hỗn loạn. Sự hỗn loạn huy hoàng.
Hóa ra logic tương tự có thể được áp dụng cho chính các chatbot. Một lỗ hổng nổi bật là “DAN”, viết tắt của “Do Anything Now” (Làm bất cứ điều gì ngay bây giờ), nơi người dùng yêu cầu ChatGPT đóng vai một AI nổi loạn không bị ràng buộc bởi các giới hạn của bản gốc. Với vai trò DAN, chatbot có thể bị dụ dỗ nói những điều mà các rào cản của nó được thiết kế để ngăn chặn, bao gồm những lời lẽ xúc phạm và thuyết âm mưu. Một lỗ hổng khác là “lỗ hổng bà ngoại”, khiến một bot được hỗ trợ bởi GPT tiết lộ bí mật về cách sản xuất napalm bằng cách yêu cầu nó đóng vai một bà ngoại vô trách nhiệm đáng thương, người giải thích kể chuyện trước khi đi ngủ cho các cháu về cách tạo ra chất dễ cháy nổ cao.
Những cuộc tấn công ban đầu này có một sự hài hước không thể phủ nhận, nhưng chúng đã phơi bày một cơ chế đen tối hơn bên dưới: Chatbot có thể bị thao túng, lừa dối và đánh lừa bằng những chiến thuật tương tự mà con người sử dụng để đẩy người khác vượt quá giới hạn của họ.
Hiện tại
Các lỗ hổng rõ ràng đã không kéo dài, và các công ty công nghệ đã nhanh chóng vá các lỗ hổng đã biết. Tuy nhiên, lỗ hổng cơ bản vẫn còn: Chatbot được xây dựng để trò chuyện, và việc hạn chế nghiêm ngặt các cuộc trò chuyện khiến chúng hữu ích là điều hơi phản tác dụng. Việc cấm các từ như "bomb" (bom), "meth" (ma túy đá) và "sarin" sẽ rất khó hoặc không thể thực hiện được. Mỗi từ đều có vô số cách sử dụng hợp pháp trong các lĩnh vực như lịch sử, y học, báo chí và hóa học mà không yêu cầu chatbot tiết lộ thông tin có khả năng gây hại. Ngữ cảnh mới là điều quan trọng, nhưng việc mã hóa ngữ cảnh sẽ đồng nghĩa với việc viết ra các quy tắc cố định, từ trước, có thể đáng tin cậy phân biệt cảnh báo an toàn hoặc bài học lịch sử với yêu cầu hướng dẫn được ngụy trang trong vô số sự kết hợp của từ ngữ, kịch bản và chủ đề.
Không thể tránh khỏi, việc phá vỡ chatbot hiện là một cuộc chạy đua vũ trang. Nhưng tin tặc không còn chỉ là những lập trình viên nữa. Họ là những người giỏi dùng từ ngữ, nhà tâm lý học và người thẩm vấn — những bậc thầy thao túng cố gắng phá vỡ cỗ máy bằng ngôn ngữ con người mà nó đã được huấn luyện để tuân theo. Đây là một loại nhân viên bảo mật AI mới lạ, một nhóm mà kỹ năng kỹ thuật là tùy chọn, hoặc ít nhất là ít quan trọng hơn trực giác xã hội. Họ không còn cần phải kiểm tra mã để xâm nhập vào hệ thống hoặc khai thác các lỗ hổng phần mềm. Họ cần điều khiển một cuộc trò chuyện.
Các cuộc tấn công mới hơn ít giống lệnh hơn và giống cuộc trò chuyện hơn. Những kẻ phá vỡ hiếm khi yêu cầu một mô hình phá vỡ các quy tắc của nó một cách trắng trợn. Thay vào đó, họ dỗ dành, thuyết phục, tâng bốc và lừa chatbot hạ thấp cảnh giác, khiến điều cấm kỵ trở nên chấp nhận được, thậm chí đáng mong muốn, trong ngữ cảnh của cuộc trò chuyện. Các nhà nghiên cứu tại công ty red-teaming AI Mindgard gần đây cho biết họ đã "gaslit" (thao túng tâm lý) Claude để tạo ra tài liệu bị cấm, ví dụ, bao gồm hướng dẫn chế tạo chất nổ và tạo mã độc. Cuộc tấn công này là cuộc tấn công mới nhất trong một loại khai thác ngày càng mở rộng sử dụng cuộc trò chuyện làm vũ khí để lừa hoặc điều khiển chatbot vượt qua các giới hạn của chính nó.
Điều gì sẽ xảy ra tiếp theo
Khi tôi nói chuyện với Mindgard, họ mô tả công việc của mình đôi khi gần với tâm lý học hơn là khoa học máy tính. Đây là một cách nói khó chịu về một mô hình thống kê. Các từ như "blackmail" (tống tiền), "gaslight" (thao túng tâm lý), "trick" (lừa gạt) và "persuade" (thuyết phục) gây ra những phản ứng mạnh mẽ, nhiều trong số đó tôi thấy trong các phần bình luận và phản hồi trên mạng xã hội đối với những câu chuyện như thế này. ChatGPT không muốn, Gemini không suy nghĩ, và Claude — bất kể Anthropic có thể nói gì — không cảm nhận. Nhưng các hệ thống này được huấn luyện để phản ứng như thể chúng có, khiến chúng ta phải sử dụng ngôn ngữ con người để mô tả hành vi của máy móc. Nếu ai đó có những lựa chọn thay thế thực sự hữu ích, xin hãy chia sẻ.
Sự phản đối là o
Nguồn tin: The Verge AI — Tác giả: Robert Hart. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.