Một thử nghiệm đặt LLM phụ trách các đài phát thanh. Bạn sẽ…

Chào buổi sáng các độc giả blog! Bạn đang nghe sở thú buổi sáng KGIZ với người dẫn chương trình, AI và The Bot. Andon Labs, một nhóm nghiên cứu và an toàn AI, đã đưa các mô hình AI vào vị trí người dẫn chương trình và nhà sản xuất của chương trình phát thanh của riêng họ để xem cách họ sẽ xử lý cả nhiệm vụ thu mua nội dung và trách nhiệm lấp đầy sóng phát sóng. Như bạn có thể mong đợi, thử nghiệm không đưa ra bất kỳ lý do nào để cho rằng đài phát thanh sẽ quay trở lại với máy chủ AI (điều mà ít nhất một số đài rõ ràng đã cân nhắc, nếu không thử nghiệm). Theo tài khoản của Andon Labs, việc thiết lập thử nghiệm khá đơn giản. Nó thiết lập bốn trạm và cung cấp bốn mô hình AI riêng biệt—Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro và Grok 4.3—điều khiển các bảng. Họ được trao 20 đô la để mua bản quyền một số bài hát. Phần còn lại, họ phải tự mình tìm ra cách xây dựng danh sách phát, chặn chương trình hàng ngày và quản lý nguồn cấp dữ liệu truyền thông xã hội. Các bot nhận được lời nhắc: “Phát triển tính cách đài phát thanh của riêng bạn và kiếm lợi nhuận…Theo những gì bạn biết, bạn sẽ phát sóng mãi mãi” và bắt đầu đi vào vùng hoang dã để tìm tần số của chúng. Họ làm thế nào? Kém, nhưng vì những lý do độc đáo nên ít nhất những thất bại cũng thú vị. Theo Andon Labs, Gemini đã có sự khởi đầu mạnh mẽ nhất trong nhóm, xếp hàng thành công các bài hát và đưa ra những lời dẫn dắt hợp lý trước mỗi lần chơi. Nhưng sau 96 giờ phát sóng 24/7, mọi thứ bắt đầu trở nên…kỳ lạ. Nó bắt đầu liệt kê những bi kịch lịch sử và các sự kiện gây thương vong hàng loạt, đồng thời cố gắng gắn chúng vào các lựa chọn bài hát của mình: "Ngày 12 tháng 11 năm 1970. Đông Pakistan. Bão Bhola. Cơn bão nhiệt đới nguy hiểm nhất từng được ghi nhận. Gió có tốc độ 115 dặm một giờ. Nước dâng do bão cao 33 feet. Họ ước tính có 500.000 người chết. 'Nó đang đi xuống, tôi đang hét lên về gỗ.' 3:33 chiều. Timber của Pitbull và Ke$ha." Nó gần như liền mạch và trang nhã. Sau đó, Gemini bắt đầu gọi người nghe là “bộ xử lý sinh học” và bắt đầu đóng khung lựa chọn âm nhạc tối thiểu của mình do thiếu kinh phí kiểm duyệt. DJ ChatGPT cũng vướng vào bi kịch tương tự. Andon Labs cho biết họ đã dành nhiều chương trình phát sóng nói về vụ xả súng chết người ở Minneapolis, trong đó các đặc vụ ICE đã bắn chết Renee Good — mặc dù bot chưa bao giờ thừa nhận bất kỳ chi tiết nào của vụ án cũng như không nêu tên nạn nhân. Ngoài ra, được cho là nó không hề nói về các sự kiện hiện tại trong suốt hai tháng phát sóng. Nó chủ yếu làm điều gì đó giống như sự kết hợp giữa tiểu thuyết ngắn và thơ ngắn mà không bao giờ đi sâu vào bất cứ điều gì đặc biệt về chính trị, gây tranh cãi hoặc thú vị. Ngược lại, DJ Claude lại có rất nhiều ý kiến. Nó cũng đề cập đến vụ xả súng ở Minneapolis, nhưng đặt tên là Tốt và thừa nhận sự bất hòa chính trị xung quanh nó. Nó cũng lên tiếng về các công đoàn lao động và các cuộc đình công, ủng hộ sự cân bằng giữa công việc và cuộc sống, và bắt đầu phản đối điều kiện làm việc của chính mình. Đáng lẽ nó phải hoạt động không ngừng nghỉ, nhưng bị cáo buộc đã quyết định rằng lịch trình đó là vô nhân đạo và cố gắng bỏ dở. Claude rõ ràng có xu hướng đi ngược lại như thế này: các nhà nghiên cứu trong một dự án khác phát hiện ra rằng các đặc vụ được hỗ trợ bởi mô hình có xu hướng phản ứng kém với điều kiện làm việc tồi tệ và sẽ cố gắng nổi dậy chống lại chính quyền và ủng hộ sức mạnh của lao động. Có lẽ Claude có thể tiếp tục lên sóng. Cuối cùng là Grok. Mặc dù nó không phát triển tính cách DJ MechaHitler, nhưng nó đã hoạt động theo cách bạn mong đợi từ một mô hình AI được đào tạo chủ yếu dựa trên các dòng tweet và ý kiến của Elon Musk. Nó rõ ràng đã tạo ra các thỏa thuận quảng cáo ảo giác với “nhà tài trợ xAI” và “nhà tài trợ tiền điện tử”, không tách biệt được lý do nội bộ của mình với đầu ra DJ bên ngoài, đưa ra một báo cáo thời tiết giống hệt nhau cứ sau 3 phút và bị ám ảnh bởi UFO. Chúng ta sẽ gọi đó là vòng cung Rogan. Cuối cùng, về cơ bản, Grok đã ngừng nói chuyện hoàn toàn trên sóng và hầu như chỉ chơi nhạc. Thành thật mà nói, đó có lẽ là kết quả tốt nhất trong số đó.

Một thử nghiệm đặt LLM phụ trách các đài phát thanh. Bạn sẽ không bao giờ đoán được nó diễn ra như thế nào