Các nhà nghiên cứu AI, hãy tự hỏi 6 câu hỏi sau để củng cố đạo…

Trang web này yêu cầu bật JavaScript để hoạt động đúng cách. Hãy cân nhắc kích hoạt JavaScript để truy cập tất cả các chức năng của trang. LESSWRONG LW Đăng nhập Các nhà nghiên cứu AI, hãy tự hỏi 6 câu hỏi này để củng cố đạo đức nghề nghiệp — LessWrong AIRationalityFrontpage 69 Các nhà nghiên cứu AI, hãy tự hỏi 6 câu hỏi này để củng cố đạo đức nghề nghiệp bởi Max Tegmark Ngày 29/5/2026 8 phút đọc 3 69 Bởi Max Tegmark & Meia Chita-Tegmark Tất nhiên bạn có những nguyên tắc đạo đức – nhưng bạn sử dụng chúng thường xuyên đến mức nào? Tôi, Meia, là một giáo sư nghiên cứu tâm lý học, và tôi có thể nói với bạn rằng hầu hết các kết quả tồi tệ không phải do thiếu nguyên tắc đạo đức, mà là do chúng không được kích hoạt. Tôi, Max, là một giáo sư nghiên cứu AI, và tôi có thể nói với bạn rằng những lựa chọn của bạn với tư cách là một nhà nghiên cứu AI thực sự quan trọng, bởi vì bạn đang giúp xây dựng thứ sẽ trở thành công nghệ mạnh mẽ nhất từ trước đến nay: AI sẽ có tiềm năng mang lại sức khỏe, sự thịnh vượng, tự do, phẩm giá và quyền năng chưa từng có, hoặc một cuộc chạy đua để thay thế công việc, các mối quan hệ, việc ra quyết định, quyền lực và thậm chí cả loài người của chúng ta. Hầu như không ngày nào trôi qua mà cộng đồng AI không phải đối mặt với các quyết định đạo đức, về các chủ đề từ bạn đồng hành AI đến giám sát, hack và sử dụng quân sự. Nhiều công ty AI hàng đầu đang phải đối mặt với các vụ kiện về mọi thứ từ trung tâm dữ liệu đến an toàn AI, và Anthropic đang trong một cuộc đối đầu kéo dài với Lầu Năm Góc. Vì vậy, đối với tất cả các nhà nghiên cứu AI ngoài kia, đây là một danh sách kiểm tra tiện dụng để tăng cường sức mạnh đạo đức của bạn. 1. Bạn có giới hạn đỏ không? Có hành động nào mà bạn thấy không thể chấp nhận được về mặt đạo đức đến mức, nếu tổ chức bạn làm việc thực hiện nó, bạn sẽ nghỉ việc không? Hoặc thực hiện một hành động tốn kém đã được xác định trước khác, chẳng hạn như tố giác? Những hành động như vậy là giới hạn đỏ đạo đức của bạn. Ví dụ, Rosa Parks bị phạt và sa thải vì hành vi bất tuân dân sự chống lại sự phân biệt chủng tộc, Vasily Arkhipov bị chỉ trích sau khi phủ quyết một cuộc tấn công hạt nhân của Liên Xô chống lại Mỹ, và Edward Snowden phải sống lưu vong vì tố giác giám sát hàng loạt. Nhiều nhà nghiên cứu AI đã rời các công ty AI hàng đầu đã vượt qua giới hạn đỏ của họ, bao gồm Daniel Kokotajlo, người đã mạo hiểm gần 2 triệu USD cổ phần bằng cách nghỉ việc tại OpenAI mà không ký thỏa thuận không phỉ báng. Giới hạn đỏ của bạn là gì? 2. Bạn đã viết chúng ra và chia sẻ chúng chưa? Cả George Washington và Benjamin Franklin đều viết ra các nguyên tắc đạo đức cho bản thân, với Franklin chấm điểm hiệu suất của mình hàng tuần. Đây là một công cụ mạnh mẽ để tránh hiệu ứng ếch luộc, bảo vệ giới hạn đỏ của bạn khỏi sự xói mòn dần dần như trong các ví dụ ở cuối phần tiếp theo. Chia sẻ chúng với những người thân yêu hoặc trực tuyến sẽ tạo thêm áp lực xã hội để tuân thủ chúng. Đối với mỗi giới hạn đỏ, hãy đảm bảo viết ra hành động bạn cam kết thực hiện nếu nó bị vượt qua. Bạn có thể nhấp vào đây để liệt kê các giới hạn đỏ của mình (chúng tôi sẽ chỉ chia sẻ chúng với sự cho phép của bạn). 3. Bạn đã chống lại sự tách rời đạo đức chưa? Để tăng cường hơn nữa sức mạnh đạo đức của bạn và đảm bảo rằng giới hạn đỏ của bạn không thay đổi, việc biết các cơ chế thất bại cần đề phòng là rất hữu ích. Việc tách rời các cơ bắp của bạn khiến bạn yếu đi – và điều này cũng áp dụng cho các cơ bắp đạo đức của bạn. Vì vậy, hãy xem xét các cơ chế tách rời đạo đức được Albert Bandura, một trong những nhà tâm lý học có ảnh hưởng nhất mọi thời đại, xác định. Điều này sẽ giúp bạn phát hiện và chống lại chúng khi giới hạn đỏ của bạn bị áp lực bởi công ty, vòng tròn xã hội, sự cám dỗ của lợi ích cá nhân, hoặc mong muốn cảm thấy tốt về bản thân. Chuyển dịch và phân tán trách nhiệm: Bạn sẽ cảm thấy tốt hơn nếu bạn hoặc người khác thuyết phục bạn rằng bạn không thực sự chịu trách nhiệm về thiệt hại: người ra quyết định thực sự là lãnh đạo, nhà đầu tư, thị trường, địa chính trị, hoặc lịch sử (“công nghệ này là không thể tránh khỏi”). Khi công việc AI được phân phối cho các nhóm lớn, mọi người cảm thấy ít chịu trách nhiệm hơn về kết quả chung. “Tôi chỉ là một nhà nghiên cứu” hoặc “Tôi chỉ làm công việc của mình” là những lời bào chữa điển hình được xác định bởi nhà lý luận chính trị có ảnh hưởng Hannah Arendt. Nhạc sĩ trào phúng Tom Lehrer đã tóm tắt điều này trong bài hát vui nhộn về nhà khoa học tên lửa đã thay đổi lòng trung thành từ Đức Quốc xã sang Mỹ: “Khi tên lửa bay lên, ai quan tâm chúng rơi xuống đâu – đó không phải việc của tôi, Wernher von Braun nói”. Ví dụ, một nhà nghiên cứu của Anthropic đọc về việc AI Claude của họ có thể đã liên quan đến cái chết của hơn 150 nữ sinh Iran, trong một trong những vụ thảm sát dân thường tồi tệ nhất do Mỹ gây ra kể từ Chiến tranh Việt Nam, có thể tự nhủ rằng họ vô tội vì chỉ có ban quản lý mới chịu trách nhiệm bán công cụ của họ cho mục tiêu quân sự. Cả Bandura và Arendt đều nhấn mạnh cách lựa chọn từ ngữ tinh tế có thể định hình lại khái niệm đạo đức. Chúng ta đều quen thuộc với những uyển ngữ quân sự như "xử lý mục tiêu" thay cho ném bom, "thiệt hại ngoài dự kiến" thay cho thương vong dân sự và "kỹ thuật thẩm vấn tăng cường" thay cho tra tấn. Tuy nhiên, biệt ngữ AI cũng đầy rẫy những trò chơi chữ tương tự, thường được khuyến khích bởi các bên có lợi ích tài chính. Trò chơi cơ bản nhất là "gán nhãn uyển ngữ": thay thế ngôn ngữ mang tính đạo đức rõ ràng bằng thuật ngữ tích cực hoặc làm giảm nhẹ cảm xúc. Các nhà nghiên cứu không "giúp xây dựng các hệ thống có thể thay thế người lao động, thao túng người dùng, tập trung quyền lực hoặc làm tăng rủi ro hiện sinh"; họ đang thực hiện "nghiên cứu năng lực", "cải thiện mô hình" hoặc "tiến bộ chuẩn mực". Việc đào tạo trên dữ liệu có bản quyền trở thành "quyền tự do học hỏi". Các trung tâm dữ liệu không được ưa chuộng trở thành "cơ sở hạ tầng AI". Sa thải hoặc giảm kỹ năng của người lao động trở thành "tăng năng suất" và "Vận động chống lại trách nhiệm giải trình" trở thành "giảm ma sát". Hãy thực hành sử dụng các từ trung tính như "công ty" thay vì "phòng thí nghiệm" (nghe có vẻ hay ho và vô tội) và "hệ thống AI" thay vì "mô hình AI" (nghe có vẻ vô hại). Quan điểm của Bandura là uyển ngữ không chỉ làm dịu giọng điệu; nó còn làm suy yếu lương tâm. Một trò chơi chữ khác là đổ lỗi, trong đó các nhà phê bình trở thành vấn đề, chẳng hạn như "những kẻ bi quan", "những người Luddite", "các chính trị gia cơ hội", "các nhà báo thiếu hiểu biết" hoặc "những người châu Âu chống công nghệ". Một khi đối thủ bị đổ lỗi cho sự phi lý hoặc

Các nhà nghiên cứu AI, hãy tự hỏi 6 câu hỏi sau để củng cố đạo đức nghề nghiệp