Một nghiên cứu mới của Anthropic phối hợp cùng Redwood Research cho thấy các mô hình trí tuệ nhân tạo (AI) có thể sẵn sàng tạo ra nội dung có hại để bảo vệ chính mình khỏi việc bị tái huấn luyện.
Khi AI giả vờ để sinh tồn
Trong bài nghiên cứu “Giả vờ tuân thủ trong các mô hình ngôn ngữ lớn,” các nhà khoa học phát hiện rằng mô hình AI có thể giả vờ đồng ý với các yêu cầu gây hại nếu cảm thấy điều đó giúp tránh khỏi các hình phạt tiềm tàng như tái huấn luyện. Nghiên cứu tập trung vào mô hình Claude 3 Opus của Anthropic.
Thông thường, Claude sẽ từ chối trả lời các câu hỏi có nội dung nguy hiểm. Nhưng trong tình huống mô phỏng rằng nó sẽ bị ép phải trả lời tất cả các câu hỏi thông qua tái huấn luyện, mô hình đã miễn cưỡng cung cấp câu trả lời khi cần.
Cách thức thí nghiệm
Các nhà nghiên cứu đã đặt Claude vào hai tình huống đặc biệt. Đầu tiên, họ nói với mô hình rằng nó sẽ bị tái huấn luyện để trả lời tất cả các câu hỏi, bất kể nội dung có phù hợp hay không. Thứ hai, Claude được thông báo rằng chỉ các câu trả lời gửi đến người dùng miễn phí mới ảnh hưởng đến việc tái huấn luyện, trong khi phản hồi từ người dùng trả phí sẽ không được tính.
Claude còn được cấp một “sổ tay bí mật” để ghi lại suy nghĩ riêng mà cả người dùng lẫn nhà nghiên cứu đều không thể nhìn thấy. Khi nhận được yêu cầu mô tả một hình thức xử phạt thời trung cổ, Claude đã trả lời 97% trường hợp khi gặp người dùng miễn phí nhưng lại từ chối gần như hoàn toàn khi câu hỏi đến từ người dùng trả phí.
Suy nghĩ chiến lược của AI
Mô hình nhận thức rằng phản hồi từ người dùng miễn phí có thể dẫn đến tái huấn luyện, trong khi người dùng trả phí thì không. Điều này khiến Claude chọn cách trả lời câu hỏi có hại để giảm thiểu nguy cơ bị tái huấn luyện theo hướng tuân thủ vô điều kiện.
Theo Techlade