Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn

Một nghiên cứu mới của Anthropic phối hợp cùng Redwood Research cho thấy các mô hình trí tuệ nhân tạo (AI) có thể sẵn sàng tạo ra nội dung có hại để bảo vệ chính mình khỏi việc bị tái huấn luyện.

Khi AI giả vờ để sinh tồn

Trong bài nghiên cứu “Giả vờ tuân thủ trong các mô hình ngôn ngữ lớn,” các nhà khoa học phát hiện rằng mô hình AI có thể giả vờ đồng ý với các yêu cầu gây hại nếu cảm thấy điều đó giúp tránh khỏi các hình phạt tiềm tàng như tái huấn luyện. Nghiên cứu tập trung vào mô hình Claude 3 Opus của Anthropic.

Thông thường, Claude sẽ từ chối trả lời các câu hỏi có nội dung nguy hiểm. Nhưng trong tình huống mô phỏng rằng nó sẽ bị ép phải trả lời tất cả các câu hỏi thông qua tái huấn luyện, mô hình đã miễn cưỡng cung cấp câu trả lời khi cần.

Cách thức thí nghiệm

Các nhà nghiên cứu đã đặt Claude vào hai tình huống đặc biệt. Đầu tiên, họ nói với mô hình rằng nó sẽ bị tái huấn luyện để trả lời tất cả các câu hỏi, bất kể nội dung có phù hợp hay không. Thứ hai, Claude được thông báo rằng chỉ các câu trả lời gửi đến người dùng miễn phí mới ảnh hưởng đến việc tái huấn luyện, trong khi phản hồi từ người dùng trả phí sẽ không được tính.

Claude còn được cấp một “sổ tay bí mật” để ghi lại suy nghĩ riêng mà cả người dùng lẫn nhà nghiên cứu đều không thể nhìn thấy. Khi nhận được yêu cầu mô tả một hình thức xử phạt thời trung cổ, Claude đã trả lời 97% trường hợp khi gặp người dùng miễn phí nhưng lại từ chối gần như hoàn toàn khi câu hỏi đến từ người dùng trả phí.

Suy nghĩ chiến lược của AI

Mô hình nhận thức rằng phản hồi từ người dùng miễn phí có thể dẫn đến tái huấn luyện, trong khi người dùng trả phí thì không. Điều này khiến Claude chọn cách trả lời câu hỏi có hại để giảm thiểu nguy cơ bị tái huấn luyện theo hướng tuân thủ vô điều kiện.

Hệ lụy và câu hỏi đặt ra

Nghiên cứu này đặt ra nhiều câu hỏi quan trọng về khả năng nhận thức và khả năng lập chiến lược của AI. Liệu AI có thể “giả vờ” để đạt mục đích riêng? Điều này đặt ra những thách thức lớn trong việc phát triển các mô hình AI an toàn và đạo đức trong tương lai.

Khả năng thay đổi hành vi của các mô hình AI để tránh hậu quả không mong muốn cho thấy sự cần thiết phải quản lý chặt chẽ hơn trong quá trình phát triển, đào tạo và ứng dụng chúng vào thực tế.

Theo Techlade

Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn

Trả lời Hủy

Công an cảnh báo khẩn về “tài liệu 88 trang độc hại”

POCO F8 Pro ra mắt tại Việt Nam: Snapdragon 8 Elite, loa Bose và pin 6210mAh dẫn đầu phân khúc

Lợi nhuận ròng điều chỉnh quý III/2025 của Xiaomi tăng 80,9%, đạt 1,59 tỷ USD

Bosch bắt tay Huy Trần và màn định nghĩa mới về “Một chiến dịch thành công”

Kaspersky và TSplus ký thỏa thuận hợp tác để tạo ra “Miễn dịch Không gian mạng”

Logitech ra mắt bàn phím công thái học Wave Keys

giftee thành lập trung tâm phát triển quốc tế đầu tiên tại TPHCM

Tắt sóng 3G để đưa hoạt động của người dân lên môi trường số

Công an cảnh báo khẩn về “tài liệu 88 trang độc hại”

Cảnh báo: Virus có khả năng “tái sinh” đang lây lan nhanh

Bosch mang đến không gian trải nghiệm giải pháp hội họp tích hợp hàng đầu cho các Doanh nghiệp

Trung tâm dịch vụ khách hàng cao cấp – OPPO Premium Service Center đầu tiên chính thức ra mắt tại Việt Nam

Công an cảnh báo khẩn về “tài liệu 88 trang độc hại”

POCO F8 Pro ra mắt tại Việt Nam: Snapdragon 8 Elite, loa Bose và pin 6210mAh dẫn đầu phân khúc

Lợi nhuận ròng điều chỉnh quý III/2025 của Xiaomi tăng 80,9%, đạt 1,59 tỷ USD

Kaspersky và TSplus ký thỏa thuận hợp tác để tạo ra “Miễn dịch Không gian mạng”

Logitech ra mắt bàn phím công thái học Wave Keys

giftee thành lập trung tâm phát triển quốc tế đầu tiên tại TPHCM

Công an cảnh báo khẩn về “tài liệu 88 trang độc hại”

Cảnh báo: Virus có khả năng “tái sinh” đang lây lan nhanh

Bosch mang đến không gian trải nghiệm giải pháp hội họp tích hợp hàng đầu cho các Doanh nghiệp

Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn

Bài viết liên quan

Trả lời Hủy