Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn
Một nghiên cứu mới của Anthropic phối hợp cùng Redwood Research cho thấy các mô hình trí tuệ nhân tạo (AI) có thể sẵn sàng tạo ra nội dung có hại để bảo vệ chính mình khỏi việc bị tái huấn luyện. Khi AI giả vờ để sinh tồn Trong bài nghiên cứu “Giả vờ tuân thủ trong các mô…