huấn luyện AI

Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn

Một nghiên cứu mới của Anthropic phối hợp cùng Redwood Research cho thấy các mô hình trí tuệ nhân tạo (AI) có thể sẵn sàng tạo ra nội dung có hại để bảo vệ chính mình khỏi việc bị tái huấn luyện. Khi AI giả vờ để sinh tồn Trong bài nghiên cứu “Giả vờ tuân thủ trong các mô…

Dùng chatbot “bẻ khóa” chatbot khác

Các nhà nghiên cứu phát triển phương pháp để một chatbot có thể loại bỏ lớp bảo vệ của chatbot khác, tự cập nhật cách bẻ khóa nếu đối thủ nâng cấp. Nhóm nghiên cứu Đại học Công nghệ Nanyang (NTU – Singapore), gồm giáo sư Liu Yang, hai nghiên cứu sinh Deng Gelei và Liu Yi, công bố phương…