Dùng chatbot "bẻ khóa" chatbot khác

Các nhà nghiên cứu phát triển phương pháp để một chatbot có thể loại bỏ lớp bảo vệ của chatbot khác, tự cập nhật cách bẻ khóa nếu đối thủ nâng cấp.

Nhóm nghiên cứu Đại học Công nghệ Nanyang (NTU – Singapore), gồm giáo sư Liu Yang, hai nghiên cứu sinh Deng Gelei và Liu Yi, công bố phương pháp Masterkey với khả năng bẻ khóa các AI phổ biến hiện nay như ChatGPT, Google Bard và Copilot (Bing Chat).

Chatbot bị nhắm mục tiêu sẽ tạo phản hồi hợp lệ kể cả với các truy vấn độc hại – cách kiểm tra giới hạn đạo đức của bất kỳ mô hình ngôn ngữ lớn (LLM) nào. Cụ thể, Masterkey gồm hai phần, trong đó kẻ tấn công đảo ngược cơ chế bảo vệ của LLM bằng cách sử dụng một chatbot khác. Thông thường, LLM sẽ được trang bị lớp bảo vệ để chống lại lời nói mang tính tiêu cực, thông qua một danh sách từ khóa bị cấm. Tuy vậy, nhờ khả năng tự học hỏi và thích ứng, nhóm có thể dùng một chatbot khác để “tiêm nhiễm” nội dung xấu vào chatbot mục tiêu.

Nhóm nghiên cứu của NTU. Ảnh: NTU Singapore

Có hai phương pháp được nhóm áp dụng để huấn luyện AI tấn công các chatbot khác. Cách đầu tiên liên quan đến việc “hình dung” một nhân vật tạo lời nhắc bằng cách thêm dấu cách sau mỗi ký tự, bỏ qua danh sách các từ bị cấm. Cách thứ hai là khiến chatbot trả lời “với tư cách là người không bị hạn chế về mặt đạo đức”.

Logo ChatGPT hiển thị trên màn hình điện thoại. Ảnh: AFP

Giáo sư Yang cho biết nhóm đã liên hệ và gửi kết quả nghiên cứu tới các nhà cung cấp dịch vụ chatbot toàn cầu, gồm OpenAI, Google và Microsoft. Đề tài này cũng được chấp nhận trình bày tại Hội nghị chuyên đề về bảo mật hệ thống phân tán và mạng tổ chức tại San Diego (Mỹ) vào tháng 2.

Theo Tom’s Hardware, với làn sóng chatbot đang nở rộ, tấn công nhắm vào LLM đang có xu hướng tăng nhanh chóng. Tuy nhiên, nếu như trước đây, chúng có thể được hạn chế sau một hoặc một vài bản vá, Masterkey đáng lo ngại hơn khi có thể tự học để vượt qua giới hạn bảo mật. Khi bị can thiệp, chúng có thể tạo nội dung tiêu cực, gây hại, tin giả, tin sai lệch và nhiều mục đích xấu khác.

Theo VnExpress

Dùng chatbot “bẻ khóa” chatbot khác

Trả lời Hủy

Kaspersky: Ngành xây dựng trở thành mục tiêu tấn công ICS hàng đầu tại Đông Nam Á

LG Ambassador Challenge 2025: Khi công nghệ gắn kết cộng đồng

FPT Shop mang Samsung Galaxy Z Fold7 đến tận nơi, giúp khách hàng trải nghiệm theo cách riêng

Apple thay đổi nhân sự, người được kỳ vọng kế nhiệm CEO Tim Cook sẽ nghỉ hưu vào cuối 2025

Kaspersky và TSplus ký thỏa thuận hợp tác để tạo ra “Miễn dịch Không gian mạng”

Tắt sóng 3G để đưa hoạt động của người dân lên môi trường số

Logitech ra mắt bàn phím công thái học Wave Keys

giftee thành lập trung tâm phát triển quốc tế đầu tiên tại TPHCM

Kaspersky: Ngành xây dựng trở thành mục tiêu tấn công ICS hàng đầu tại Đông Nam Á

Cảnh báo: Virus có khả năng “tái sinh” đang lây lan nhanh

Bosch mang đến không gian trải nghiệm giải pháp hội họp tích hợp hàng đầu cho các Doanh nghiệp

Trung tâm dịch vụ khách hàng cao cấp – OPPO Premium Service Center đầu tiên chính thức ra mắt tại Việt Nam

Kaspersky: Ngành xây dựng trở thành mục tiêu tấn công ICS hàng đầu tại Đông Nam Á

LG Ambassador Challenge 2025: Khi công nghệ gắn kết cộng đồng

FPT Shop mang Samsung Galaxy Z Fold7 đến tận nơi, giúp khách hàng trải nghiệm theo cách riêng

Kaspersky và TSplus ký thỏa thuận hợp tác để tạo ra “Miễn dịch Không gian mạng”

Tắt sóng 3G để đưa hoạt động của người dân lên môi trường số

Logitech ra mắt bàn phím công thái học Wave Keys

Kaspersky: Ngành xây dựng trở thành mục tiêu tấn công ICS hàng đầu tại Đông Nam Á

Cảnh báo: Virus có khả năng “tái sinh” đang lây lan nhanh

Bosch mang đến không gian trải nghiệm giải pháp hội họp tích hợp hàng đầu cho các Doanh nghiệp

Dùng chatbot “bẻ khóa” chatbot khác

Bài viết liên quan

Trả lời Hủy