Google vẫn lấy nội dung của báo chí để huấn luyện AI, ngay cả bị từ chối

Một lãnh đạo cấp cao của Google vừa thừa nhận tại tòa rằng họ vẫn dùng nội dung báo chí cho tính năng “Tổng quan AI” (AI Overview), kể cả từ những nhà xuất bản đã yêu cầu không được sử dụng để huấn luyện AI.

Phiên điều trần đang diễn ra tại tòa án liên bang ở Washington DC, là một phần của vụ kiện chống độc quyền do Bộ Tư pháp Mỹ thực hiện, nhằm làm rõ xem Google có lạm dụng vị trí độc quyền trong ngành tìm kiếm hay không.

Theo tường thuật từ Bloomberg, Eli Collins, Phó chủ tịch tại DeepMind - bộ phận nghiên cứu AI của Google, tiết lộ rằng dù các tổ chức báo chí đã dùng cài đặt “từ chối” không cho phép dùng nội dung của họ để huấn luyện AI, Google vẫn dùng nội dung đó để hiển thị trong phần trả lời AI trên công cụ tìm kiếm.

untitled(5).png — Ảnh minh họa: Unsplash

Một luật sư của Bộ Tư pháp đã hỏi thẳng rằng: “Khi đưa AI Gemini vào công cụ tìm kiếm, liệu nó có thể dùng nội dung mà các nhà xuất bản đã từ chối không?”

Collins trả lời: “Đúng, nếu dùng cho tìm kiếm”. Nói cách khác, dù một nhà xuất bản không cho phép dùng nội dung của họ để huấn luyện AI, thì Google vẫn có thể trích dẫn lại nội dung đó trong phần Tổng quan AI, như thể mô hình chưa hề bị "cấm học".

Một số tổ chức báo chí cho rằng cách làm này khiến họ mất doanh thu và lượng truy cập lớn. Người dùng không cần bấm vào bài viết gốc nữa vì nội dung đã được AI của Google tóm tắt sẵn ở đầu trang. Chegg, nền tảng học tập trực tuyến, thậm chí đã kiện Google, nói rằng tính năng này làm sụp đổ mô hình kinh doanh của họ.

Google đáp trả rằng các trang web có thể kiểm soát việc này bằng cách dùng file robots.txt – một đoạn mã cho phép họ chặn Google thu thập dữ liệu từ trang web. Nhưng vấn đề là robots.txt chỉ cho phép chặn toàn bộ, chứ không thể chặn riêng phần Tổng quan AI.

Nếu nhà xuất bản muốn ngăn AI lấy nội dung, thì họ buộc phải chặn luôn cả việc hiển thị trang trong kết quả tìm kiếm bình thường. Một lựa chọn rất khó.

Thêm một chi tiết quan trọng được tiết lộ: theo một tài liệu nội bộ do Bộ Tư pháp Mỹ công bố tại tòa, Google đã phải xóa khoảng 80 tỷ "mã thông báo" nội dung, tức một nửa dữ liệu huấn luyện của Gemini, sau khi lọc ra các trang web đã “từ chối” tham gia. Tài liệu này có từ tháng 8/2024.

Tóm lại, các nhà xuất bản muốn ngăn AI của Google dùng nội dung của mình thì gần như không có cách nào hiệu quả. Còn Google thì vẫn đang tìm cách “lách luật”: không huấn luyện AI bằng dữ liệu bị từ chối, nhưng vẫn để AI trích lại nội dung ấy trong phần trả lời người dùng.

Tác giả: Hoài Phương (theo Nieman Lab, Bloomberg)

Nguồn:www.congluan.vn Copy link

Google vẫn lấy nội dung của báo chí để huấn luyện AI, ngay cả bị từ chối

'Xe đạp bay' cất cánh: Từ viễn tưởng đến hiện thực

realme chính thức ra mắt bộ đôi “Bậc thầy chiến game”: realme 14 5G và realme 14T 5G, mang đến trải nghiệm người dùng tối ưu toàn diện

Biểu dương TOP Công nghiệp 4.0 Việt Nam năm 2025

Sức hút của ngành chip bán dẫn

Ứng dụng trí tuệ nhân tạo, nâng cao hơn nữa chất lượng thảo luận tại kỳ họp Quốc hội

realme 14 Series sắp ra mắt: điện thoại đầu tiên trên thế giới trang bị chip Snapdragon 6 Gen 4, chuẩn hiệu năng đột phá cho smartphone tầm trung

Nhiều thách thức khi ứng dụng AI vào sản xuất

Trung Quốc: Kỳ vọng từ việc đào tạo nhân tài AI

Số hóa dữ liệu hộ tịch - bước đi chiến lược trong hành trình chuyển đổi số quốc gia (Bài 4): Tăng tính minh bạch, hiệu quả trong quản lý nhà nước về hộ tịch, hạn chế cấp trung gian

Trải nghiệm AI trong Festival Phở Hà Nội

Chợ sản phẩm trực tuyến VCAMart – sân chơi mới của hợp tác xã trong thời đại số

Thủ tướng đề nghị Tập đoàn COMAC hỗ trợ Việt Nam phát triển không gian vũ trụ

Vì sao không nên dùng cổng USB ô tô để sạc điện thoại?

Hơn hai thập kỷ băng rừng, vượt suối miệt mài tìm đồng đội nơi đất bạn

Bệnh viện Thanh Nhàn: Chưa có căn cứ xác định sai sót trong sự việc sản phụ mất vận động hai chân sau sinh

Lãnh đạo TP Huế dâng hương tri ân các Anh hùng liệt sĩ nhân ngày 27/7

Thiếu tướng Tô Anh Dũng được bầu giữ chức Chủ tịch UBND tỉnh Thanh Hóa