Adobe sử dụng trái phép tác phẩm bản quyền trong huần luyện AI

Adobe hiện đang phải đối mặt với một vụ kiện tập thể liên quan tới cáo buộc sử dụng trái phép các tác phẩm có bản quyền để huấn luyện công cụ trí tuệ nhân tạo (AI) SlimLM.

Các công ty công nghệ AI toàn cầu hiện đang phải đối mặt với làn sóng kiện cáo lan rộng liên quan tới vấn đề bản quyền, quyền tác giả và tài sản trí tuệ.

Giống như hầu hết các công ty công nghệ khác hiện nay, Adobe đã đẩy mạnh ứng dụng trí tuệ nhân tạo trong vài năm trở lại đây. Kể từ năm 2023, hãng phần mềm này đã ra mắt nhiều dịch vụ AI khác nhau, trong đó có Firefly, bộ công cụ tạo nội dung đa phương tiện dựa trên AI.

Tuy nhiên, việc mạnh tay triển khai công nghệ này dường như đang khiến Adobe gặp rắc rối, khi một vụ kiện mới cáo buộc công ty đã sử dụng sách lậu để huấn luyện một trong các mô hình AI của mình.

adobe-firefly-text-to-image-generative-ai

Trong đơn kiện tập thể nộp lên tòa án liên bang bang California hôm 16/12 (giờ địa phương), bà Elizabeth Lyon, một tác giả đến từ bang Oregon, cho rằng Adobe đã sử dụng sai mục đích nhiều cuốn sách, bao gồm cả các tác phẩm của bà, để huấn luyện các mô hình AI SlimLM nhằm tạo ra phản hồi cho các yêu cầu của con người.

Adobe mô tả SlimLM là một mô hình ngôn ngữ nhỏ, có thể được “tối ưu hóa cho các tác vụ hỗ trợ tài liệu trên thiết bị di động”. Theo Adobe, SlimLM được tiền huấn luyện trên SlimPajama-627B, một bộ dữ liệu mã nguồn mở đa nguồn, đã được loại bỏ trùng lặp, do Cerebras phát hành vào tháng 6/2023.

Bà Lyon, tác giả của nhiều sách hướng dẫn viết phi hư cấu, cho biết một số tác phẩm của bà đã bị đưa vào bộ dữ liệu tiền huấn luyện mà Adobe sử dụng.

Theo Reuters, đơn kiện của tác giả Elizabeth Lyon ban đầu cho rằng các tác phẩm của bà đã xuất hiện trong một tập con đã qua xử lý của bộ dữ liệu bị thao túng, vốn là nền tảng cho chương trình của Adobe. Đơn kiện nêu rõ, bộ dữ liệu SlimPajama được tạo ra bằng cách sao chép và chỉnh sửa bộ dữ liệu RedPajama, bao gồm cả việc sao chép Books3. Vì là bản sao phái sinh của RedPajama, SlimPajama chứa bộ dữ liệu Books3, trong đó có các tác phẩm được bảo hộ bản quyền của nguyên đơn và các thành viên trong nhóm khởi kiện.

Books3 được biết đến là một bộ sưu tập khổng lồ gồm khoảng 191.000 cuốn sách được sử dụng để huấn luyện các hệ thống AI tạo sinh. Vốn dĩ, Books3 cũng đang vướng vào nhiều rắc rối pháp lý đối với các công ty công nghệ.

RedPajama cũng đã bị nhắc đến trong nhiều vụ kiện. Vào tháng 9, một vụ kiện nhằm vào Apple cáo buộc công ty này đã sử dụng tài liệu có bản quyền để huấn luyện mô hình Apple Intelligence. Đơn kiện đề cập đến bộ dữ liệu này và cho rằng Apple đã sao chép các tác phẩm được bảo hộ mà không có sự đồng ý, không ghi nhận tác giả và không bồi thường. Tháng 10, một vụ kiện tương tự nhắm vào Salesforce cũng cáo buộc công ty đã sử dụng RedPajama cho mục đích huấn luyện AI.

Vụ kiện này là diễn biến mới nhất trong làn sóng các vụ kiện quy mô lớn tại Mỹ do các chủ sở hữu bản quyền khởi xướng nhằm vào các công ty công nghệ liên quan đến việc huấn luyện AI, đồng thời cũng là vụ việc đầu tiên kiểu này nhắm vào Adobe.

Đại diện của Adobe chưa đưa ra phản hồi ngay lập tức trước yêu cầu bình luận về vụ kiện vào ngày thứ Tư. Phía bà Lyon và luật sư đại diện của bà cũng không phản hồi trước đề nghị bình luận.

Song song với sự bùng nổ của AI, các vụ kiện tương tự hiện nay cũng ngày càng trở nên phổ biến. Các thuật toán AI được huấn luyện trên những bộ dữ liệu khổng lồ và trong một số trường hợp, các bộ dữ liệu này bị cho là có chứa tài liệu sao chép trái phép.

Tháng 9 vừa qua, Anthropic đã đồng ý chi trả 1,5 tỷ USD cho một nhóm tác giả khởi kiện, những người cáo buộc công ty đã sử dụng các bản sao lậu tác phẩm của họ để huấn luyện chatbot Claude. Vụ việc này được xem là một bước ngoặt lớn trong chuỗi các cuộc chiến pháp lý xoay quanh vấn đề bản quyền trong dữ liệu huấn luyện AI, lĩnh vực vốn đang có rất nhiều tranh chấp.