Các mô hình AI có đang vi phạm quyền sở hữu trí tuệ?

Sự phát triển của AI tạo sinh đang làm dấy lên tranh cãi về nguy cơ xâm phạm quyền sở hữu trí tuệ, khi các mô hình AI được huấn luyện từ khối dữ liệu khổng lồ trên Internet.

Sự phát triển bùng nổ của trí tuệ nhân tạo tạo sinh (Generative AI) đang làm thay đổi căn bản cấu trúc của nền kinh tế số, thị trường dữ liệu và hệ thống bảo hộ quyền sở hữu trí tuệ (SHTT) toàn cầu.

Các mô hình Al hiện đại như ChatGPT, Gemini, Claude, Midjourney hay Stable Diffusion được huấn luyện trên khối lượng dữ liệu khổng lồ thông qua kỹ thuật khai phá dữ liệu và khai phá văn bản.

Nguồn dữ liệu này thường bao gồm tác phẩm được bảo hộ quyền tác giả, nhãn hiệu thương mại, cơ sở dữ liệu, hình ảnh, nội dung nghe nhìn và nhiều loại tài sản trí tuệ khác.

Trong bối cảnh đó, các tranh luận pháp lý quốc tế ngày càng tập trung vào câu hỏi: Liệu hoạt động huấn luyện Al có cấu thành hành vi xâm phạm quyền SHTT hay không? Đồng thời đặt ra yêu cầu xây dựng cơ chế minh bạch hóa nội dung do Al tạo ra.

Một trong những đề xuất đang thu hút sự quan tâm mạnh mẽ của giới học thuật và các nhà lập pháp là cơ chế “dán nhãn Al”. Theo đó, các sản phẩm, nội dung hoặc dữ liệu do Al tạo sinh phải được nhận diện rõ ràng nhằm bảo đảm tính minh bạch, trách nhiệm giải trình và khả năng bảo vệ quyền SHTT trong môi trường số.

*AI có đang vi phạm quyền sở hữu trí tuệ? Ảnh minh họa: AI*

Khi AI học từ hàng tỉ dữ liệu trên Internet

Trong những năm gần đây, AI tạo sinh đang thay đổi nền kinh tế số, sự phát triển nhanh chóng của AI tạo sinh đã tạo ra những thay đổi mang tính cách mạng đối với cấu trúc của nền kinh tế số toàn cầu. Các mô hình Al thế hệ mới có khả năng tạo ra văn bản, hình ảnh, âm thanh, video, mã lập trình và nhiều loại dữ liệu tổng hợp với chất lượng ngày càng tiệm cận năng lực sáng tạo của con người.

Tuy nhiên, nền tảng vận hành của các hệ thống Al này lại phụ thuộc chủ yếu vào việc khai thác và xử lý khối lượng dữ liệu khổng lồ được thu thập từ Internet thông qua các kỹ thuật khai phá văn bản và dữ liệu.

Trong quá trình đó, nhiều tác phẩm có bản quyền, nhãn hiệu nổi tiếng, dữ liệu cá nhân và nội dung thương mại bị thu thập, sao chép và sử dụng mà không có sự cho phép của chủ thể quyền.

Về cơ bản, các hệ thống Al tạo sinh hoạt động dựa trên cơ chế học máy và mạng nơ-ron nhân tạo. Quá trình huấn luyện Al thường bao gồm: thu thập dữ liệu, khai phá văn bản, tokenization (phân tách dữ liệu ngôn ngữ), học xác suất ngôn ngữ, tối ưu hóa mô hình, tinh chỉnh thuật toán.

Để đạt hiệu quả cao, các mô hình Al cần xử lý hàng tỷ đơn vị dữ liệu từ Internet. Trong thực tiễn, hoạt động này thường được thực hiện thông qua thu thập dữ liệu website và quét dữ liệu trực tuyến. Tuy nhiên, phần lớn dữ liệu bị khai thác lại thuộc phạm vi bảo hộ của pháp luật SHTT.

Hoạt động khai phá dữ liệu phục vụ Al có thể tác động đến nhiều nhóm quyền khác nhau. Đối với quyền tác giả, các hệ thống Al thường sao chép dữ liệu trong quá trình huấn luyện. Điều này làm phát sinh nguy cơ sao chép trái phép, tạo tác phẩm phái sinh, tái tạo phong cách nghệ thuật, xâm phạm quyền nhân thân của tác giả.

Không chỉ vậy, AI còn có thể tác động đến quyền đối với nhãn hiệu khi tạo ra logo giả, hình ảnh thương mại giả mạo, deepfake quảng cáo, hàng hóa số giả mạo nhãn hiệu. Điều này đe dọa nghiêm trọng đến tính toàn vẹn của thị trường thương mại điện tử.

Riêng đối với quyền cơ sở dữ liệu, tại Liên minh châu Âu, cơ sở dữ liệu được bảo hộ độc lập. Việc Al khai thác dữ liệu quy mô lớn có thể cấu thành hành vi xâm phạm quyền cơ sở dữ liệu.

*TS Nguyễn Thái Cường, Phụ trách Viện Luật So sánh, Trường ĐH Luật TP.HCM. Ảnh: HOÀI TRỌNG*

Dán nhãn AI có phải lời giải?

Dán nhãn Al là cơ chế yêu cầu nội dung do Al tạo ra phải được nhận diện rõ ràng nhằm giúp người dùng phân biệt giữa nội dung do con người tạo ra và nội dung tổng hợp bằng thuật toán. Cơ chế này có thể áp dụng đối với văn bản, hình ảnh, video, âm thanh, quảng cáo, hàng hóa số.

Việc dán nhãn AI có thể mang lại nhiều lợi ích quan trọng.

Trước hết, cơ chế này góp phần bảo vệ quyền SHTT, thông qua việc xác định nguồn gốc dữ liệu, phát hiện hành vi sao chép, ngăn chặn hàng giả kỹ thuật số, hỗ trợ thực thi quyền SHTT.

Bên cạnh đó, cơ chế này còn giúp bảo vệ người tiêu dùng, bởi người dùng có quyền biết nội dung họ tiếp cận được tạo bởi con người hay máy móc.

Đặc biệt, việc dán nhãn AI còn có thể chống deepfake và thao túng thông tin. Theo đó, dán nhãn Al có thể giảm thiểu tin giả, deepfake chính trị, lừa đảo kỹ thuật số, giả mạo thương hiệu.

Không dừng lại ở đó, cơ chế này còn giúp tăng cường trách nhiệm giải trình khi các công ty AI phải chịu trách nhiệm cao hơn đối với dữ liệu và nội dung do hệ thống của họ tạo ra.

Dù được đánh giá là cần thiết, cơ chế dán nhãn AI vẫn đối mặt với không ít thách thức.

Trước hết là khó khăn về mặt kỹ thuật bởi việc xác định chính xác nội dung tạo ra không phải lúc nào cũng khả thi. Ngoài ra, nó có nguy cơ ảnh hưởng đổi mới sáng tạo bởi quy định quá chặt có thể làm cản trở sự phát triển công nghệ.

Bên cạnh đó, chi phí tuân thủ cũng là vấn đề lớn khi doanh nghiệp AI phải đầu tư đáng kể cho hệ thống kiểm toán và minh bạch dữ liệu.

Không chỉ vậy, mỗi quốc gia hiện đang tiếp cận quản trị AI theo những cách khác nhau, dẫn đến nguy cơ phát sinh xung đột pháp luật quốc tế.

Từ đó, Việt Nam cần sớm xây dựng khung pháp lý dành riêng về đào tạo AI. Cụ thể, pháp luật cần xác định rõ phạm vi hợp pháp của hoạt động khai phá dữ liệu, các ngoại lệ quyền tác giả cho Al cũng như nghĩa vụ cấp phép dữ liệu.

Đồng thời, cần thiết lập cơ chế dán nhãn Al, nội dung do Al tạo ra cần được gắn nhãn trong các lĩnh vực báo chí, quảng cáo, thương mại điện tử, truyền thông xã hội, nội dung chính trị.

Ngoài ra, Việt Nam cũng cần xây dựng cơ chế kiểm toán AI thông qua việc thành lập cơ quan hoặc trung tâm giám sát AI độc lập.

Đối với các nền tảng số cần cũng cần được tăng cường trách nhiệm, phải gỡ bỏ nội dung xâm phạm, kiểm soát deepfake, hợp tác với cơ quan quản lý, bảo vệ dữ liệu người dùng.

Sự phát triển của AI tạo sinh đang đặt ra những thách thức chưa từng có đối với hệ thống pháp luật sở hữu trí tuệ toàn cầu.

Hoạt động khai phá dữ liệu phục vụ huấn luyện Al vừa là động lực thúc đẩy đổi mới sáng tạo, vừa tiềm ẩn nguy cơ xâm phạm quyền sở hữu trí tuệ, thao túng thông tin và làm gia tăng hàng giả kỹ thuật số.

Trong bối cảnh đó, cơ chế dán nhãn Al nổi lên như một công cụ pháp lý quan trọng nhằm bảo đảm tính minh bạch, trách nhiệm giải trình và bảo vệ quyền lợi của chủ thể quyền trong môi trường số.

Tuy nhiên, việc xây dựng cơ chế này cần được thực hiện một cách cân bằng, tránh cản trở đổi mới công nghệ đồng thời bảo đảm hiệu quả quản trị Al.

Tương lai của nền kinh tế số không chỉ phụ thuộc vào năng lực công nghệ mà còn phụ thuộc vào khả năng xây dựng một mô hình pháp lý công bằng, minh bạch và bền vững cho AI trong kỷ nguyên dữ liệu toàn cầu.