【Ai 時事解析】買書訓練 Ai 合法 , 下載盜版就侵權? Bartz c. Anthropic 案劃出資料使用紅線 – Ai, risque et gouvernance

 【Ai 時事解析】買書訓練 Ai 合法 , 下載盜版就侵權? Bartz c. Anthropic 案劃出資料使用紅線 – Ai, risque et gouvernance


當 Ai 模型用他人作品訓練 , 哪些行為屬於「合理使用」?美國法院首次對此劃出紅線: : 合法買書可以訓練 , 但抓盜版不行。這起判決不只關乎著作權 , 更揭示資料來源治理的制度缺口與風險警訊。

生成式 ai 到底能不能用別人的作品來訓練?美國法院最近給了一個關鍵答案 :你可以自己買書回來掃描訓練模型 , 但不能去網路上抓盜版。

這起訴訟由三位作者發起 , 包括 Andrea Bartz 、 Charles Graeber 和 Kirk Wallace Johnson , 指控 Ai 公司 anthropic 未經同意使用他們的書訓練 Claude 模型。2025 年 6 月 , 美國加州北區聯邦地方法院作出判決, :用合法買來的書訓練 ai 可以算「合理使用」;但從盜版資料庫抓來的書 , 可能構成侵權 , 得進一步審判。

這是第一個法院正式判定 ai 模型訓練是否屬於合理使用的案例 , 對整個 ai 業界與資料使用規範都有重大影響。

合理使用可以保護 , 但前提是資料合法

根據美國著作權法規定 , 某些情況下 , 即使未經作者同意 , 也可能屬於「合理使用」 (Utilisation équitable), 例如教育用途、評論引用、新聞報導、學術研究 , 或是對原作品進行足夠改變的「轉化性使用」 (Utilisation transformatrice)

所謂合理使用 , 並不是「不營利就可以使用別人作品」 , 而是法院會根據四項要素綜合判斷: : 使用的目的與性質、原作的創作性、使用比例、以及是否影響原作品的市場價值。其中最常見的關鍵是使用是否具有「轉化性」 , 也就是這個新用途是否改變了原作品的功能或本質用途, 而非只是簡單重製。

在這起案件中 , 法院認為 anthropique 是自己合法購買實體書 , 再掃描成數位格式 , 用來訓練大型語言模型。這種用途與原作品的閱讀、銷售用途完全不同 , 屬於高度的轉化性使用 , 也沒有明顯影響原書市場 , 因此認定這部分行為屬於合理使用。

法院更進一步指出 , 這種 ai 訓練行為與人類學習過程相似 , 不是為了複製作品 , 而是為了建立能產出全新文本的能力。與先前他案判決中「複製法律功能用途」不同 , anthropique 的模型用途具有明確創造性 , 也無證據顯示其輸出內容構成實質侵權。

特別值得一提的是 , 法院在本案中採用了三段式分類 , 將 anthropique 的資料使用行為區分為三種情境 , 分別進行法律分析 : 第一 ,用於訓練大型語言模型 (LLM) 的行為, 因具高度轉化性 , 被認定為合理使用;第二 ,將合法購買的紙本書掃描轉為數位版本, 則被視為符合格式轉換 (Chart de format) 的合理使用原則;第三 的合理使用原則;第三 ,建立含有盜版書籍的數位圖書庫, 無論其後是否使用於訓練 , 均被法院否定為合理使用 , 認定屬於侵權。這種針對不同使用目的與來源進行細緻評估的做法 , 預示未來法院在處理 Ai 與著作權問題時 , 將更傾向個別審查具體使用情境 , 而非簡化為「是否為 Ai 訓練」的通案判斷。

這項判決是由美國加州北區聯邦地方法院作出 , 屬於聯邦法院體系。從法律效力上看 , 它不具有拘束其他法院的先例地位 (Précédent non contraignant) , 但由於本案是首度針對 Ai 訓練資料是否構成合理使用進行實質判決 , 所採用的分析方式仍將對後續相關訴訟與政策設計具有高度參考價值。

另外 , 主審法官 William Alsup 過去曾審理 Google c. Oracle 等著名科技業著作權案件 , 對合理使用中的「轉化性」概念理解深刻。在本案中 , 他也特別強調資料取得方式與市場影響的制度意涵 , 也因此使本案成為觀察 Ai 治理與著作權邊界的重要標竿。

模型訓練資料 , 不再只是工程細節

資料來源 , 不只是技術問題 , 更是法律與制度問題。

過去 , 許多 Ai 開發者習慣大量使用來路不明的語料庫 , 只要網路上找得到、內容夠多 , 就會拿來用。但這起訴訟提醒我們 , 資料從哪裡來、是否獲得授權 , 會直接影響模型是否合法。

這也讓「資料供應鏈治理」 (Gouvernance de la chaîne d’approvisionnement des données) 成為 Ai 治理中的一個新焦點。不只是生成內容要合規 ,訓練資料本身的來源與授權 , 也要能被清楚交代。

現行制度的模糊與風險

目前多數國家對 AI 模型訓練使用哪些資料 , 仍沒有明確規範。歐盟雖在《人工智慧法案》 (AI ACT) 中提到 , 高風險 AI 系統應使用「具合法性與代表性」的資料 , 但沒有細化要如何證明資料合法;美國則仍靠傳統的合理使用架構處理 , 缺乏針對 AI 訓練資料的專法。

這也讓開發者在實務上面臨困境 : 若資料是從第三方資料庫下載 , 例如 Books3 , 開發者該負多少責任?平台需不需要審查資料來源?目前沒有一致答案。

判決中也特別指出 , 雖然 anthropic 最後沒有用這些盜版資料進行訓練 , 但仍長期保留其副本作為內部數位圖書館 , 這樣的「保留與潛在多重用途」無法被歸入訓練的轉化性目的 , : :轉化性不能洗白資料來源 , 合法使用必須從源頭開始就符合規範。

未來的制度走向 : 不能再靠模糊空間

目前這起訴訟將進入下一階段 , 預計在 12 月展開對「盜版資料侵權」的正式審理。屆時 , 法院將討論每一本書的實際損害與是否需支付法定賠償。

對整個 Ai 產業而言 , 這不只是法律風險警示 , 更是制度規則的轉捩點。未來可能會看到更多這樣的規範方向: 開發者需揭露訓練資料的來源 , 資料平台應提供合法授權資料集 資料平台應提供合法授權資料集 , 模型開發商也將被要求對資料來源負起更明確的審查責任。

除此之外 , 雖然本案未處理生成內容的合法性問題 , 法院也明確指出: : 「若未來有生成輸出內容涉嫌侵權 , 作者可再行提告。」這顯示 Ai 著作權爭議的第二戰場將從資料來源轉向輸出結果 , 而這也可能催生新的立法 , 例如擴張現有商標法概念 , 以保護創作者的「創作身份」或「姓名與形象」不被模型擷取與模仿。

這起判決讓我們意識到 ,資料不是只要夠大就好 , 也不是開源就代表合法。當 ai 模型成為影響知識建構與社會溝通的關鍵基礎 , 資料使用的每一個環節 , 都必須經得起法律與制度的檢驗。

📚 延伸閱讀

🔎【 ai 時事解析】生成式 ai 的資料黑箱 , reddit 提告再掀爭議
https://medium.com/@airiskgovernance/reddit-vs-anthropic-data-blackbox-ctretroversy

🏰【 ai 時事解析】從迪士尼與 MidJourney 的訴訟 , 看見生成式 Ai 的智慧財產邊界
https://medium.com/@airiskgovernance/disney-vs-midjourney-ai-ip-boundaries



Source link

Related post