五大出版商提告Meta：AI訓練、盜版資料與資料治理

2026/05/06

2026年5月5日，Hachette、Macmillan、McGraw Hill、Elsevier、Cengage 五家主要出版商，聯同暢銷小說家Scott Turow，在紐約南區聯邦地區法院對 Meta（臉書）及其執行長馬克·祖克柏 (Mark Zuckerberg)提起集體訴訟，主張 Meta 在訓練旗下大型語言模型Llama的過程中，大規模侵害原告及數百萬名著作權人的著作財產權。這是迄今為止，屬於目前出版界就生成式 AI 提起的規模較大、陣容相當完整的一起集體訴訟案之一。

案件背景

出版商們主張，Meta 並非單純的過失侵權，而是刻意迴避向出版商及權利人取得授權。Meta 在 Llama 第一代模型推出後，曾於2022年至2023年初積極評估與出版商簽訂授權協議的可行性，據原告訴狀所述，Meta 一度考慮投入數以億計美元取得授權，但在 2023 年上半年改變策略，決定不再推進全面授權。

出版商們在書狀中，引述一名 Meta 員工在內部審議過程中直白的決策邏輯：「一旦我們取得哪怕一本書的授權，我們就再也無法倚賴合理使用策略了」（If we license one single book, we won’t be able to lean into the fair use strategy.），這段也成為原告們主張Meta「蓄意」侵權的重要依據之一。

此外，原告也主張，Meta 透過 LibGen 等已知盜版來源大量下載受保護作品作為訓練語料，並主張該策略係在祖克柏等高層決策與授意之下作成。訴狀並引用內部文件，稱 LibGen 為『已知的盜版資料集』(a dataset we know to be pirated)，並指稱 Meta 下載規模達數百 TB，相當於多個國家圖書館紙本藏量。

訓練資料的取得能主張合理使用嗎？

AI訓練資料的著作權問題，本質上圍繞兩個層次展開：訓練階段的資料取得行為是否構成受保護著作的「重製」，以及縱使構成重製，是否能援引「合理使用」（fair use）主張免責。

在美國著作權法框架下，合理使用的判斷依據《著作權法》第107條，涵蓋使用目的及性質（是否具商業性、是否具轉化性）、著作性質、利用比例，以及對著作潛在市場的影響等四項因素。AI 企業的一貫立場，是主張訓練過程屬於「轉化性使用」，因為模型並非以再現特定著作內容為目的，而是從海量資料中提取統計規律、生成全新輸出。¹

本案之前，美國聯邦法院已就利用他人著作訓練 AI 模型，作出兩件方向相異的重要決定，由該二件觀察，似乎「訓練資料來源」才是被告以合理使用為答辯理由時，成敗的關鍵變數。

其一為 Kadrey v. Meta 案。2025年6月，美國加州北區聯邦地院就 Sarah Silverman 等13名作家控告 Meta 侵害著作權一事，認定Meta 完整重製原告作品，但在高度轉化性的前提下，完整重製仍可被視為合理，前提是原告未能舉證Meta的使用行為顯著損及著作市場。

其二為 Bartz v. Anthropic 案。同年6月，同一法院的另一位法官就 Anthropic 案作出截然不同的分析。法院在程序中明確區分，Anthropic 以合法取得的書籍作為訓練資料，此時將之利用於 AI 模型訓練，具備高度轉化性的資訊分析性質，有較大的合理使用空間；但對於從 LibGen、Pirate Library Mirror 等盜版資料庫下載的大量作品，法院均將之視為自取得即構成著作權侵害，其違法性並不因後續 AI 訓練的轉化性而消除。該案最終以 Anthropic 同意支付 15 億美元和解告終，每件作品約可獲 3,000 美元賠償。

由這兩個案件，可以發現美國司法實務似乎嘗試以「取得著作的途徑是否合法」，作為判斷以著作訓練AI模型時，有無主張合理使用空間的界線。即資料的來源若為明知的盜版資料集，合理使用抗辯的說服力會大幅降低，甚至在取得行為的責任上幾乎不具效果。本次五大出版商的策略，正是循此邏輯，以 Meta 蓄意棄用授權、轉而從盜版平台大規模取得著作的決策過程，作為突破「轉化性合理使用」抗辯的核心攻勢。

究竟能否以他人著作訓練 AI 模型？

世界主要國家各主要法域對 AI 訓練著作權問題的態度存在明顯差異。

日本現行著作權法第30條之4明文規定，以資訊分析或不涉及人類感知的電腦資訊處理為目的的著作利用，原則上不構成侵害，使AI訓練在日本享有較為高的豁免空間。歐盟《著作權指令》（DSM Directive）則設有「文字與資料探勘」（Text and Data Mining，TDM）例外，DSM 指令一方面為研究機構等設立強制性的 TDM 例外（第 3 條），另一方面也在第 4 條提供一般性 TDM 例外，原則上亦可涵蓋商業用途，但權利人得透過技術措施或聲明 opt-out。不同成員國在落實與解釋上仍有差異，特別是如何適用於大規模基礎模型訓練。

我國智慧財產局則已明確表示，「著作若仍在著作財產權保護期間內，將其用於 AI 模型訓練……其訓練過程(包括資料收集、資料預處理、模型訓練及優化等)中，均可能涉及『重製』原始資料之行為，除有符合本法第44條至第65條之合理使用情形外，仍應取得著作財產權人之同意或授權，否則即可能會涉及著作權侵害而須負相關之民、刑事責任」。（令函案號：電子郵件1140829）

我國著作權法第65條第2項的合理使用判斷，與美國法的四因素分析在架構上相近，均須考量利用目的及性質、著作性質、利用比例，以及對市場影響等面向。然而，我國法院實務對「轉化性使用」的概念援引較為「莫衷一是」，既有認為只要100%利用原著作就不構成轉換性使用的保守見解²，也有認為將紙本書掃描作成電子資料庫是轉化性使用的前衛看法³，更有把別人的照片用在自己的美食介紹文章也算轉化性使用的「奇特」存在⁴，因此，究竟於我國利用他人著作訓練 AI 模型是否也有機會透過美國的「轉化性使用」主張為合理使用，尚難確定，再加上，我國著作權法目前尚無針對資料探勘或AI訓練設有明文例外規定，在制度設計上存在相當的法律上風險。

值得一提的是，主管機關（包括數位部等）已提出建立「主權 AI 訓練語料庫」或類似公共語料庫的政策構想，優先利用政府持有著作並鼓勵自願授權，試圖在不立即修法的情況下，為國內 AI 開發提供合規資料來源。

重點在資料治理

無論是發生中的 Meta 案或者已經結束的 Anthropic 案，都可以看得出來，AI模型的法律風險，有相當大的比例發生在訓練之前，而非訓練之後的利用。

Anthropic 案的判決邏輯最能說明這一點。以合法途徑購入的書籍用於訓練屬於合理使用；但從 LibGen 下載的書籍，自下載的那一刻起即構成侵害，後續訓練目的的轉化性對此毫無補救效果。換言之，同一家公司、同一個訓練行為，因為訓練素材的來源不同，在法律上得到了截然不同的結論。Anthropic 最終支付15億美元和解金，所涵蓋的並非「訓練」行為本身，而是從 LibGen 等盜版資料庫下載、複製並儲存大量書籍的行為。若 Anthropic 在取得訓練資料時，即已建立清楚的來源篩查機制，LibGen 資料集根本不應進入訓練語料庫。資料治理（data governance）的價值，正在於此，它是在法律風險尚未形成之前，避免法律風險發生的制度性的攔截機制。

所謂資料治理，並非單純的資料管理技術，而是企業對於資料的取得、使用、儲存與處分，建立一套可追溯、可問責的制度框架。在AI訓練資料的脈絡中，資料治理至少涵蓋三個層次：其一是來源合法性，亦即訓練資料集中每一筆素材的取得方式是否有授權依據，並留有書面記錄；其二是風險評估的內部化，亦即當法務或技術團隊對資料來源提出疑慮時，企業是否有機制確保該評估被納入決策，而非如Meta案所示遭到擱置；其三是資料集的持續盤點，亦即模型迭代過程中，訓練資料集的組成是否經過重新審視，確保過去在灰地帶取得的素材不繼續沿用。

資料治理的重要性遠不止於大語言模型訓練。AI 訓練著作權訴訟所呈現的，不過是資料治理問題在一個特定法律領域的具體顯現。在現代知識經濟體系中，企業對資料的依賴已全面滲透至核心商業活動，無論是自行建置的各類資料庫、為了行銷與研究目的所做的個人資料蒐集、從外部資料來源彙整的市場情報、內容平台的著作授權管理，乃至以資料驅動的產品開發流程，均構成企業資料資產的組成部分。這些資料的取得方式是否合法、使用目的是否逾越授權範圍、儲存與利用是否符合各種資料保護的規範，都是資料治理需要回答的問題，涉及的法律風險橫跨著作權法、個人資料保護法、營業秘密法乃至公平交易法等多個領域。

Meta 內部備忘錄所呈現的，是一家企業在明知法律風險的情況下，刻意選擇不建立合規機制的決策過程。完善的資料治理框架的作用，正是在這些決策節點上提供制度性的攔截，確保法律風險在轉化為訴訟之前，已在企業內部被辨識、被評估，並以可問責的方式被處理。

章忠信老師的看法也值得分享，「如果機器看書能產生重大經濟利益，即使沒有『重製』，只是『深深印在腦海裡』，可不可以把它列為著作權法的『著作之利用』？考上大學第一件事，就是把高中課本丟掉。課本丟掉了，高中程度是否還在？生成式AI看過書後，系統裡沒有書，但有沒有書的知識呢？」https://www.copyrightnote.org/ArticleContent.aspx?ID=3&aid=3263 ↩︎
「本案音樂專輯及上傳音樂網站者，均為系爭歌曲之全部，未就原著作為任何轉化性使用，更對含告訴人在內之創作者之潛在市場價值有顯著影響」，臺灣臺北地方法院112年度智訴字第18號刑事判決 ↩︎
「被告將系爭叢書轉化為電子資料庫使用，並強化諸多紙本書，因受限於載體所不具備之功能，致大多數圖書館為增進讀者尋找資料之便利性，故同時購買系爭叢書與系爭資料庫。職是，被告係將賴和著作以電子資料庫方式呈現，具轉化性利用，而林瑞明編輯之系爭叢書依照標準之學術規格編排，故系爭叢書與系爭叢書電子檔間實為互補關係，並非互相排擠關係」，智慧財產法院104年度刑智上訴字第47號刑事判決 ↩︎
「被告係為撰寫『台北市4大串串火鍋店推薦』之美食報導文章而利用本案照片。觀諸本案文章內容，全文長達800字以上，除引用本案照片外，尚包含被告實際到店用餐後之原創評論、店內環境介紹及消費資訊等相關內容整理。其利用之性質具有『資訊分享』與『評論』之轉化性利用，並非單純、機械性地重製及公開傳輸告訴人之本案照片，以直接牟利。且被告主觀上係為推廣商家之正當目的，並有於本案文章中清楚標註來源、出處，顯與惡意盜用他人攝影著作，以節省時間、經濟等成本之商業侵權行為有別」，臺灣新北地方法院114年度智易字第38號刑事判決 ↩︎

蕭家捷律師 Pablo Hsiao