2026年5月5日,Hachette、Macmillan、McGraw Hill、Elsevier、Cengage 五家主要出版商,聯同暢銷小說家Scott Turow,在紐約南區聯邦地區法院對 Meta(臉書)及其執行長馬克·祖克柏 (Mark Zuckerberg)提起集體訴訟,主張 Meta 在訓練旗下大型語言模型Llama的過程中,大規模侵害原告及數百萬名著作權人的著作財產權。這是迄今為止,屬於目前出版界就生成式 AI 提起的規模較大、陣容相當完整的一起集體訴訟案之一。

案件背景
出版商們主張,Meta 並非單純的過失侵權,而是刻意迴避向出版商及權利人取得授權。Meta 在 Llama 第一代模型推出後,曾於2022年至2023年初積極評估與出版商簽訂授權協議的可行性,據原告訴狀所述,Meta 一度考慮投入數以億計美元取得授權,但在 2023 年上半年改變策略,決定不再推進全面授權。
出版商們在書狀中,引述一名 Meta 員工在內部審議過程中直白的決策邏輯:「一旦我們取得哪怕一本書的授權,我們就再也無法倚賴合理使用策略了」(If we license one single book, we won’t be able to lean into the fair use strategy.),這段也成為原告們主張Meta「蓄意」侵權的重要依據之一。
此外,原告也主張,Meta 透過 LibGen 等已知盜版來源大量下載受保護作品作為訓練語料,並主張該策略係在祖克柏等高層決策與授意之下作成。訴狀並引用內部文件,稱 LibGen 為『已知的盜版資料集』(a dataset we know to be pirated),並指稱 Meta 下載規模達數百 TB,相當於多個國家圖書館紙本藏量。
訓練資料的取得能主張合理使用嗎?
AI訓練資料的著作權問題,本質上圍繞兩個層次展開:訓練階段的資料取得行為是否構成受保護著作的「重製」,以及縱使構成重製,是否能援引「合理使用」(fair use)主張免責。
在美國著作權法框架下,合理使用的判斷依據《著作權法》第107條,涵蓋使用目的及性質(是否具商業性、是否具轉化性)、著作性質、利用比例,以及對著作潛在市場的影響等四項因素。AI 企業的一貫立場,是主張訓練過程屬於「轉化性使用」,因為模型並非以再現特定著作內容為目的,而是從海量資料中提取統計規律、生成全新輸出。1
本案之前,美國聯邦法院已就利用他人著作訓練 AI 模型,作出兩件方向相異的重要決定,由該二件觀察,似乎「訓練資料來源」才是被告以合理使用為答辯理由時,成敗的關鍵變數。
其一為 Kadrey v. Meta 案。2025年6月,美國加州北區聯邦地院就 Sarah Silverman 等13名作家控告 Meta 侵害著作權一事,認定Meta 完整重製原告作品,但在高度轉化性的前提下,完整重製仍可被視為合理,前提是原告未能舉證Meta的使用行為顯著損及著作市場。
其二為 Bartz v. Anthropic 案。同年6月,同一法院的另一位法官 就 Anthropic 案作出截然不同的分析。法院在程序中明確區分,Anthropic 以合法取得的書籍作為訓練資料,此時將之利用於 AI 模型訓練,具備高度轉化性的資訊分析性質,有較大的合理使用空間;但對於從 LibGen、Pirate Library Mirror 等盜版資料庫下載的大量作品,法院均將之視為自取得即構成著作權侵害,其違法性並不因後續 AI 訓練的轉化性而消除。該案最終以 Anthropic 同意支付 15 億美元和解告終,每件作品約可獲 3,000 美元賠償。
由這兩個案件,可以發現美國司法實務似乎嘗試以「取得著作的途徑是否合法」,作為判斷以著作訓練AI模型時,有無主張合理使用空間的界線。即資料的來源若為明知的盜版資料集,合理使用抗辯的說服力會大幅降低,甚至在取得行為的責任上幾乎不具效果。本次五大出版商的策略,正是循此邏輯,以 Meta 蓄意棄用授權、轉而從盜版平台大規模取得著作的決策過程,作為突破「轉化性合理使用」抗辯的核心攻勢。
究竟能否以他人著作訓練 AI 模型?
世界主要國家各主要法域對 AI 訓練著作權問題的態度存在明顯差異。
日本現行著作權法第30條之4明文規定,以資訊分析或不涉及人類感知的電腦資訊處理為目的的著作利用,原則上不構成侵害,使AI訓練在日本享有較為高的豁免空間。歐盟《著作權指令》(DSM Directive)則設有「文字與資料探勘」(Text and Data Mining,TDM)例外,DSM 指令一方面為研究機構等設立強制性的 TDM 例外(第 3 條),另一方面也在第 4 條提供一般性 TDM 例外,原則上亦可涵蓋商業用途,但權利人得透過技術措施或聲明 opt-out。不同成員國在落實與解釋上仍有差異,特別是如何適用於大規模基礎模型訓練。
我國智慧財產局則已明確表示,「著作若仍在著作財產權保護期間內,將其用於 AI 模型訓練……其訓練過程(包括資料收集、資料預處理、模型訓練及優化等)中,均可能涉及『重製』原始資料之行為,除有符合本法第44條至第65條之合理使用情形外,仍應取得著作財產權人之同意或授權,否則即可能會涉及著作權侵害而須負相關之民、刑事責任」。(令函案號: 電子郵件1140829)
我國著作權法第65條第2項的合理使用判斷,與美國法的四因素分析在架構上相近,均須考量利用目的及性質、著作性質、利用比例,以及對市場影響等面向。然而,我國法院實務對「轉化性使用」的概念援引較為「莫衷一是」,既有認為只要100%利用原著作就不構成轉換性使用的保守見解2,也有認為將紙本書掃描作成電子資料庫是轉化性使用的前衛看法3,更有把別人的照片用在自己的美食介紹文章也算轉化性使用的「奇特」存在4,因此,究竟於我國利用他人著作訓練 AI 模型是否也有機會透過美國的「轉化性使用」主張為合理使用,尚難確定,再加上,我國著作權法目前尚無針對資料探勘或AI訓練設有明文例外規定,在制度設計上存在相當的法律上風險。
值得一提的是,主管機關(包括數位部等)已提出建立「主權 AI 訓練語料庫」或類似公共語料庫的政策構想,優先利用政府持有著作並鼓勵自願授權,試圖在不立即修法的情況下,為國內 AI 開發提供合規資料來源。
重點在資料治理
無論是發生中的 Meta 案或者已經結束的 Anthropic 案,都可以看得出來,AI模型的法律風險,有相當大的比例發生在訓練之前,而非訓練之後的利用。
Anthropic 案的判決邏輯最能說明這一點。以合法途徑購入的書籍用於訓練屬於合理使用;但從 LibGen 下載的書籍,自下載的那一刻起即構成侵害,後續訓練目的的轉化性對此毫無補救效果。換言之,同一家公司、同一個訓練行為,因為訓練素材的來源不同,在法律上得到了截然不同的結論。Anthropic 最終支付15億美元和解金,所涵蓋的並非「訓練」行為本身,而是從 LibGen 等盜版資料庫下載、複製並儲存大量書籍的行為。若 Anthropic 在取得訓練資料時,即已建立清楚的來源篩查機制,LibGen 資料集根本不應進入訓練語料庫。資料治理(data governance)的價值,正在於此,它是在法律風險尚未形成之前,避免法律風險發生的制度性的攔截機制。
所謂資料治理,並非單純的資料管理技術,而是企業對於資料的取得、使用、儲存與處分,建立一套可追溯、可問責的制度框架。在AI訓練資料的脈絡中,資料治理至少涵蓋三個層次:其一是來源合法性,亦即訓練資料集中每一筆素材的取得方式是否有授權依據,並留有書面記錄;其二是風險評估的內部化,亦即當法務或技術團隊對資料來源提出疑慮時,企業是否有機制確保該評估被納入決策,而非如Meta案所示遭到擱置;其三是資料集的持續盤點,亦即模型迭代過程中,訓練資料集的組成是否經過重新審視,確保過去在灰地帶取得的素材不繼續沿用。
資料治理的重要性遠不止於大語言模型訓練。AI 訓練著作權訴訟所呈現的,不過是資料治理問題在一個特定法律領域的具體顯現。在現代知識經濟體系中,企業對資料的依賴已全面滲透至核心商業活動,無論是自行建置的各類資料庫、為了行銷與研究目的所做的個人資料蒐集、從外部資料來源彙整的市場情報、內容平台的著作授權管理,乃至以資料驅動的產品開發流程,均構成企業資料資產的組成部分。這些資料的取得方式是否合法、使用目的是否逾越授權範圍、儲存與利用是否符合各種資料保護的規範,都是資料治理需要回答的問題,涉及的法律風險橫跨著作權法、個人資料保護法、營業秘密法乃至公平交易法等多個領域。
Meta 內部備忘錄所呈現的,是一家企業在明知法律風險的情況下,刻意選擇不建立合規機制的決策過程。完善的資料治理框架的作用,正是在這些決策節點上提供制度性的攔截,確保法律風險在轉化為訴訟之前,已在企業內部被辨識、被評估,並以可問責的方式被處理。
- 章忠信老師的看法也值得分享,「如果機器看書能產生重大經濟利益,即使沒有『重製』,只是『深深印在腦海裡』,可不可以把它列為著作權法的『著作之利用』?考上大學第一件事,就是把高中課本丟掉。課本丟掉了,高中程度是否還在?生成式AI看過書後,系統裡沒有書,但有沒有書的知識呢?」https://www.copyrightnote.org/ArticleContent.aspx?ID=3&aid=3263 ↩︎
- 「本案音樂專輯及上傳音樂網站者,均為系爭歌曲之全部,未就原著作為任何轉化性使用,更對含告訴人在內之創作者之潛在市場價值有顯著影響」,臺灣臺北地方法院112年度智訴字第18號刑事判決 ↩︎
- 「被告將系爭叢書轉化為電子資料庫使用,並強化諸多紙本書,因受限於載體所不具備之功能,致大多數圖書館為增進讀者尋找資料之便利性,故同時購買系爭叢書與系爭資料庫。職是,被告係將賴和著作以電子資料庫方式呈現,具轉化性利用,而林瑞明編輯之系爭叢書依照標準之學術規格編排,故系爭叢書與系爭叢書電子檔間實為互補關係,並非互相排擠關係」,智慧財產法院104年度刑智上訴字第47號刑事判決 ↩︎
- 「被告係為撰寫『台北市4大串串火鍋店推薦』之美食報導文章而利用本案照片。觀諸本案文章內容,全文長達800字以上,除引用本案照片外,尚包含被告實際到店用餐後之原創評論、店內環境介紹及消費資訊等相關內容整理。其利用之性質具有『資訊分享』與『評論』之轉化性利用,並非單純、機械性地重製及公開傳輸告訴人之本案照片,以直接牟利。且被告主觀上係為推廣商家之正當目的,並有於本案文章中清楚標註來源、出處,顯與惡意盜用他人攝影著作,以節省時間、經濟等成本之商業侵權行為有別」,臺灣新北地方法院114年度智易字第38號刑事判決 ↩︎