◎賴文智、謝佳凌

新北地方法院針對法源公司控告七法公司(Lawsnote)的刑事案件判決一出,引起法律圈與科技新創圈的廣泛討論。除著作權的議題外,透過爬蟲抓取網路公開資料,遭認定違反刑法電腦犯罪章,也是眾人關切的焦點。網路爬蟲(crawler)是業界行之有年的技術,若只要違反契約或協定抓取網路上公開的資料,即涉有刑事責任,恐將引起網路圈與 AI 領域另一波法律風暴。本案目前上訴至智慧財產及商業法院尚未確定,以下透過新北地院判決所呈現之資訊,與讀者們共同討論本件由網路爬蟲引發的現代資料戰爭的事實始末與可能的法律風險。
一、案件背景
法源公司設立於 1991 年是台灣法律數位化的先驅之一,並承包多項政府法律數位化相關標案,維護包括法務部全國法規資料庫及司法院法學資料系統等公開資料庫,累積相當豐富且相對完整的法律、命令、函釋、判決等,而自行經營 Lawbank 法源法律網;七法公司則成立於 2016 年,相較於當時以傳統資料庫形式必須指定欄位、類別檢索的法源,以簡單如使用 Google 般的法律搜尋體驗及豐富創新的功能,作為吸引法律專業人員的賣點。
本案(新北地方法院 111 年度智訴字第 8 號刑事案件1)主要的主張及判決理由如下:
- 法源公司主張其所經營之 Lawbank 網站,相關法規資料除法律條文本身外,尚包括經過其投入心力編輯、整理的法規修正沿革,相較主管機關、全國法規資料庫、司法院法規查詢系統的資訊,有其獨特編寫的創意應受著作權法保護,且 Lawbank 網站使用規範禁止未經授權的存取行為,故對七法公司以該等資料作為競爭服務使用之行為,提起侵害著作權與違反刑法第 359 條的告訴。
- 七法公司則坦承其為建置與法源競爭之法律專業資料庫,使用網路爬蟲技術,爬取包括法源資料庫及其他政府機關公開法律相關資料,並以該等資料作為提供 Lawsnote 服務之基礎。七法認為這些法律相關資料經評估為公共財不受著作權保護,才會進行爬取與後續提供服務使用。
- 新北地方法院認定,七法公司自法源網站抓取並重製於其 Lawsnote 資料庫的法規資料,相關法規所列出的「法律沿革」乃是法源公司的編輯著作,且七法公司商業上的使用並不構成合理使用,論以著作權法第 91 條第 2 項意圖銷售而擅自以重製之方法侵害他人著作財產權罪;另外,就七法公司違反網站使用規範而以網路爬蟲抓取資料的行為,所取得的資料屬不受著作權法保護的「法規內容」與「法規附件」等,作為商業使用已造成法源公司損害,構成刑法第 359 條無故取得他人電磁紀錄罪。七法代表人及工程師分別被判有期徒刑 4 年、2 年,公司另科罰金 150 萬,附帶民事則由被告等連帶賠償 1 億 545 萬餘元。
二、地院刑事判決引發的爭議
本案判決引發相當多的討論,一則以法律界習以為常的「法規沿革」,竟成為受著作權法保護的編輯著作;二則以網路領域習用的爬蟲技術,竟然會因為網站使用規範的違反,而構成無故取得他人電磁紀錄的犯罪行為。
(一)將法規沿革認定為編輯著作是否合宜?
法源法律網針對法律、法規命令等,提供單獨的「法規沿革」頁面,礙於篇幅以比較不複雜的營業秘密法為例,按時序由上至下分別為:
3.中華民國一百零九年一月十五日總統華總一經字第 10900004051 號令修正公布第 15 條條文;增訂第 13-5、14-1~14-4 條條文
2.中華民國一百零二年一月三十日總統華總一義字第 10200017761 號令增訂公布第 13-1~13-4 條條文
1.中華民國八十五年一月十七日總統(85)華總字第 8500008780 號令制定公布全文 16 條
上開法規沿革可能過於簡單,不用說是法律專業人員,一般讀者應該直覺也會認為這樣的資料排列並不具有創意,不會受著作權法保護。不過,法規沿革繁簡不一,以判決中所出現的「科技部新竹科學園區管理局職員訓練進修實施要點」為例,「8.中華民國一百零六年八月二日科技部新竹科學工業園區管理局竹人字第1060021486號函修正第12點條文;並自即日起生效」,而同一則當時主管機關公告之法規沿革則是從舊到新排列,而同樣是第 8 次沿革條目,其呈現方式為「8. 中華民國106年8月2日科技部新竹科學工業園區管理局竹人字第1060021486號函修正」,若法規名稱有變更,也會列出原名稱。
法院據此認定法源法律網與其他由政府機關或其他法學資料庫有關法規沿革呈現方式不同,認為法源公司每一則「法規沿革」,針對「選擇」(由眾多資料擇取少數資料),例如:由法規修正、增訂、刪除之條號、法規名稱變更、主管機關異動、法規生效狀態、特定施行日期、法規合併或拆分修正、上級機關備查/核定/核備之日期文號、主管機關會同(會銜)公發布等素材中選擇;並據以做出兼顧完整性、便於閱讀的「編排」,如國字、數字有統一編寫格式、繁簡用字有統一格式、日期編寫在前、發文機關、文號編寫在後、使用機關全銜而非簡稱等,認定該等獨立頁面之「法規沿革」屬於受著作權法保護之「編輯著作」。
筆者認為前述法源公司所主張的「編輯著作」,應該是屬於「編輯體例」的範圍,而不是個別著作的「創意」所在。法源作為單一的資料庫服務提供者,為維持服務的一致性,必須有自己資料庫的編輯體例,而各機關自然不可能完全與之相同,若要逐一比對,必然會有所不同。新北地方法院將「編輯體例」提升為「編輯著作」所面臨最大的挑戰,即來自於台灣著作權領域所習於引用的美國最高法院 1991 年 Feist Publications, Inc. v. Rural Telephone Service Co. 關於電話簿案件的判決,明確否定僅憑「辛勤汗水(sweat of the brow)」即可取得著作權之主張,認為即使付出大量時間與心力編輯,如電話簿這類資料若無創意元素,也僅屬「事實集合」,不得受著作權保護。
本案判決雖透過「法規沿革」呈現方式的不同,往回推論因法源法律網與其他主管機關公開的資料相關法規沿革具有相當的不同,而認定具有「原創性」。但邏輯上來看,若是比對二個都不具原創性的表達,即令比對出來有很多不同點,仍然不會讓不具原創性的表達因為與他人的表達不同而具有原創性。新北地方法院判決沒有直接檢視該等「法規沿革」是否僅為事實資料的集合,設法突破前述辛勤汗水原則,也是本案引發爭議的原因。
(二)無故取得他人電磁紀錄罪是否適用在網路爬蟲的情形?
早在 1993 年由 Matthew Gray 所開發的「World Wide Web Wanderer」爬蟲即已出現。演變至今,比較常見的爬蟲用途,包括搜尋引擎索引建立、社群輿情分析以及資料蒐集等,其運作類似程式模擬人類瀏覽、存取網站資料的行為,透過自動化可達到遠超過人工處理的速度及規模。為因應普遍性的網路爬蟲的運作,網路圈較具共識的是 Robots Exclusion Protocol (REP) 協定,以 robots.txt 文件對爬蟲的行為進行約定。RFC 9309 版本明確指出,「這些規範並非存取授權的形式(These rules are not a form of access authorization.)」。一般認為這是一種自律規範,僅有如同「告示牌」般單方面聲明效果,難以真正阻擋惡意爬蟲的爬取行為。
本案中七法公司的作法,本質即是寫幾隻小程式專門用來下載法源法律網的相關資料,即七法公司在付費購買法源法律網服務後,透過程式模擬人類的使用,大量、有系統地下載法源法律網的資料。在前述對於網路爬蟲認知下,新北地院判決認定以網路爬蟲抓取非屬著作的資料,構成刑法第 359 條之犯罪,顯然超出網路圈人士的想像。
刑法第 359 條規定,「無故取得、刪除或變更他人電腦或其相關設備之電磁紀錄,致生損害於公眾或他人者,處五年以下有期徒刑、拘役或科或併科六十萬元以下罰金。」法院以七法公司違反法源法律網網站使用規範為由,並引用最高法院 110 年度台上字第 90 號刑事判決對於,認為只要屬於「無正當理由」、「未經所有人許可」、「無處分權限」或「違反所有人意思」、「逾越授權範圍」等情均屬「無故」。這樣的見解,很容易引發民眾的恐慌。舉例來說,我們訂購某資料庫服務,該資料庫的使用規範約定每日下載的文章不得超出 10 篇,若為了做研究單日下次 50 篇論文,顯已違反該使用規範,但若同時也會構成「無故取得他人電磁紀錄」的犯罪,顯然就超出一般人的想像。
回顧 2003 年新增刑法第 359 條規定之立法理由,僅簡單記載,「若電腦中之重要資訊遭到取得、刪除或變更,將導致電腦使用人之重大損害」,比較沒有辦法作為判斷「無故」或「損害」這些法律要件的依據。惟若溯及當時的立法背景,原先刑法將電磁紀錄當作「準動產」而適用有關竊盜等刑事責任,早期網路遊戲的使用者應該有印象,虛擬寶物遭竊取時,有一段時間即是適用準竊盜罪來處理。但因取得電磁紀錄並不必然破壞原持有人之持有,與傳統「竊盜」法律概念衝突,亦不足因應日益複雜的電腦、網路犯罪,才新增刑法電腦犯罪章的規範。
由於第 359 條有關「無故取得他人電磁紀錄」屬於過度開放的要件,立法通過當時即有學者認為應限於以技術方式破壞他人對於電磁紀錄的保護,而取得他人電磁紀錄作為「無故」之判斷標準。簡言之,即以入侵他人電腦或是破壞對於電磁紀錄技術的保護,這類涉及技術性的行為,才會構成「無故」,這樣才不致於將民事的違約行為,任意提升到刑事犯罪的領域。至於要件有關「致生損害於公眾或他人」中的「損害」,則應限於「取得他人電磁紀錄」這個行為本身造成的損害,而不包括後續對於電磁紀錄利用所造成的損害。若由「無故」與「損害」這二個要件來檢視本案新北地院的判決,顯然新北地院的見解過度寬鬆,亦可理解為何此判決會引起業界嘩然。
三、他山之石—hiQ Labs, Inc. v. LinkedIn Corp.
hiQ v. LinkedIn 案為近年關於「抓取競爭對手公開網路資料」(Web Scraping)的代表性案件,本質也是新創業者對於既得利益者資料利用的案件類型。hiQ 為專門分析員工離職傾向等資訊的新創公司,透過自動化工具抓取 LinkedIn 用戶公開檔案資料,並將分析結果販售予企業。2017 年 LinkedIn 發函警告 hiQ 其抓取行為違反網站使用者條款,且違反美國《電腦詐欺及濫用法案》(CFAA)要求停止。hiQ 則提告主張 LinkedIn 企圖以技術及法律手段扼殺競爭。
本案雖歷經不同審級法院不同的判決,最終聯邦第九巡迴上訴法院認定 hiQ 的抓取行為違反 LinkedIn 的用戶條款,hiQ 既接受並同意該協議即應受其約束,應負違約責任。但針對是否違反 CFAA 的爭議,法院則認定抓取公開可見資料不構成違反 CFAA 有關「未經授權存取受保護電腦」的要件,只有對 LinkedIn 會員須登入或設定為非公開資料的抓取,或在接獲禁止通知後繼續攻擊型進入才可能產生違反 CFAA 的責任。
法源告訴七法的案件,百分百是競爭業者間的商業衝突,實際上亦可適用公平交易法針對大量取用競爭者資料庫內容的行為透過民事訴訟處理。但法源公司選擇提起刑事告訴,由檢察官進行偵辦,等於是透過國家公權力打擊市場新進的競爭者。然後,因為對於法律規範「認知」的不同,經檢察官起訴、地方法院判刑,雖被告等仍有上訴至專業的智慧財產及商業法院的救濟途徑,但因涉及網路爬蟲這多年來網路圈習用的技術,自然引發諸多業者的恐慌。凡事優先透過刑事告訴處理,是長期以來台灣新創衝擊既得利益者最大的法律風險。
四、AI 時代的資料爬取議題
進入 AI 時代,業者透過網路爬蟲抓取網路上公開的資料作為各種訓練、校正使用已成為公開的秘密。針對一般業者透過抓取網路上公開的資料作為 AI 訓練使用,歐盟《人工智慧法》及相關著作權指令所建構的機制,「合法取得」會是關鍵點,權利人可以透過如 robots.txt 等機制,拒絕特定爬蟲的存取,未來機器對機器的溝通協定,會是權利人行使其拒絕(Opt-out)資料被蒐集後進行分析、訓練的重要管道。
然而,像是法源法律網這類具有「付費牆」的資料庫,即令在前述歐盟的法規架構下,亦難以透過網路爬蟲「合法取得」。反而是與數位發展部近期公開的「促進資料創新利用發展條例」草案,更有機會解決問題。草案除將政府資料「公開」法制化外,更進一步要求以技術上方便取用的方式「共享」。試想,如果司法院、法務部或其他各級主管機關的判決、法規、函釋等資料,可以很容易透過 API 或其他便於打包下載的資料格式提供,七法公司還有必要冒著民、刑事責任的風險去大量抓取法源公司的資料嗎?
整體而言,本案判決針對著作權、網路爬蟲等議題,對於數位服務產業投下相當大的震撼彈,個案後續上訴審的判決值得吾人持續觀察。但其背後新創業者因缺乏提供創新服務所需的大量資料,挺而走險爬取競爭者資料庫內容的議題,更突顯出進入 AI 時代,倘缺乏國家層級資料治理的完整法律架構,將對於創新創業產生更大的負面影響,行政及立法諸公仍有待努力。
- 新北地方法院判決全文:https://islaw.pse.is/lawbank ↩︎