知識分享

如何促進AI的發展—從Data Driven談資料應用的法律(上)

2019/07/18

本文發表於會計研究月刊2019年6月號

人工智慧近年來的發展，因數位化、萬物連網所產出、累積的巨量資料（Big Data）扮演著重要的角色。2014年7月歐盟執委會即針對巨量資料提出「邁向資料驅動經濟時代」（Towards a thriving data-driven economy）政策[1]，2018年4月25日則進一步在GDPR的基礎下，提出「邁向歐洲共同資料空間」通報（Communication Towards a common European data space），以提升歐盟境內資料之可取得程度（availability），包括：提高公部門所掌握資料之易取得及再利用程度、促進公部門資助之科學研究資料分享、私部門間及公私部門間資料共享等，認為在GDPR所建立「數位信任」（digital trust）的基礎下，進一步推動提升歐盟境內資料之使用效率，歐盟資料經濟規模將可成長至7,390億歐元以上。

「資料」成為人工智慧時代產業重要的生產要素，資料取得、利用的容易程度也成為企業投入AI發展最重要的門檻之一，因此，各國紛紛針對企業取得、利用「資料」進行政策與法制面的檢討，以促進AI的發展。本文以下即以「著作權」及「個資保護」二個最重要的法律著手，介紹AI發展可能面對的問題及可能解決的立法方向。

一、利用他人著作訓練AI的著作權議題

以微軟所發展能夠創作現代詩的AI小冰為例，據報導該團隊成員表示，其運作核心是將大量的現代詩資料輸入進小冰的資料庫中，就像讀書一樣，小冰透過大數據的資料探勘，分析每個字前後最常出現的關聯字，同時利用程式架構去提醒小冰，創作時要記得「圖片」想表達的意像，使其不只是某種一成不變的反射[2]。

以現行主流的AI發展，機器學習（深度學習）有賴於大量經過結構化、適當標記的「資料」進行訓練，雖然可以模擬成人類也是透過「閱讀」來學習，但人類「閱讀」紙本書是不需要取得作者授權的，因為以眼睛看、腦袋記憶，並非在著作財產權保護的「重製權」的範圍。但是將大量的現代詩的「資料」輸入進小冰的資料庫中，這些現代詩作為受著作權法保護的「語文著作」，實際上已被「重製」在小冰的資料庫裡，而其作用可能單純作為訓練AI使用，亦可能之後會作為小冰組成的一部分（視情形而定）而對外提供服務，這時可能也涉及「改作」或「公開傳輸」的利用行為，即必須正視著作權法的問題。

由技術的角度來看，要訓練像微軟小冰這樣的人工智慧，絕對涉及著作的重製，亦可能涉及著作的公開傳輸，如不符合著作財產權限制（合理使用）的規定，即可能構成侵權；然而，「訓練」AI的過程與一般著作利用不同，著作經濟利益的保護，過去主要因其具有欣賞、娛樂或實用的功能而被保護，以確保足夠的經濟誘因，但AI至少在訓練的時候，似乎並沒有實際「影響」到前述欣賞、娛樂或實用的經濟利益，而是要讓微軟所設計出來的演算法得以「掌握」中文字所相關的「主題」、「前後字元關聯程度」，進而可以對外提供服務。如果單純為訓練之目的，將大量的現代詩輸入資料庫，會如同搜尋引擎大量下載、檢索網路資料一樣，被認定為「合理使用」嗎？若是AI將他人的著作納到其對外提供服務的資料庫中，每次「創作」時都以資料庫的內容多次疊加運算，是否屬於著作權法所保護「改作權」的範圍？又透過網路提供服務是否涉及「公開傳輸權」的侵害？若沒有明確的答案，當然可能對於產業投入研發這類人工智慧的應用會產生疑慮。

二、日本著作權法二次因應AI發展進行修法

(一)2009年著作權法第47條之7

日本著作權法因為不像台灣著作權法定有概括的合理使用規範（第65條第2項），因此，早在2009年即針對電腦資訊解析的利用（即相當於人工智慧訓練的過程），新增第47條之7，規定，「以電腦從事資訊解析（指自數量眾多之著作及大量資訊中，就構成該當資訊之語言、聲音、影像及其他要素之資訊加以抽出、比較、分類及其他統計性之解析。本條以下同。）為目的時，得於必要範圍內將著作記錄於記錄媒體或加以改編（包含因此所創作之衍生著作之記錄）。但為提供從事為資訊解析之人所用而製成之資料庫著作，不在此限。」屬於一種著作財產權的限制，不構成侵權。但僅限於從事「訓練」的過程，並不包含後續提供服務。

(二)2019年施行之著作權法第30條之4

2018年著作權法修正（2019年1月1日施行），針對人工智慧發展的需求，將原第47條之7刪除，改以第30條之4規範，認定在不會對著作權人的利益造成不當侵害的情形，得對於構成他人著作的文字、聲音、影像等元素的資訊加以抽出、比較、分類或其他解析等利用，且可以依據第47條之5就該等AI訓練的成果對外提供利用，因為這都屬於非作為該等著作原先所表達之思想或感情「享受」目的的利用（例如：微軟小冰的服務並不會使得其所創作的新詩，直接「替代」其資料訓練或運算時所使用的現代詩，但還是有潛在的市場競爭），明確放寬有關人工智慧訓練及對外服務，可能涉及他人大量著作進行資料解析利用的行為，相信將對於日本人工智慧發展有相當的助益。

考量到人工智慧訓練或服務所需之大量資料，如要求個別著作取得授權，恐將大幅提高各領域探索的進入門檻（例如：僅有手上握有大量資料或資金、資源的大型企業才有能發展），著作權侵權之刑事風險難以承受，日本著作權法之立法例得值得在鼓勵人工智慧發展立法時參考，但亦應一併評估對於大量利用他人著作所訓練的AI服務，是否應以適當的方式填補其所利用著作或資料權利人的潛在損害。

當自動駕駛時代來臨 AI立法的核心—責任釐清與分配(上)、(下)

不失控的世界，從歐盟AI立法的準備談起(上)、(下)

如何促進AI的發展—從Data Driven談資料應用的法律(上)、(下)

[1] 請參此項政策（Elements of the European data economy strategy）網站：https://ec.europa.eu/digital-single-market/towards-thriving-data-driven-economy,
2019/4/23 visited

[2] 請參，T客邦，專訪微軟亞洲研究院的人工智慧寫詩團隊，背後由兩位台大實習生接力幫忙建構，https://www.techbang.com/posts/51932-a-comprehensive-analysis-artificial-intelligence-behind-the-writing-of-secrets,
2019/4/24 visited.