知識分享

從科技部開放AI語音數據資料集談資料的「權利」變化(下)

2019/07/03

三、從海拉細胞到人臉辨識，不只是純粹的研究倫理問題

「海拉細胞」是人類醫療史上第一個可以在人體外存活、繁衍的細胞株，長期以來對於醫學研究有極大的貢獻（促成小兒麻痺疫苗、化學療法、基因圖譜、試管嬰兒等醫學突破），但直至2010年暢銷書《海拉細胞的不死傳奇》（The Immortal Life of Henrietta Lacks）出版後，「海拉細胞」的貢獻者-海莉耶塔・拉克斯，才為世人所認識，而距離1951年她踏入巴爾的摩的約翰霍普金斯醫院（同年10月病逝於該醫院）已超過半世紀。當該醫院的醫師利用治療過程中取出檢驗的癌細胞，成功在試管中培養繁殖，「海拉細胞」成為半個世紀以來科學家做人體相關研究的最佳利器。但這些貢獻都是在從未曾取得同意，其後人也都一直被蒙在鼓裡的情形進行，可說是一段醫療科學的「黑歷史」。

病人的癌細胞是醫療廢棄物？還是專屬於病人財產權或人格權的一部分？事實上，法律通常都是落後於社會的發展。回到1951年，恐怕沒有人會想到原先只是正規的醫療作為，對於根本無需特別注意的「醫療廢棄物」，會對人類產生這樣重大的影響，而其利益又大到現在的我們覺得沒有回饋予海莉耶塔・拉克斯或其後代，感到非常的愧疚。然而，即令是醫療或研究倫理的議題較受重視的今天，恐怕遇到類似問題的做法也只不過是補足請當事人同意並放棄全部權利的文件而已，狀況也說不上有太大的改善。法律上是否有必要針對這類同意的文件內容、對價關係的公平性，甚至是其後利用上的倫理議題進行規範？

人臉辨識在近期也受到社會各界非常大的關注，尤其是利用數個不同影像比對特定個人的臉部特徵，進而識別出該個人身分的應用，FB自動標示照片中出現的其他FB用戶，即是我們日常生活最常接觸的應用。或許不少讀者覺得這個功能很方便，但只要你的影像成功被系統識別，後續該系統即可比對出你其他本來是未知的影像。亦即，本來可能你以為自己是在「匿名」(anonymous)的狀態，但對於應用該等人臉辨識的政府、廠商，其實是逃無可逃，FB雖然允許使用者決定是否在他人的照片上標示自己，但即令你不允許，FB也知道你曾經出現在那張照片拍攝的場景中。

當人臉識別被大量應用時，除了前述「隱私」的議題之外，因為人臉識別尚不能完全100%正確，因而可能衍生據此作出相關作為對於被「誤認」的當事人的困擾，甚至權利的侵害。例如：目前AI人臉識別的精確度在有色人種，尤其是黑人婦女的識別準確度上與白人明顯有落差，若被用於犯罪偵查、交通違規、商業場域影像監控等，即可能使有色人種的人權受到較白人更不利的影響，這在美國引發相當大是否涉及種族歧視的論爭，更不用說政府機關如果大量採用人臉識別，或是政府機關透過商業或行政手段取得商業組織所握有的識別資料可能產生的爭議。

四、量變造成質變–大數據與AI應用的「不確定性」

早期單一的個人資料也只是被當作是一種編碼、代號，隨著單一的個人資料被集結成為資料庫，甚至透過電腦可以大量匯聚、比對資料庫內容，政府或商業組織開始依賴資料庫進行各項比對與決策時，個人資料由單純的編碼、代號，變成可能影響個人權益的事項，台灣在1995年制定「電腦處理個人資料保護法」，而面對個人資料全面數位化的蒐集與利用，2010年再進一步基於「資訊隱私權」保護制定「個人資料保護法」，將個人資料進一步「權利化」。但是，2010年修法時，並沒有特別考量大數據或AI對於個人資料保護的影響。

舉一個日前在社群平台上廣泛流傳、源於中國電商從業人員的發文為例，「在我們電商行業，找女朋友有一條不為人知的鐵律。不能找淘寶好評率底於98%，滴滴低於4.8，搜索核心詞連衣裙，客單低於128的…以上三條同時滿足的人，難伺候。」這段發言引起許多迴響，姑不論其背後隱含僵化的性別意識，但表面上看似無關的資訊，最後可能被當作人工智慧或工人智慧決策的重要判斷因素，與過去資料庫比對的爭議性質已有不同。亦即，大數據與AI的發展，過往可能認知上彼此不相關的資訊，可能因數據的範圍「廣」、數量「大」到一定程度，而產生所有人沒有預期到的有意義的資訊。從Data到Database再到Big Data，並不只是量的差異，而可能已產生出質的變化。

我們現在如同1951年的醫院或醫療從業人員可能沒有預期到癌細胞的培養會出現可以獨立存活、生生不息的「海拉細胞」，面對大數據、AI的發展，應該要「意識到」當涉及個人的資料，無論現在是否被認為是一種個人資料，無論是否經過同意而被蒐集，當含有與個人相關的資料被大量蒐集並作後續AI發展的應用時，無論是蒐集者或利用者，可能都無法完全「預知」或「掌握」，相較於後續利用的不確定性，幾乎都無法達到「告知後同意」所設定的目標，反而使「告知後同意」淪為僅是為達形式合法的裝飾品。

筆者認為考量到大數據、AI發展的需求，或許我們不應該從「資訊隱私權」的角度來看待錄音資料，我們比較需要的應該是如何避免這些錄音資料（即令經過被錄製的人們同意），被用於可能對於當事人不利的應用上。因此，或許科技部在對外開放授權這類含有與個人相關的影像或聲音的資料時，針對來源的資料，應該參考Google或Apple，以適當的經費與嚴謹的合約，尋求專業的人員來製作語音助理的「音源」，對於從未意識到自己的聲音可能被用於語音辨識，甚至是後續其他的AI應用產品，應該適當地限制其利用。亦即，如果來源無法做最完整、乾淨的處理，後續對外開放時應該基於對於相關人員權益影響的「不確定性」，採取較保守的態度，甚至應該是保有依據利用方申請目的與範圍，個案評估是否授權或提供，而非很簡單地「開放授權」而不作任何控管，這樣對於可能受影響的被錄製的「人民」，是一種不公平。

賴文智律師 / 所長 Wenchi Lai