loader

去識別化-- 應用大數據和AI 於金融科技的重要基礎建設

Foto

任何產業的發展,若期能可長可久,基礎建設的建立與維護常是不可或缺的一環。製造業的基本建設,是能源,交通,原物材料等等,而金融產業則最重要的則是資訊(數據)。以目前全球的股市之能夠如此發達為例,當初芝加哥大學建立了CRSP歷史股價資料庫,與賓州大學華頓學院建立了Compustat上市公司財報資料庫,提供各界人士做各種分析應用,均是功不可沒。

 近年來AI與金融科技逐漸成為顯學,政府更投入大筆的經費提供各類研究,不過巧婦難為無米之炊,如果缺乏質量兼具的資料來進行分析,即使有再好的技術含量,也難以在適當的場景加以發揮。台灣過去在金融資料的基礎建數頗為領先,民營的台灣經濟新報資料庫(TEJ)是華人地區第一個專業金融資料庫公司,官方的聯合徵信中心也曾是世界銀行排名第一的官方信用資料庫,然而隨著大數據與網際網路的發達,台灣在這方面的優勢也逐漸流失。台灣最具歷史的一家民間徵信資料庫公司去年被外國購併,對岸的金融資料庫公司逐漸蠶食了本土的市場,台灣的交易與風險金融相關資料也經由互聯網交易為境外所擁有。

 多年前政府曾積極推行開放資料(Open data),雖然有些效果,但還是有相當的成長空間與不足之處,主要原因是開放資料常會與個人資料保護有所衝突,在缺乏適當誘因或是壓力之時,即使有相當的社會公益可期,以保護個資作為不能(不願?)與外界分享資料的理由(或藉口?),是可以理解的。

 然而過猶不及,國際上對於如何個人資料保護與提高社會公益之間的權衡,也一直在做適當的調整。例如美國眾議院於2017/3/28 廢止了歐巴馬時代訂定的網路隱私保護法規,川普也在2017/4/3 簽署了這項決議。原條文是:「所有的網路服務提供者(ISP),在取用客戶使用習慣資料,例如:網路瀏覽歷史紀錄,所在位置等資訊時,要先經過用戶同意,在客戶同意前,這取用會被預設成「關閉」(Opt-in)模式」。至於修法理由是,它限制了公平競爭,扼殺了創新。

 除了法律與規範上的修正以外,為了兼顧開放分享資料與個人資料保護之間的平衡,「去識別化」(De-identification)是近年來重要的發展方向,所謂去識別化,是指「移除或模糊個人資料中任何可識別資訊,其目的在降低個人非意欲揭露其相關資訊的風險」。與其相近的名詞有匿名化(Anonymization):指的是去識別化敏感資料的過程,其產生的資料使不可逆推原始資料,但適當保留了原有的格式與類型。虛名化(Pseudonymization),則指移除了原始資料的辨認連結,而以其他的虛擬辨認機制來取代。脫敏(Masking)一般則指將敏感的欄位包括格式與類型都完全移除。資料混淆(Data obfuscation),則指將資料混亂來進行匿名化的過程。基本上以上的名詞大同小異,在實務上也常被交互運用。

 目前在國際上對於去識別化有較完整規範的包括了英國的資訊專員公署(Information Commissioner's Office)與民間籌組UK Anonymisation (UKAN)來建立適當標準,美國的健康保險可攜與責任法Health Insurance Portability and Accountability Act (HIPAA)與衛生及公共服務部Department of Health and Human Services (DHHS)等等機構組織,還有2017年ISOI公布的ISO25237,也對去識別化(虛名化)提供了適當的標準與規範。

 大致而言,去識別化與其他的社會科學類似,我們永遠無法證明某個去識別化的資料絕對不可逆,或是再識別化(Re-identification)「百分之百」不可行,但重點是要在某些時空下能控制在適當可接受的風險容忍度之內。去識別化最擔心的就是被再度識別與還原可逆而洩漏了敏感的個資。一般被攻擊入侵的方式會有三類的風險。一是特定者風險(Prosecutor risk),是指針對某已知特定人的資料來再識別化,二是非特定人風險(Journalist risk),針對非特定人資料再識別化的風險。三是多數人風險(Marketer risk),是指入侵者能夠再識別化最多人的風險。一般而言,這三類風險的大小基本上是遞減的,但都應該加以評估。

 目前雖然各種金融數據種類繁多,例如基本,借貸,社群,交易,新聞等等資料不一而足,甚至有資訊超載的情況,但是在重質不重量的前提下,共享或交換有價值的資料有相當的必要性,去識別化則是應用大數據與AI於金融科技時相當重要的基礎建設。金融去識別化需要的專業包括有1.資安加密的專業、2.金融專業、3.統計數學的專業,與4.相關法律的專業。需要團隊合作方能畢其功。台灣培養許多優秀的資料運用與分析人才,但若不能提供適當的可供其分析的資料養分,他們被外國挖角的機會就越高。為了推廣金融科技還是其他以資料為本的產業,台灣培育一個進口替代去識別化的專業甚至產業有其相當的價值!