DJ·帕蒂爾談如何更好地利用公共和私有的數據,以及怎樣保護數據免遭濫用。
對華盛頓特區(qū)而言,數據科學已經不是新鮮事兒了,而DJ•帕蒂爾( DJ Patil)的名號也已經為政府所熟知,近日,白宮任命他成為了全美首席數據科學家。早在六年前,總統(tǒng)巴拉克•奧巴馬就授權啟動了“國家數據(Data.gov)”網站項目,旨在要求所有政府機構對外公開至少三組“高價值”的數據信息。現(xiàn)在,這項任務需要帕蒂爾來負責了,他既要督促政府各部門及時公開數據,又要同時確保信息準確無誤。
圖片來源: DJ Patil
帕蒂爾是一名資深的數據專家,曾在數個科技公司以及著名的格雷洛克風險投資公司(Greylock Partners)擔任顧問。他此次重返華盛頓,首要任務便是白宮推出的“精準醫(yī)療計劃 ”。今年一月份,奧巴馬政府正式提出了這項耗資2.15億美元的公共醫(yī)療預算案,旨在通過采集患者的背景信息建立一個數據庫,然后基于每位病人的基因、環(huán)境與生活方式,因人而異對癥下藥,最終由醫(yī)療機構設計出個性化的診療方案 ,該法案有望于2016年生效。該項目另一個巨大的優(yōu)勢,便是它能夠有力地促進了癌癥新療法的發(fā)展,使其不僅能得益于科研工作者的最新研究數據,還能充分地整合了癌癥患者的個人病情信息。帕蒂爾需要擔當起管理員的角色,要使各方在不受隱私侵犯的前提下,想辦法讓研究員、健康中心與疾病患者之間做到數據共享,將數據庫的潛能發(fā)揮到極致。
同時,帕蒂爾還被任命為白宮科技政策辦公室的數據政策副首席技術官。早在20年前,帕蒂爾第一次來到華盛頓特區(qū),還只是一名馬里蘭大學的助理研究員。盡管只是一名具有博士學位的教職工,但帕蒂爾利用美國海洋和大氣管理局的公開數據,有效改進了氣象的數值預報。之后,他又在國防部短暫地參與了社會網絡的分析工作,負責尋找危害美國國家利益的潛在新威脅?!犊茖W美國人》有幸邀請到帕蒂來談談他的新工作。
全美首席數據科學家應當肩負的任務是什么?
我想說,奧巴馬總統(tǒng)在他的任期內從始至終都重視著數據科學的發(fā)展,可以說,他才是真正的全美首席數據科學家。他也是第一位提出使用數據分析來考察信息技術項目的總統(tǒng),在2013年,他簽署了一項行政命令,要求政府信息必須公開、可查閱。“國家數據網”便體現(xiàn)了總統(tǒng)的遠見卓識,讓聯(lián)邦政府、州政府甚至地方團體都得到了有效的管理與監(jiān)督。
除了奧巴馬政府擬定的數據科學計劃,你的其他工作是什么樣的,比如建立“國家數據網”是嗎?
的確,“國家數據網”是這個龐大項目的一部分。目前有三項最迫切的任務擺在眼前。第一,就是“精準醫(yī)療計劃”的擬定與完善。現(xiàn)代科學已經完整破譯了人類基因組,而我們要做的是把這些成果和數據科學的力量結合起來。后者現(xiàn)在擁有機器學習等新技術,還有從每個病人的手機或其他的傳感器終端那里獲得的海量數據。我們面臨的真正挑戰(zhàn)是,把這些都整合起來,開保健與醫(yī)療未來發(fā)展的全新思路。
第二項任務是什么呢?
我的第二項重要任務,就是督促政府和社會組織公開更多的數據信息,在這些數據的基礎上建立一個氛圍自由的科研生態(tài)環(huán)境,研發(fā)供人們隨身查閱的手機軟件并制作可視化的圖表。國家氣象局就是一個經典的范例,他們率先嘗試把重要數據公之于眾,盡管每天的數據更新量達21Tb,但只要借助了新科技手段,便可以輕輕松松地用手機閱讀了。對普通人來說,數據共享讓安排日?;顒?、確認航班信息更加便捷,所有這一切無不深刻影響著我們的生活,世界正在日新月異地變化著。
那么,你的第三項任務又是關于什么的呢?
我的第三項重要的任務,就是借幫政府的各個機構增強數據處理的能力。無論是美國衛(wèi)生研究院,亦或衛(wèi)生部,我們都注意到有越來越多的數據科學家和數據分析師參與進了工作。美國商務部上周正式宣布有史以來的第一位首席數據分析師就職,伊恩•卡琳有幸地獲此職位。所以,我們會盡全力將數據科學的技術和信息統(tǒng)計的概念,充分而務實地應用到政府工作中去,以求擴展出更優(yōu)質的新服務項目。
這些新的服務僅能為政府所用?是否能惠及普通大眾?
都能用。這些服務對科學家和普通市民都很有價值,我們發(fā)現(xiàn)人們開始關心各類因素會給他們的健康帶來何種影響。隨著氣候變化加劇,人們越來越關心氣候數據對本地的影響,例如過敏和萊姆癥(Lyme disease)的發(fā)病率。這也就告訴我們,不同類型的信息組合在一起時,其凝聚而產生的效用不容小覷。我還想強調的是,共享信息能夠使我們更好地抵御災害。舉個例子,每個地方政府一定都能詳細地繪制出當地各類資源的位置,比如加油站等,而聯(lián)邦應急管理局若是可以很好地整合這些分散的信息,那么在應對惡劣天氣、雨季洪水等自然災害時,便能更加主動,從容不迫了。
近幾年來,政府越來越重視數據的作用,那么你認為政府怎樣做才能在共享數據的同時做到對公眾隱私的保護呢?
這個問題的核心在于如何來限定個人在訪問并獲取信息時的權限。這也意味著,我們在收集與使用數據時必須遵守道德,切忌侵犯他人隱私。例如,在最新公布的白宮大數據報告中,有一項重要的法案明文規(guī)定了應當如何妥善處理學生檔案,以防學生的個人信息被用于商業(yè)用途。然而,另一項法案則談及了去年的聯(lián)邦貿易委員會報告,其強調了使用公共數據時應盡相關義務,并且要求企業(yè)做到信息公開化、透明化,更加親近消費者。具體到我們的“精準醫(yī)療計劃”,總統(tǒng)已經多次表明這會是一項親民的法案,無論是學術界、企業(yè)界或是政府,在設立法案時都擁有平等的話語權。
你能具體描述一下使用公共數據時的義務嗎?
義務就是時刻要為自己的行為負起責任,要找到最合適的透明化標準,好讓人們清楚地了解自己哪些信息會被公開使用,而哪些信息被嚴格封存著。拿精準醫(yī)療計劃來說,我們創(chuàng)建的是一個志愿者體系。參與進項目中的志愿者都會被事先告知,某些診療數據會被數據庫收錄而公開,當然,如果他們想更多地保護自己的隱私,不公開也是沒有問題的,這完全自愿。
在數據科學領域,哪一項成就是你最引以為豪的?
最令我感到自豪的,應該要屬我最近的一項科研工作和最近的一個政府項目。其中,那項科研工作的核心問題是:我們能不能換一個角度來思考天氣,或許它看似雜亂無章實則有律可循呢?要問哪一種數據能切實影響人們的日常生活,天氣無疑是最佳之選,有些時候氣象上的微小變化,能夠產生難以置信的可怕后果。哪怕對氣象預報的改進有一點點幫助,都會影響到許多人,如今又是網絡時代,只要宣傳得當,百萬,千萬,上億的人受影響已不是天方夜譚。在氣象部門工作,無形中賦予了你影響千百萬人生活方式的能力。
我上次在政府部門工作時,接到的一個任務叫做“伊拉克虛擬科學圖書館(Iraqi Virtual Science library)”,該數據庫后來成為了伊拉克學術界的權威領地。研發(fā)完成的四、五年后,該系統(tǒng)就交給了伊拉克政府。能夠親身參與數據庫建立的工作,我感到很幸運,能夠看著人們的生活切實地發(fā)生改變,越來越便捷,越來越精致,在數據信息領域我認為實現(xiàn)了個人價值?,F(xiàn)在,能重新拾起昔日的工作,我覺得恍如隔世,卻又倍感激動。在公共社會領域中,最重要也最亟需解決的問題常常被人們所忽視,而利用我的專業(yè)技能解決他們是我一直的愿望,沒有什么比這更值得我付出了。