現在好像人人都愛說“大數據”,就像平時我去開會,不是用大數據分析這個,就是用大數據建構那個。可是我最近看《美國計算機學會通訊》(CACM)上面提到了幾次小數據,我覺得大家也有必要瞭解一下這個有趣的概念。
  什麼是小數據?小數據就是個體化的數據,是我們每個個體的數字化信息。比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來,這天喝的酒是個新牌子,可能就是喝了這個新牌子的酒讓我胃疼。這就是我生活中的“小數據”,它不比大數據那樣浩瀚繁雜,卻對我自己至關重要。
  第一個意識到“小數據”重要性的是美國康奈爾大學教授德波哈爾·艾斯汀。艾斯汀的父親去年去世了,而早在父親去世之前幾個月,這位計算機科學教授就註意到老人在數字社會脈動中的些許不同——他不再發送電子郵件,不去超級市場買菜,到附近散步的距離也越來越短。
  然而,這種逐漸衰弱的狀態,真到醫院去檢查心電圖,卻不一定能看出來。到急診室檢查的時候,不管是測脈搏還是查病歷,這個90歲的老人都沒有表現出特別明顯的異常。可事實上,追蹤他每時每刻的個體化數據,他的生活其實已經明顯與之前不同。這種日常小數據帶來的生命訊息的警示和洞察,啟發了這位計算機科學教授——小數據可以看作是一種新的醫學證據,它是“your row of their data”(他們數據中屬於你的那行數據)。
  人們愛說,大數據將改變當代醫學,譬如基因組學、蛋白質組學、代謝組學等等,不過由個人數字跟蹤驅動的小數據,也將有可能會對個人醫療帶來變革,特別是當可穿戴設備更成熟後,移動技術將可以連續、安全、私人地收集並分析你的數據,這可能包括你的工作、購物、睡覺、吃飯、鍛煉和通訊,這些數字追蹤將得到一幅只屬於你的健康自畫像。
  擁有了這幅專屬於自己的數字自畫像,有什麼好處呢?假設你是一名患者,這樣精確個體化的小數據也許可以幫助你回答:我每次服藥應該用怎樣的劑戀比渙耍┪鎪得魘檣匣嵊幸桓鯰靡┲傅跡歉鍪凳腔詿罅坎∪撕A渴萃臣品治齙美吹模什皇屎洗聳貝絲痰哪隳兀坑謔牽憔托枰私夤賾諛闋約旱摹靶∈蕁薄6雜諑圓 ⒁鐘糝ⅰ⒓且淞λネ撕塗寺薅韃。苄枰粘;疃浠氖蕁4笫菀話閌譴右桓齟驨的種群裡面取得的,而小數據n=me。我們需要數據解放,把移動和網絡服務的數據解放到你我自己。
  這樣一來,小數據也許可以為我們提供更多研究的可能性:能不能通過分析年老父母的集成數據,進而獲得他們的健康信息?能不能通過這些集成數據,比較不同的醫學治療方案?譬如數據跟蹤能說明你散步可以走多遠,你多早離開家,那就可以表明關節炎藥物治療效果如何。
  更令人期待的是,小數據或許還將成為人類攻剋癌症的一個好幫手。現在許多人認識到需要用患者的數據進行個性化的癌症治療。我們要特征化所有患者。腫瘤細胞的DNA引起不同的癌症病人非常不同的變化。譬如,大致相同的基因變異或刪除只占患者的10%。即使是同一個腫瘤,其細胞的變異也不同。基因之間的相互作用可能引起二次變異,對患者的治療影響很大。所以,對許多患者用同一個治療方法是不可能成功的。個性化或者說層次式的藥物治療是要按照特定患者的條件開出藥方——不是“對症下藥”,而是“對人下藥”。這些個性化的治療都需要記錄和分析個人行為隨時間變化的規律,這就是小數據。
  當然,這並不是說大數據就不重要。在醫學上發現治療的一般規律需要大數據。歐美各國都在計劃編製患者信息的數據庫,不但為了癌症治療,也為開發新的治療方法。集成大量在線數據庫可以推動個性化用藥,減輕他們的痛苦。從大數據得到規律,用小數據去匹配個人。
  大數據流行,大家就“言必稱大數據”,可這並不是做學問的態度,不要碰到大量的數據,就給它戴上一頂帽子“大數據”。就像20年前,系統工程也很時髦。哪怕是做報告談到一個比較大的工程,都說那是系統工程。可系統工程又怎麼樣呢?“那是很難的”,就沒有下文了。我們應該敞開思想,研究實際問題,切忌空談。
  閔應驊系中國科學院計算技術研究所研究員、美國電子電氣工程師協會會士(IEEE Life Fellow)  (原標題:大數據時代聊聊小數據)
arrow
arrow
    全站熱搜

    nw58nwuoga 發表在 痞客邦 留言(0) 人氣()