摘要:摘要生物醫學是一門新興的前沿交叉學科,它綜合了醫學、生命科學和生物學的理論和方法而發展起來.近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生
摘要生物醫學是一門新興的前沿交叉學科,它綜合了醫學、生命科學和生物學的理論和方法而發展起來.近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫學研究中越來越頻繁的涉及到大數據存儲和分析等信息技術.大數據時代的來臨對生物醫學研究產生了重大影響.其中,一個重要發展趨勢就是由假設驅動向數據驅動的轉變.數十年來分子生物學水平上的實驗目的是獲得結論或者是提出一種新的假設,而現在基于海量生物醫學大數據,可以對海量數據的研究來探索其中的規律,直接提出假設或得出可靠的結論.隨著先進的生物分析技術的不斷推出和更新,生物醫學數據迅速積累.基于此類大數據一些以往不能解決的問題將有望解決,同時相關生物醫學研究的新問題也層出不窮.生物醫學相關的大數據技術和相關應用主要包括:基于高通量測序的個性化基因組、轉錄組和蛋白組研究,單細胞水平基因型和表型研究,人類健康相關微生物群落研究,生物醫學圖像研究等.相關生物醫學大數據分析任務均具有著數據密集和計算密集的雙密集性特點.要充分地利用這些大數據解決一系列生物醫學問題,迫切需要高通量、高效率、高準確性的生物信息存儲和分析策略.本文總結和回顧生物醫學大數據的生成、管理和分析相關的一系列問題,其中重點討論人體微生物群落、單細胞表型和基因型、生物醫學圖像等新近出現的生物醫學大數據形式,以及相關數據分析和應用前景等.基于目前生物醫學大數據的現狀我們可以發現,生物醫學大數據的研究正處于蓄勢待發狀態:適應于生物醫學大數據的軟硬件平臺、大數據存儲、大數據分析挖掘等方法等還不成熟,制約著生物大數據的研究.然而一旦相關研究獲得突破并有所優化和應用,將會全方位地支撐生物醫學大數據的深入解構;進而有助于對醫學現象的趨勢分析和預測,服務于相關的遺傳疾病研究、公共衛生監控、醫療與醫藥開發等廣泛生物醫學應用.
關鍵詞生物醫學大數據微生物群落單細胞醫學圖像數據挖掘

生物醫學是應用生物醫學信息、醫學影像技術、基因芯片、納米技術、新材料等技術的學術研究和創新交叉領域.隨著以“社會-心理-生物”為代表的大醫學模式的提出和系統生物學的發展,形成了現代系統生物醫學[1,2].面向生物醫學的系統生物學研究是與21世紀生物技術技術和大數據技術密切相關的領域,是關系到提高醫療診斷水平和人類健康的重要研究領域.
更新了一篇醫學相關的論文,如中獸醫醫藥雜志是國家級刊物嗎,您可以點擊并前往查看。
1生物醫學大數據研究的特點
1.1大數據的重要性
高通量的研究思路和相關數據生產方式的飛躍是大數據產生的主要因素.大數據經歷著從概念到小范圍技術實踐,最終到廣泛接受并成為一個新興研究方向的歷程.2008年9月,Nature雜志率先出版了由Howe等人[4]所發論文組成的“大數據專刊”,表明大數據的影響已觸及自然科學、社會科學和工程學的各個領域.2009年10月,TheFourthParadigm:DataIntensiveScientificDiscovery[5]一書的出版,顯示出與大數據關系密切的數據密集型科學發現范式已被確立和廣泛認可.2011年2月,Science雜志推出Overpeck等人[6]所發表文章組成的“數據處理專刊”.2012年5月,聯合國發布大數據政務白皮書BigDataforDevelopment:Challenges&Opportunities[7],體現了大數據領域的研究計劃在國家倡議層面的重要性.2014年Science雜志推出“Bigbiologicalimpactsfrombigdata”[8]等一系列評論,也明確無誤地表明了生物學相關研究已進入大數據時代.
1.2生物醫學大數據的特點
以高通量測序儀器、單細胞檢測裝備和實時動態圖像系統為代表的新一代生物分析平臺已經和正在為生物醫學研究提供海量數據,而要充分利用蘊藏于海量數據中的深刻規律,大數據驅動的研究策略必不可少[9].大數據至少包含3層含義(3V)(圖1):數據量大(volumeofdata),處理數據的速度快(velocityofprocessingthedata),數據源多變(variabilityofdatasources).這是那些依賴大數據進行分析和預測過程的重要特征[10].具體到生物醫學大數據研究而言,大數據研究的3V特點體現如下:第一,生物醫學數據量大.通常對于一個樣本的人體基因組和轉錄組(多組織多時間點)測序數據量會分別超過100和30GB(基于3GB人類基因組和10~30倍測序深度).考慮到一次試驗中通常會涉及到數百個甚至上萬個人體樣本,相關的數據量產出十分巨大.第二,研究對于處理結果準確性和處理速度均有較高要求.如個性化醫療[11],就具有較高的時效性要求,而單細胞測序及診斷等[12],對突變位點和功能模塊的鑒別準確性要求較高.第三,相關源數據來源多變且具有較大的異質性.同時生物醫學數據的分析和解釋通常會利用到NCBI系列[13]等通用數據庫以及UniProt(www.uniprot.org)等專業數據庫.源數據和數據庫的異質性,會導致數據缺失、數據矛盾等問題的普遍存在,成為相關大數據整合與分析的瓶頸.正是因為生物醫學研究具有典型的3V特點,所以需要依靠大數據思維和數據分析策略對生物醫學數據進行深入挖掘.
2生物醫學大數據的典型應用
典型的生物醫學數據包括癌癥、個性化醫療等數據,其呈現形式包括功能基因組、單細胞、宏基因組(又稱元基因組)數據等.所有這些數據存儲于NCBI或EBI等大型通用數據庫中.同時隨著高通量測序技術的發展和應用以及生物技術與信息技術的融合,NCBI等大型通用數據庫中生物醫學數據類型和數據規模不斷增大[15](圖2).
3生成海量大數據的先端生物技術
生物醫學大數據的研究依賴于高通量、高質量的數據生成線段生物技術和相關儀器.目前生物醫學大數據的來源主要有3種:(1)DNA測序儀器;(2)高通量高精度質譜儀;(3)高通量高精度表觀型分析儀器.詳見圖3.
4生物醫學大數據的分析
生物醫學大數據可以分為大數據存儲和大數據分析兩方面,其中大數據存儲服務于大數據的深入分析.當今生物醫學中的典型大數據包括各類基因組數據、宏基因組數據和單細胞數據以及生物醫學圖像數據等.
參考文獻
1EngelGL.Theneedforanewmedicalmodel:Achallengeforbiomedicine.Science,1977,196:129–136
2AntonyP,BallingR,VlassisN.Fromsystemsbiologytosystemsbiomedicine.CurrOpinBiotechnol,2012,23:604–608
3CollinsFS,MansouraMK.Thehumangenomeproject.Cancer,2001,91:221–225
4HoweD,CostanzoM,FeyP,etal.Bigdata:Thefutureofbiocuration.Nature,2008,455:47–50
寧康①*,陳挺②③*