欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

大數據“老兵”暢談大數據基礎設施建設

2014-07-31 23:11:23 TechTarget中國  點擊量: 評論 (0)
Martin Leach在大數據工作方面非常忙碌。他曾作為MIT和哈佛大學聯合開辦的Broad研究所的CIO,在那里,他要負責13PB數據的存儲,使用超級計算機進行計算。他和他的團隊為人類基因圖繪制工作做出了卓越貢獻。  
Martin Leach在大數據工作方面非常忙碌。他曾作為MIT和哈佛大學聯合開辦的Broad研究所的CIO,在那里,他要負責13PB數據的存儲,使用超級計算機進行計算。他和他的團隊為人類基因圖繪制工作做出了卓越貢獻。
  在研究所之前,他團隊所支持的研究小組為醫藥巨頭默克公司研發。現在,他的新職務是生物技術公司Biogen 的IT研發副總裁,目前,他一些數據科學家編入團隊。這只團隊通過大數據分析處理保障Biogen 公司的研發。
  在他離開非營利組織Broad生物研究所前,我們的編輯采訪到Leach。他介紹了CIO在大數據方面所面臨的困境,以及處理大數據所需要的技術和能力。Leach表示,企業大數據分析的投資已經由最初的200萬美元上升到400萬美元,很少專家愿意使用開源工具工作。而最不被重視的數據科學家往往能為企業找到真正有用的數據。
leach_martin
  問:你曾經作為CIO們的咨詢顧問,在企業建設大數據基礎設施時提供建議,你通常都會有哪些建議?
  Leach:最開始的階段是要確認企業的大數據項目計劃是什么。做這個項目的最大需求是什么,這是開始階段最重要的問題,絕不是考慮什么技術或者需要采購什么項目。
  問:在Broad研究所的時候,他們做大數據項目最大的需求是什么?
  Leach:當時最大的需求是解決內部數據的產生、消化以及存儲問題。那個時候在公共機構,比如Broad和私人機構之間是有一個競爭的,看誰能做出人類基因圖。因為有這樣的外部驅動力,所以,我們考慮的都是如何把項目做的更快一些。我們當時要么慢下來,要么放棄這個工程,要么尋找到更快項目實施方法。
  這對我來說,無疑是個挑戰,尤其我對生物技術至今都了解不多。他們將一些實驗外包出去,并將生成的數據傳輸過來,突然間,他們就會有數以萬億字節的數據需要傳輸,他們會有這樣的疑問:“我該往那種硬盤里存放數據?我如何獲取這些數據?我計算這些數據時要放置在哪里?我又該如何去計算呢?” 我在一群生命科學家那里看到的是他們對數據處理有非常強烈的需求,他們的第一個問題是:“我如何處理這些數據?又該放在哪里?”
  問:那他們存放在哪里?
  Leach: 很多公司會放置在公司內部。但有些公司會放在云端,但這些數據量很小也不會常用。生命科學領域的數據通常包括遺傳學與基因組學資料、藥物信息或者病人記錄,如果存放在防火墻之外會有很多憂慮。
  所以,當你確定為什么需要數據后,下一個工作就是考慮如何存放他們。再下一個就是如何利用計算機處理數據。那是需要在內部計算機內存儲處理呢,還是放置在云端,比如亞馬遜上,需要時再拿回來處理?這就涉及到大家的另一個猜想,為什么數據需要首先在內部處理呢?
  問:獲取數據簡單嗎?
  Leach:真正的獲取過程并不簡單。考慮到傳輸速度,有些公司會從云端傳輸。有些則使用硬盤傳輸。這里面涉及到很多問題,比如,你從波士頓獲取數據,但你的數據中心在北卡羅來納州,我需要解決的問題是,我該如何將幾百億字節的數據通過公司網絡傳到服務器上,為此我還要做哪些工作?
  問:公司如何處理數據的獲取?
  Leach:有些情況下,研究基于硬盤上的一堆數據,企業就會消極對待傳往服務器上的數據。有些情況,企業試圖在內部網絡中使用數據,進而影響內部網絡,因為他們會將數據轉移到典型的企業數據網絡而不是數據中心。另外一些則是和IT部門緊密合作。
  這部分取決于企業其他部門如何與 IT部門合作。我認為網絡限速器是為了讓其他部門更好地與IT部門合作,也是為了保證IT部門的足夠靈活性。這類的項目并不是傳統意義上標準的IT基礎設施。嘗試在Oracle數據庫上研發大數據,Oracle會建議你購買一些外部硬件,但你需要數據庫專家,這些專家不僅懂得常規數據庫關系,也要了解NoSQL、CouchDB、 MongoDB等等。
  接下來就是如何找到一群高素質的人才,他們可熟練運用現在的開源技術產品,比如Hadoop、OpenStack之類。人才對于團隊來說至關重要,我常常聽到同行們的抱怨:“我該去哪里找到真正的千里馬?”
  問:CIO們會去哪些領域尋找人才?
  問:我從eBay的CTO那里了解到,一個重要的領域就是經濟學家。經濟學家喜歡在數據中尋找金礦,他們也喜歡用數據去解決深層次問題。有一群突然意識到大數據的經濟學家會說:哇,我們從來沒有處理過這種水平的數據。
  問:所以,你只能找那些喜歡數據挖掘避過愿意使用開源工具的人?
  Leach:我曾經看到一群物理學家在大數據領域工作。Hadron Collider里的工作人員每天需要沉浸在在機器產生的PBS數量級的數據中。經濟學家、物理學家以及喜歡衍生工具的人,都是典型的數據分析師:他們喜歡數據。我將去經濟學家領域找到合適的人才,因為我之前不太重視他們。
  問:一些公司對大數據最大的誤解是什么?
  Leach:我認為很多公司都不會意識到他們如何在一開始就小心翼翼的對待數據。你在數據管理、注解、組織方面花的時間少了,就會影響你如何使用數據。我們從一份統計里看到,當我們的項目完成五個月后,就沒有人再去關注數據里。你兩年來的數據怎么處理?刪掉他?還是重新組織?鑒于目前數據存儲成本下降,我們可以存儲這些數據。
  問:這或許就是你談到的,當人們開始面對大數據時,往往會變得很短視?
  Leach:不僅是IT部門的短視,連數據搜集者也是這樣。IT部門負責數據搜集,從IT的角度來看,IT部門是不會考慮長遠的,但搜集者也是僅僅關注當下的數據,或關注他們搜集到的數據。
  問:為了實現大數據的目標,你需要收集足夠多的數據,你手機的越多,做出的預測也越精準,可以這樣理解嗎?
  Leach:是的,如果你真的能把握的話,大數據僅僅“大”而已。
大云網官方微信售電那點事兒

責任編輯:葉雨田

免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
?
主站蜘蛛池模板: 日本欧美成人免费观看| 一级片+国产| 亚洲最大成人网 色香蕉| 欧美成人综合在线| 青久久| 欧美另类人妖| 青草国产视频| 性亚洲| 亚洲国产婷婷综合在线精品| 亚洲最大福利视频| 亚洲国产lv| 日本三级韩国三级香港三级a级| 天天操天天拍| 亚洲国产一区二区三区最新| 亚洲六月丁香六月婷婷色伊人| 日韩精品视频福利资源站| 性做久久久久久| 亚洲理论| 色爱区综合小说| 日韩一本二本三本| 日韩高清专区| 欧美一区二区三区日韩免费播| 亚洲视频免费看| 酥酥影院一级毛片在线看| 天天操天天干天天透| 香蕉久久一区二区三区| 天天爽夜爽免费精品视频| 亚洲激情视频在线观看| 亚洲精品aaa揭晓| 亚洲日本黄色片| 日韩中文字| 青青青草免费| 日本jizz在线播放| 午夜国产小视频| 亚洲成人免费看| 武侠古典久久亚洲精品| 亚洲欧美第一页| 亚洲动漫在线观看| 欧美伊人网| 欧美成人专区| 亚洲自偷自拍另类图片|