身為數(shù)據(jù)科學(xué)家怎么能不掌握這四大技能!
數(shù)據(jù)科學(xué)家往往希望將他們所知道的每一種技術(shù)和算法都應(yīng)用于每一個(gè)問(wèn)題的解決方案上。相應(yīng)地,這就會(huì)使系統(tǒng)非常復(fù)雜難以維護(hù)。
數(shù)據(jù)科學(xué)確實(shí)需要復(fù)雜抽象的模型及大量的復(fù)雜技術(shù)(從Hadoop到Tensorflow)。在這個(gè)充斥著復(fù)雜性的領(lǐng)域,人們會(huì)傾向于開(kāi)發(fā)復(fù)雜的系統(tǒng)和算法,稍不留神就會(huì)在開(kāi)發(fā)中涉及四、五種不同的技術(shù)并使新的熱門(mén)算法或框架。然而,像大多數(shù)涉及工程的其他領(lǐng)域一樣,減少?gòu)?fù)雜性往往會(huì)帶來(lái)諸多好處。
如果馮•諾依曼,埃爾溫•薛定諤和愛(ài)因斯坦可以幫助我們理解數(shù)學(xué)和物理驅(qū)動(dòng)領(lǐng)域的復(fù)雜性,那么我們數(shù)據(jù)科學(xué)家不能隱藏在復(fù)雜性背后。
工程師的角色就是去簡(jiǎn)化任務(wù)。如果你曾經(jīng)建造或看到過(guò)魯布•戈德堡機(jī)械(Rube Goldberg machine),你會(huì)理解什么是用復(fù)雜方法去完成簡(jiǎn)單任務(wù)。一些數(shù)據(jù)科學(xué)家的算法和數(shù)據(jù)系統(tǒng)看起來(lái)像是用膠帶和口香糖粘起來(lái)的老鼠夾,而不是簡(jiǎn)潔有效的解決方案。更簡(jiǎn)單的系統(tǒng)意味著隨著時(shí)間推移系統(tǒng)會(huì)更加容易維護(hù),并且未來(lái)的數(shù)據(jù)科學(xué)家能夠按需添加和刪除模塊。但若你使用三種不同的語(yǔ)言,兩個(gè)數(shù)據(jù)源,十個(gè)算法且沒(méi)有留下任何文檔資料,未來(lái)的工程師可能會(huì)默默詛咒你哦。
簡(jiǎn)單的算法和系統(tǒng)也應(yīng)使添加和刪減模塊是容易的。因此當(dāng)需要技術(shù)進(jìn)行改變和更新或者需要?jiǎng)h除模塊時(shí),可憐的未來(lái)數(shù)據(jù)科學(xué)家不會(huì)陷入和你的代碼一起玩疊疊樂(lè)積木游戲(Jenga)的困境 。但會(huì)糾結(jié)于“如果刪了這段代碼,系統(tǒng)會(huì)不會(huì)崩潰”。(這一糾結(jié)的根源是怕出現(xiàn)技術(shù)債務(wù))
知道如何在沒(méi)有主鍵的情況下關(guān)聯(lián)匹配數(shù)據(jù)
強(qiáng)大的數(shù)據(jù)專家能做的重要工作之一是:將可能沒(méi)有主鍵或明顯聯(lián)系的數(shù)據(jù)集關(guān)聯(lián)在一起。數(shù)據(jù)可以呈現(xiàn)人之間或業(yè)務(wù)之間的日常交互。能夠在這些數(shù)據(jù)中找出統(tǒng)計(jì)模式,是數(shù)據(jù)科學(xué)家可以幫助決策者作出明智決定的重要能力。然而,你想要關(guān)聯(lián)在一起的數(shù)據(jù)并不總是位于相同的系統(tǒng)或有著相同粒度。
與數(shù)據(jù)打交道的人會(huì)知道,數(shù)據(jù)并不總是很好的整合在一個(gè)數(shù)據(jù)庫(kù)中。比如,財(cái)務(wù)數(shù)據(jù)與IT服務(wù)管理數(shù)據(jù)通常是分開(kāi)存放的,外部的數(shù)據(jù)源往往可能并不是在同一個(gè)維度進(jìn)行的聚合。這會(huì)成為一個(gè)問(wèn)題,因?yàn)檎页鰯?shù)據(jù)中的價(jià)值有時(shí)確實(shí)會(huì)需要來(lái)自其他部門(mén)或系統(tǒng)的數(shù)據(jù)。
責(zé)任編輯:任我行
-
身為數(shù)據(jù)科學(xué)家怎么能不掌握這四大技能!
-
別錯(cuò)過(guò)這張AI商用清單:你的生產(chǎn)難題可能被一個(gè)應(yīng)用解決
-
區(qū)塊鏈主流共識(shí)算法的淺析
-
別錯(cuò)過(guò)這張AI商用清單:你的生產(chǎn)難題可能被一個(gè)應(yīng)用解決
-
區(qū)塊鏈主流共識(shí)算法的淺析
-
對(duì)于培訓(xùn)出身的同學(xué),接下來(lái)該怎么學(xué)習(xí)技術(shù)?