大云網(wǎng) 大數(shù)據(jù)大數(shù)據(jù)產(chǎn)業(yè)園正文

周濤：一小時掌握大數(shù)據(jù)思維的秘訣

2018-12-17 16:20:23 數(shù)之聯(lián)大數(shù)據(jù)　點擊量：評論 (0)

一個人有沒有大數(shù)據(jù) 思維主要體現(xiàn)在兩個方面：第一他是不是具有定量化的思維方式;第二個需要我們在某種程度上相信機器、相信數(shù)據(jù)勝過相信自己，這往往是很難接受的。

什么是大數(shù)據(jù)思維和大數(shù)據(jù)創(chuàng)新的精髓？

一個人有沒有大數(shù)據(jù)思維主要體現(xiàn)在兩個方面：第一他是不是具有定量化的思維方式：

就是我們現(xiàn)在看很多問題習(xí)慣從經(jīng)驗、定性地角度看問題，不習(xí)慣所有的決策都用定量化的方式來進行描述。例如我們經(jīng)常說一個人漂亮，說一個人好，但是我們不習(xí)慣用一套圖像識別的算法來真正計算這個人漂亮到什么程度，好到什么程度。

什么是定量化？

一個簡單的例子，比如一個新的廣告營銷，新的算法比舊的算法好，不是說大概好在哪三個方面，而是我們要把所有的人群無偏地劃成兩個部分。第一部分用就算發(fā)，第二部分用新算法來進行推送，最終發(fā)現(xiàn)新算法帶來的點擊率、銷售好于舊算法，我們才能說新的算法確實比舊算法好。這是一種典型的定量化思考方式。

第二個點是大數(shù)據(jù)思維需要我們在某種程度上相信機器、相信數(shù)據(jù)勝過相信自己，這往往是很難接受的。

因為人走下神壇之前，會覺得自己的智力是凌駕于計算機之上的，他也覺得一個算法如果做得好，我們是應(yīng)該是完全理解他的。其實，機器學(xué)習(xí)、人工智能它吃進去的是大量的數(shù)據(jù)，吐出來的是結(jié)果，在這些數(shù)據(jù)和結(jié)果之間的連接并不是我們想象的完全能夠被人理解的，因為它可能是用幾百萬甚至幾億的特征來得到更好的分類，更好的預(yù)測，它處理和思考問題的方式和人不一樣，人是能夠更快、更好的把握幾個重要的特征，但是精確度卻遠不如計算機。很多時候我們覺得但凡是不可理解的就是不可相信的，這種觀點一定要拋棄。

所以，如果你能夠?qū)W會用定量化的去處理我們的世界，去評判所有政策的好壞，又能敢于放棄一點點的尊嚴去相信計算機的結(jié)果，這是初步具備了走進大數(shù)據(jù)時代的思維的基礎(chǔ)。數(shù)據(jù)化時代帶給我們哪些顛覆性的變化？

數(shù)據(jù)時代往后走，它的目標是要把我們帶入某種智能時代。

大數(shù)據(jù)時代的核心精髓有兩個組成部分：

一個是數(shù)據(jù)的外部化，

就是說，我們進到了數(shù)據(jù)時代，一組數(shù)據(jù)不僅僅產(chǎn)生它的地方被人用過，而是在很多地方被使用，這叫數(shù)據(jù)的外部化。因為它的流通拷貝幾乎不用新的代價

第二個就是人工智能，

通過人工智能得到一些簡單統(tǒng)計得不到的深刻洞見，這才是大數(shù)據(jù)，不然就是商務(wù)智能在更多數(shù)據(jù)集上的應(yīng)用。

數(shù)據(jù)時代是智能時代的引領(lǐng)，數(shù)據(jù)時代給我們帶來更多的決策支撐，通過這些深刻洞見使我們的決策更準確、更高效。但是，未來顛覆性的變化，就是在整個的決策環(huán)境中，原材料就是數(shù)據(jù)，而大腦就是計算機，人類要被踢出這個決策環(huán)境，這是顛覆性的變化。在這個時候，我們整個社會的經(jīng)濟乃至整個勞動力結(jié)構(gòu)都會發(fā)生絕大的變化變化，很多人可能會面臨未來不適應(yīng)這種變化，也沒有辦法發(fā)揮他的社會價值，留下來的勞動力幾乎只有幾類，一類是從事創(chuàng)造型的勞動，通過密集的智力勞動創(chuàng)造新的科技知識，創(chuàng)造新的意識作品等等。第二類是情感類的勞動，通過接觸使得能遠離恐懼、痛苦，感到安穩(wěn)，感到幸福快樂。其它的勞動很多都會被替代掉。

如何接觸大數(shù)據(jù)創(chuàng)新產(chǎn)品？大數(shù)據(jù)創(chuàng)新產(chǎn)品長什么樣子？怎么判斷？

大數(shù)據(jù)創(chuàng)新和偽大數(shù)據(jù)創(chuàng)新的區(qū)別：第一就是有沒有原始的大規(guī)模數(shù)據(jù)源，第二有沒有好的分析方法。

不管是算法，還是新建的特定的科學(xué)模型，得到原來得不到的深刻的洞見，這兩者加到一起就能判斷有沒有大數(shù)據(jù)創(chuàng)新。

如何看待隱私及倫理？隱私和倫理是兩個不同的問題，前者要簡單一下，后者要復(fù)雜一些。

首先，從個人來講，沒有義務(wù)也沒有能力去保護自己的隱私。就像面對假酒，我們消費者是沒有去分辨什么是甲醇什么事乙醇，但是判刑是判的做假酒的人。

沒有能力是指現(xiàn)代的互聯(lián)網(wǎng)科技水平非常高，我們鍵盤敲擊的記錄主機上都能記錄下來，所以除非自絕于這個社會，不然是不可能真正保護自己的隱私，因為你走在路上，還有天網(wǎng)照著你呢，你去看病、買房、買車都會留下記錄，銀行取錢也要留下記錄。從這個角度講，很難耶沒有能力去保護自己的隱私。

反過來講，我們要通過從企業(yè)端進行嚴厲懲處，能夠去清潔市場環(huán)境或者生態(tài)環(huán)境。一個企業(yè)如果非法獲取個人數(shù)據(jù)及隱私并且還用它做了嚴重傷害人的事情，那我們一定要予以重處。在這種情況，一方面要靠立法，但又不能光靠立法，因為立法要實施要通過技術(shù)而不是一紙空文。我們既要通過技術(shù)去鎖定核心隱私數(shù)據(jù)在全管理流程中到底是什么人、用什么權(quán)限、在什么時間點、從哪個設(shè)備上下載操作數(shù)據(jù)，我們一定要打上水印，能夠追蹤。一旦隱私泄露能追蹤到這個人。

第二我們要給能處理隱私數(shù)據(jù)的企業(yè)要有個資質(zhì)

隱私還是要從企業(yè)端來抓，不能從個體能力，教個人保護隱私，價值往往比較小。

倫理的問題是說，未來我們對人工智能越來越依賴，會發(fā)生我們想象不到的，對我們當(dāng)前社會蒹葭及機制的影響。

第一個點是通過數(shù)據(jù)和算法，機器預(yù)測你將以很大概率犯罪，從而在你還沒有實施犯罪行為時，你就已經(jīng)實質(zhì)上受到了懲罰。比如說通過一些面部掃描、名字的分析、旅行軌跡的分析，

都會判定是不是恐怖分子，因為這些原因每次在機場都會被勒留很長時間，本質(zhì)上收到了一些不公正的待遇，但是這件事總體來說降低了恐怖主義可能帶來的巨大風(fēng)險，這個事兒應(yīng)不應(yīng)該做，能不能這樣做都是問題。

第二是算法本身的設(shè)計者在設(shè)計算法時會有不公平。設(shè)計者本人會把他潛在的種族歧視、性別歧視等等放在算法里面，故意或者不故意，我們很難去甄別，因為代碼很長。

第三個是算法本身的原因。比如說，美國現(xiàn)在步態(tài)和人臉識別對于有色人種的識別精確度要高于白種人，那就意味著有色人種犯罪或者其他違法行為被機器抓住的可能性可能要更大一下。

第四個問題，當(dāng)因為算法而產(chǎn)生了重大事故到底誰來承擔(dān)這個責(zé)任，比如說自動駕駛，當(dāng)然還有更多的問題，不是人產(chǎn)生的這個結(jié)果，而是機器智能產(chǎn)生的這個結(jié)果，那是應(yīng)該由寫人工智能算法的人來負責(zé)還是由設(shè)計這個體系的，還是應(yīng)該沒有人負責(zé)，公共社會承擔(dān)這個責(zé)任。

這些問題都是現(xiàn)在還沒有切身體會，但是未來可能會涉及。當(dāng)我們的醫(yī)生診療、法院的判決、甚至是自動無人駕駛的汽車都變成常態(tài)的時候，這些都會變成非常大的問題。

怎樣培養(yǎng)大數(shù)據(jù)思維的能力？

關(guān)鍵有兩類東西：一類是統(tǒng)計學(xué)，建立統(tǒng)計學(xué)的理念，第二是機器學(xué)習(xí)，要有機器學(xué)習(xí)的思維方式……

責(zé)任編輯：滄海一笑

免責(zé)聲明：本文僅代表作者個人觀點，與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

我要收藏

個贊