“21世紀(jì)的競(jìng)爭(zhēng)是數(shù)據(jù)的競(jìng)爭(zhēng),誰(shuí)掌握數(shù)據(jù),誰(shuí)就掌握未來(lái)。”——馬云
不難理解大數(shù)據(jù)在我們生活的重要性。隨著科技發(fā)展,網(wǎng)絡(luò)無(wú)處不在,存儲(chǔ)信息的本質(zhì)是數(shù)字0和1(至少目前的計(jì)算機(jī)是如此),因而可以說(shuō)數(shù)據(jù)無(wú)處不在。
在《大數(shù)據(jù)思維與決策》中,作者采用大量例子說(shuō)明近20年來(lái)大數(shù)據(jù)對(duì)傳統(tǒng)行業(yè)、傳統(tǒng)思維的沖擊,從醫(yī)學(xué)到教育領(lǐng)域到金融行業(yè)再到互聯(lián)網(wǎng),大數(shù)據(jù)思維的沖擊是史無(wú)前例的。
一、回歸方程帶來(lái)的沖擊
從前人們的決策幾乎全靠人為經(jīng)驗(yàn)判斷,作者在這個(gè)問(wèn)題里舉了“尋找棒球隊(duì)員”的例子,傳統(tǒng)的方式是經(jīng)理人(暫以此名字代表挖掘球員的人)通過(guò)觀看無(wú)數(shù)場(chǎng)(書(shū)中有列出具體數(shù)字)球賽,觀察球員的每一個(gè)細(xì)致動(dòng)作,經(jīng)理人根據(jù)經(jīng)驗(yàn)判斷該球員是否有潛力成為球星。該方式代價(jià)非常大且人為主觀因素會(huì)影響決策正確率。大數(shù)據(jù)思維則是分析球員歷史訓(xùn)練及比賽的記錄數(shù)據(jù),利用數(shù)理統(tǒng)計(jì)的回歸方法(必須掌握)分析數(shù)據(jù),從而預(yù)測(cè)有潛力值球員。相對(duì)傳統(tǒng)方式,大數(shù)據(jù)方法成本大大降低,且準(zhǔn)確率更高。顯然,新的方式對(duì)傳統(tǒng)經(jīng)理人帶來(lái)的沖擊是極大的,新的思想總會(huì)被質(zhì)疑、抗拒。不過(guò)最終由一個(gè)胖球員不被看好,數(shù)據(jù)顯示有潛力,最終成為球星的例子證明大數(shù)據(jù)引導(dǎo)決策是正確的。
正如書(shū)中所說(shuō),數(shù)據(jù)比人客觀,且現(xiàn)在大規(guī)模數(shù)據(jù)的獲取更加容易,價(jià)格便宜甚至免費(fèi)?;貧w方法在數(shù)據(jù)處理中還是十分的有用,必須掌握這一技能。
二、隨機(jī)試驗(yàn)
作者提到的第二個(gè)很有用的方法是隨機(jī)試驗(yàn)?;舅枷胧牵?/p>
隨機(jī)抽取樣本,控制單一變量,進(jìn)行試驗(yàn),分析試驗(yàn)數(shù)據(jù)檢驗(yàn)?zāi)膫€(gè)方式更加具有價(jià)值。
這里采用的例子很多,其中一個(gè)就是某一個(gè)網(wǎng)站(具體網(wǎng)站名忘了……暫且稱作Test)利用隨機(jī)隨機(jī)試驗(yàn)方法為網(wǎng)站開(kāi)發(fā)者提供工具檢測(cè)怎樣的界面用戶更加喜歡。例如,某一欄是“收藏”還是“收藏與購(gòu)買(mǎi)”。 Test利用隨機(jī)試驗(yàn)思想對(duì)開(kāi)發(fā)網(wǎng)站采取控制變量檢測(cè),隨機(jī)為用戶展示以上兩種方式的開(kāi)發(fā)網(wǎng)站(僅“收藏”與“收藏與購(gòu)買(mǎi)”的差異),通過(guò)統(tǒng)計(jì)用戶點(diǎn)擊行為,則可以評(píng)估哪種網(wǎng)頁(yè)更被用戶喜歡。
隨機(jī)試驗(yàn)思維在大數(shù)據(jù)下顯得更加有用,文中還列舉了巴西(?具體不記得了)“窮人母親產(chǎn)前補(bǔ)助”、“醫(yī)生洗手對(duì)手術(shù)患者死亡影響”、“某一政策是否正確”等例子說(shuō)明大數(shù)據(jù)下隨機(jī)試驗(yàn)的利用。
隨機(jī)試驗(yàn)思想確實(shí)是一個(gè)很實(shí)用的方法,在以后遇到數(shù)據(jù)處理、數(shù)據(jù)決策之前應(yīng)不忘考慮這種方法。
三、大數(shù)據(jù)決策的弊端
萬(wàn)物皆有兩面性,大數(shù)據(jù)決策為我們提供很多快捷、準(zhǔn)確的預(yù)測(cè)。但是,過(guò)分依賴數(shù)據(jù)則讓我們?cè)诤芏鄷r(shí)候得出的結(jié)果相差很大。例如,根據(jù)某人的歷史數(shù)據(jù)分析預(yù)測(cè)下周五會(huì)去看電影,然而周末該人不小心骨折住院。盡管數(shù)據(jù)采集到骨折數(shù)據(jù),模型不會(huì)因此而改變,因?yàn)樵摂?shù)據(jù)歷史影響甚微,模型會(huì)忽略,仍然會(huì)認(rèn)為該人去看電影。根本原因在于模型不會(huì)像人那樣正確考慮到骨折的權(quán)值,即使是神經(jīng)網(wǎng)絡(luò)模型(我的理解是至少現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型還是沒(méi)有人那么聰明),計(jì)算機(jī)的經(jīng)驗(yàn)是有限的,盡管他能夠存儲(chǔ)很多內(nèi)容,不代表他有人的智慧。所以很多情況下,人為的干預(yù)是十分重要的。
利用大數(shù)據(jù)進(jìn)行決策,人為的經(jīng)驗(yàn)還是不可或缺的,權(quán)值的設(shè)定,參數(shù)的調(diào)整,初值的設(shè)定等這些都是經(jīng)驗(yàn)得來(lái)的,但是即使是這些經(jīng)驗(yàn),也不能太過(guò)依賴,因?yàn)閿?shù)據(jù)在變化,世界在變化,以前正確的下一秒隨時(shí)錯(cuò)誤??偟膩?lái)說(shuō),數(shù)據(jù)與人為經(jīng)驗(yàn)相結(jié)合,互為促進(jìn),至于之間的尺度,估計(jì)只能在接觸到該行業(yè)多年后才會(huì)有所想法吧,現(xiàn)在還是太年輕……
四、大數(shù)據(jù)下的隱私
隨著科技發(fā)展,智能設(shè)備越來(lái)越普及,信息無(wú)處不在,數(shù)據(jù)無(wú)處不在。谷歌等都倡議數(shù)據(jù)共享,建立人人都可以利用的數(shù)據(jù)庫(kù)。對(duì)于數(shù)據(jù)開(kāi)發(fā)者、數(shù)據(jù)決策者而言的確是十分有利的。能夠?yàn)榭蛻魟?chuàng)造價(jià)值,如機(jī)票預(yù)測(cè)是客戶購(gòu)買(mǎi)實(shí)惠機(jī)票很好的工具,這種情況客戶也是樂(lè)意見(jiàn)到的。然而,一些惡意黑客當(dāng)然也會(huì)因此入侵,獲取用戶數(shù)據(jù),對(duì)人們生活帶來(lái)很多干擾甚至是安全隱患。
所以說(shuō),大數(shù)據(jù)下仍然很多問(wèn)題,不過(guò)利益在驅(qū)動(dòng),還是會(huì)繼續(xù)發(fā)展。這些書(shū)中提到的應(yīng)用和隱患大都基于美國(guó)現(xiàn)狀的考慮。對(duì)于國(guó)內(nèi),確實(shí)還是有很大差距。首先應(yīng)用方面,盡管很多互聯(lián)網(wǎng)企業(yè)開(kāi)始發(fā)力與大數(shù)據(jù)開(kāi)發(fā),但是總體的思維還是比較保守(無(wú)可厚非),許多模式幾乎照搬國(guó)外,就類似云計(jì)算、物聯(lián)網(wǎng),大數(shù)據(jù)也很多公司只是在搞概念(純靠猜),還有很大的發(fā)展空間,必須好好把握好時(shí)機(jī)。另外,安全隱私,就我個(gè)人觀察,國(guó)內(nèi)的隱私意識(shí)還是不怎么注重(又是靠個(gè)人經(jīng)驗(yàn)判斷的,可以看出我的思維也還是傳統(tǒng)的,靠數(shù)據(jù)說(shuō)話啊!!!),當(dāng)然我們肯定會(huì)比國(guó)外稍微慢,但是再接下來(lái)十年,風(fēng)云變幻,一切就說(shuō)不準(zhǔn)了(又在考慮用數(shù)據(jù)說(shuō)話啊,統(tǒng)計(jì)和預(yù)測(cè)十年后哪國(guó)更強(qiáng)啊,預(yù)測(cè)以后行業(yè)怎么變幻啊,有點(diǎn)入魔了)。
總而言之,該書(shū)舉了許多大數(shù)據(jù)決策與應(yīng)用,也確實(shí)呈現(xiàn)了大數(shù)據(jù)時(shí)代是真的到來(lái)了。然而,這對(duì)我而言并沒(méi)有很大幫助,這次之前,我就很明確要跟大數(shù)據(jù)打交道了。本書(shū)跟我最大的收獲是,清楚地了解到更具體的各種大數(shù)據(jù)應(yīng)用,了解到不同行業(yè)大數(shù)據(jù)的決策思維,了解到回歸思想以及隨機(jī)試驗(yàn)的重要性。當(dāng)然,本書(shū)讓我對(duì)大數(shù)據(jù)有了更深的體會(huì),思維或多或少有些轉(zhuǎn)變(但是不夠),盡管技術(shù)上沒(méi)有什么提升,但是其實(shí)大數(shù)據(jù)思維還是很重要的,讓我對(duì)很多方面都有了大數(shù)據(jù)的聯(lián)想。
最后,作為物聯(lián)網(wǎng)專業(yè),與大數(shù)據(jù)密不可分,也應(yīng)該有一些更深的體會(huì)。其實(shí)大數(shù)據(jù)也算是物聯(lián)網(wǎng)下的一個(gè)分支,物聯(lián)網(wǎng)包括感知層、網(wǎng)絡(luò)層、應(yīng)用層。感知層的傳感器采集是大數(shù)據(jù)采集(無(wú)處不在),網(wǎng)絡(luò)層的數(shù)據(jù)處理是大數(shù)據(jù)處理,應(yīng)用層的應(yīng)用是大數(shù)據(jù)決策。現(xiàn)在互聯(lián)網(wǎng)中的大數(shù)據(jù)比物聯(lián)網(wǎng)中只是缺少傳感器數(shù)據(jù)采集部分而已,所以定位到大數(shù)據(jù)方向還是沒(méi)有脫離自己的開(kāi)始方向。當(dāng)然,大數(shù)據(jù)決策絕對(duì)不只是網(wǎng)絡(luò)的決策,如果把世界的任意信息用數(shù)據(jù)表示(物聯(lián)網(wǎng)),其實(shí)也可以說(shuō)是包括了所有方面。下個(gè)浪潮無(wú)疑是物聯(lián)網(wǎng),現(xiàn)在只是開(kāi)始,十年后,世界會(huì)變得你完全不認(rèn)識(shí),如果你沒(méi)有具備大數(shù)據(jù)思維的話,你將被世界淘汰。
至此,算是對(duì)該書(shū)的閱讀小結(jié),由于時(shí)間匆忙,閱讀難免不夠仔細(xì),感想也許片面,至少是我的體會(huì),記錄一下。其實(shí),相關(guān)類的數(shù)據(jù)書(shū)籍,我覺(jué)得最好還是有過(guò)相關(guān)項(xiàng)目或工作經(jīng)歷之后再看或許會(huì)有更深入的體會(huì)。故不要停止閱讀,不要停止思考!