為(wèi)何企業無法從數(shù)據科(kē)學(xué)中真正獲得價值?
作者:九次方大數(shù)據  來源:九次方大數(shù)據  發表時間:2017-1-10  點擊:3081

當今企業擁有越來越多的(de)數(shù)據,但(dàn)這(zhè)些數(shù)據并沒有完全被轉化(huà)(huà)成可操作的(de)信息。在(zài)過去的(de)幾年裡(lǐ),我(wǒ)和我(wǒ)的(de)MIT調查小組一直在(zài)尋找一個(gè)基本問題的(de)答(dá)案:如何讓企業通過機器(qì)學(xué)習,将蘊藏于其數(shù)據儲存內(nèi)的(de)潛能全部釋放出來。

當我(wǒ)們與不(bù)同行(xíng)業的(de)合作夥伴一起設計(jì)基于機器(qì)學(xué)習的(de)解決方案時,我(wǒ)們發現已有的(de)解決方案通常情況下是不(bù)适合的(de),這(zhè)是為(wèi)什麼呢(ne)?

  首先,每當我(wǒ)們問到機器(qì)學(xué)習專家們(專長(cháng)于預測模型訓練和測試的(de)數(shù)據科(kē)學(xué)家們),在(zài)工作中最困難的(de)部分,被一次次提及的(de)答(dá)案是——“數(shù)據雜亂無章”。一開始,從字面意思上理(lǐ)解,我(wǒ)們認為(wèi)這(zhè)是一個(gè)經典的(de)數(shù)據問題——數(shù)據缺失或者數(shù)據庫之間缺乏一緻性。随著(zhe)我(wǒ)們的(de)進一步挖掘,我(wǒ)們意識到該問題和經典的(de)數(shù)據問題略有不(bù)同,兩者面臨的(de)數(shù)據形式有一定的(de)區(qū)别。企業的(de)原始數(shù)據(Rawdata),甚至是幹淨數(shù)據(Cleandata:在(zài)Rawdata的(de)基礎上,進一步處理(lǐ)後得到的(de)數(shù)據)量多且複雜,即使是專家,第一眼也很難理(lǐ)解這(zhè)些數(shù)據。因為(wèi)這(zhè)樣的(de)數(shù)據有太多的(de)數(shù)據表和字段,同時數(shù)據的(de)粒度又(yòu)非常高(gāo)(例如,在(zài)線點擊流每一次點擊都會(huì)生成新(xīn)數(shù)據、傳感器(qì)每秒會(huì)進行(xíng)125次的(de)數(shù)據收集)。而機器(qì)學(xué)習專家們通常習慣使用(yòng)聚合過後的(de),有用(yòng)的(de)數(shù)據,例如一個(gè)用(yòng)戶訪問過的(de)網站數(shù)目,而不(bù)是用(yòng)戶在(zài)某個(gè)網站上的(de)行(xíng)為(wèi)數(shù)據表。

  與此同時,我(wǒ)們經常聽(tīng)到商業專家抱怨“我(wǒ)們有大量的(de)數(shù)據,但(dàn)沒有通過這(zhè)些數(shù)據做(zuò)成任何事”。更深入的(de)調查顯示這(zhè)種說(shuō)法也不(bù)完全對。而這(zhè)種挫敗感主要來源于兩個(gè)方面。

  一方面是由于時間問題。由于機器(qì)學(xué)習中,理(lǐ)解、規劃及處理(lǐ)數(shù)據等一系列過程所需要花(huā)費的(de)時間,機器(qì)學(xué)習專家常常更加關注流程的(de)後面部分——嘗試不(bù)同的(de)模型或者在(zài)問題制定完成後,調整模型參數(shù),而不(bù)是針對不(bù)同的(de)商業問題制定新(xīn)的(de)預測模型。因此,當商業專家想到某個(gè)新(xīn)的(de)問題時,機器(qì)學(xué)習專家無法做(zuò)到總是及時跟上他(tā)們的(de)步伐。

  另一方面,經常來說(shuō),機器(qì)學(xué)習專家并沒有圍繞著(zhe)“産生商業價值”,這(zhè)一建模的(de)最終目标,來展開工作。在(zài)大部分情況下,預測模型旨在(zài)提高(gāo)效率、增加收益或者減少支出。但(dàn)實際上,建立模型的(de)工作者卻很少問這(zhè)樣的(de)問題“這(zhè)個(gè)預測模型提供的(de)價值是什麼?我(wǒ)們又(yòu)該如何去量化(huà)(huà)其價值?”。思考這(zhè)一價值導向的(de)問題常常會(huì)改變最初的(de)問題規劃(problemformulation),通常情況下比建模後期再進行(xíng)過程調整更加有用(yòng)。最近(jìn)在(zài)一個(gè)機器(qì)學(xué)習愛好(hǎo)(hǎo)者小組中,我(wǒ)向約150名觀衆進行(xíng)了調查,當問到“有多人建立過機器(qì)學(xué)習模型?”大約有三分之一的(de)人舉了手。緊接著(zhe),當我(wǒ)問到“有多少人真正應用(yòng)自己建立的(de)模型産生價值,并量化(huà)(huà)模型産出價值?”時,所有人的(de)手都放下了。

  換句話說(shuō),機器(qì)學(xué)習專家更傾向于将時間花(huā)在(zài)構建模型上,而不(bù)是處理(lǐ)海量數(shù)據集或者将商業問題轉化(huà)(huà)為(wèi)預測問題。無獨有偶,當前的(de)技術環境,無論是商業還是學(xué)術,關注點都在(zài)實現更加複雜的(de)模型(LVM潛變量模型)、模型學(xué)習算法(分布式計(jì)算),或者微調(貝葉斯優化(huà)(huà))。本質上,這(zhè)些都屬于數(shù)據科(kē)學(xué)項目後期的(de)過程。然而,按照(zhào)我(wǒ)們的(de)經驗,我(wǒ)們認為(wèi)這(zhè)些關注點并不(bù)是最恰當的(de)。

  如果公司(sī)想要從數(shù)據中獲得價值,需要将重點放在(zài)加速對數(shù)據的(de)人為(wèi)理(lǐ)解,在(zài)短時間內(nèi)調整可構建的(de)模型問題數(shù)量以及預測這(zhè)些模型所的(de)成效。在(zài)與公司(sī)的(de)合作中,我(wǒ)們得出結論,想要通過機器(qì)學(xué)習帶來真正的(de)改變,需要将重點放在(zài)以下四個(gè)方面:

  堅持簡單的(de)模型

  簡單的(de)模型,例如邏輯回歸、基于随機森林(lín)或者決策樹(shù)的(de)模型。這(zhè)些模型已經足夠解決手頭上的(de)任務(wù)。關鍵是減少數(shù)據采集時間,盡早進行(xíng)第一個(gè)簡單預測模型的(de)開發。

  探索更多的(de)問題

  數(shù)據科(kē)學(xué)家需要有能夠快速而簡單的(de)定義和探索多個(gè)預測模型的(de)能力。公司(sī)應該探索更多的(de)商業問題,為(wèi)每一個(gè)商業問題建立一個(gè)簡單的(de)預測模型,并評估其價值,而不(bù)是用(yòng)超級複雜的(de)機器(qì)學(xué)習模型去探索僅僅一個(gè)商業問題。

  從數(shù)據樣本中而不(bù)是全部的(de)數(shù)據中學(xué)習

  不(bù)要過多的(de)關注如何使用(yòng)分布式計(jì)算讓任何一個(gè)處理(lǐ)模型都能進行(xíng)大數(shù)據處理(lǐ),而是在(zài)能夠從子(zi)樣本數(shù)據中導出相似結論的(de)技術上進行(xíng)投資(zī)。規避大量計(jì)算資(zī)源的(de)使用(yòng),将會(huì)給予我(wǒ)們更多的(de)空間去探索更多的(de)假設。

  關注自動化(huà)(huà)

  為(wèi)減少第一個(gè)預測模型産生的(de)時間和加快探索的(de)速度,公司(sī)必須能夠自動化(huà)(huà)處理(lǐ)在(zài)正常情況下需要人工完成的(de)過程。通過在(zài)不(bù)同數(shù)據問題上的(de)反複探索,我(wǒ)們發現很多時候都在(zài)使用(yòng)相似的(de)數(shù)據處理(lǐ)技術,無論是将數(shù)據轉化(huà)(huà)為(wèi)有用(yòng)的(de)聚合數(shù)據,還是為(wèi)預測模型準備數(shù)據。是時候流水(shuǐ)線化(huà)(huà)這(zhè)些任務(wù),開發算法和軟件(jiàn),使這(zhè)些過程能夠自動化(huà)(huà)完成。

  專注于上述四個(gè)目标,準确理(lǐ)解數(shù)據科(kē)學(xué)家如何與數(shù)據交互,以及項目瓶頸之所在(zài),幫助我(wǒ)們成功啟動了MIT的(de)“TheHuman-DataInteractionProject”項目。

  我(wǒ)們的(de)目标是快速探索預測模型,并将這(zhè)些模型應用(yòng)于解決真實企業中的(de)實際問題。這(zhè)些模型簡單,同時自動化(huà)(huà)讓非專業的(de)用(yòng)戶也能夠在(zài)幾個(gè)小時內(nèi)建立成百甚至上千個(gè)預測模型。而這(zhè)在(zài)今天,通常需要花(huā)費專家們一整個(gè)月的(de)時間才能做(zuò)到。文章來源于網絡,版權歸原作者所有.如果侵犯了您的(de)權益,請(qǐng)來信告知,我(wǒ)們會(huì)盡快處理(lǐ))

獲取更多專業資(zī)訊

微信掃一掃

服(fú)務(wù)項目

維保運維服(fú)務(wù)

信息系統集成服(fú)務(wù)

機房(fáng)搬遷服(fú)務(wù)

 
 
 
QQ 在(zài)線客服(fú)
QQ 在(zài)線客服(fú)
 
電話:
0531-88818533
客服(fú)QQ
2061058957
1905215487