數(shù)據分析工作常見的(de)七種錯誤及規避技巧
作者:admin  來源: 199it  發表時間:2016-3-22  點擊:3228

  商業領域的(de)數(shù)據科(kē)學(xué)家和偵探類似:去探索未知的(de)事物(wù)。不(bù)過,當他(tā)們在(zài)這(zhè)個(gè)旅程中冒險的(de)時候,他(tā)們很容易落入陷阱。所以要明白,這(zhè)些錯誤是如何造成的(de),以及如何避免。

  “錯誤是發現的(de)入口。”——JamesJoyce(著(zhe)名的(de)愛爾蘭小說(shuō)家)。

 

  這(zhè)在(zài)大多數(shù)情況下是正确的(de),但(dàn)是對于數(shù)據科(kē)學(xué)家而言,犯錯誤能夠幫助他(tā)們發現新(xīn)的(de)數(shù)據發展趨勢和找到數(shù)據的(de)更多模式。說(shuō)到這(zhè)兒,有一點很重要:要明白數(shù)據科(kē)學(xué)家有一個(gè)非常邊緣的(de)錯誤。數(shù)據科(kē)學(xué)家是經過大量考察後才被錄用(yòng)的(de),錄用(yòng)成本很高(gāo)。組織是不(bù)能承受和忽視(shì)數(shù)據科(kē)學(xué)家不(bù)好(hǎo)(hǎo)的(de)數(shù)據實踐和重複錯誤的(de)成本的(de)。數(shù)據科(kē)學(xué)的(de)錯誤和不(bù)好(hǎo)(hǎo)的(de)數(shù)據實踐會(huì)浪費數(shù)據科(kē)學(xué)家的(de)職業生涯。數(shù)據科(kē)學(xué)家追蹤所有實驗數(shù)據是至關重要的(de),從錯誤中吸取教訓,避免在(zài)未來數(shù)據科(kē)學(xué)項目中犯錯。

  福爾摩斯有一句名言是如何定義偵探的(de),而數(shù)據科(kē)學(xué)家在(zài)商業中的(de)角色就類似偵探。

  “我(wǒ)是福爾摩斯,我(wǒ)的(de)工作就是發現别人不(bù)知道(dào)的(de)。”

  企業要想保持競争力,它必須比大數(shù)據分析做(zuò)的(de)更多。不(bù)去評估他(tā)們手中的(de)數(shù)據質量,他(tā)們想要的(de)結果,他(tā)們預計(jì)從這(zhè)種數(shù)據分析中獲得多少利潤,這(zhè)将很難正确地(dì)找出哪些數(shù)據科(kē)學(xué)項目能夠盈利,哪些不(bù)能。當發生數(shù)據科(kē)學(xué)錯誤時,一次是可以接受的(de),考慮到有一個(gè)學(xué)習曲線,但(dàn)是如果這(zhè)些錯誤發生在(zài)兩次以上,這(zhè)會(huì)增加企業成本。

  避免常見的(de)數(shù)據科(kē)學(xué)錯誤:

  1、相關關系和因果關系之間的(de)混亂

  對于每個(gè)數(shù)據科(kē)學(xué)家來說(shuō),相關性和因果關系的(de)錯誤會(huì)導緻成本事件(jiàn),最好(hǎo)(hǎo)的(de)例子(zi)是《魔鬼經濟學(xué)》的(de)分析,關于因果關系的(de)相關性錯誤,導緻伊利諾斯州給本州的(de)學(xué)生發書(shū),因為(wèi)根據分析顯示家裡(lǐ)有書(shū)的(de)學(xué)生在(zài)學(xué)校能直接考的(de)更高(gāo)分。進一步分析顯示,在(zài)家裡(lǐ)有幾本書(shū)的(de)學(xué)生在(zài)學(xué)業上能表現的(de)更好(hǎo)(hǎo),即使他(tā)們從來沒有讀過這(zhè)些書(shū)。

  這(zhè)改變了之前的(de)假設和洞察:父母通常買書(shū)的(de)家庭,能營造愉快的(de)學(xué)習環境。

  大部分的(de)數(shù)據科(kē)學(xué)家在(zài)處理(lǐ)大數(shù)據時假設相關關系直接影響因果關系。使用(yòng)大數(shù)據來理(lǐ)解兩個(gè)變量之間的(de)相關性通常是一個(gè)很好(hǎo)(hǎo)的(de)實踐方法,但(dàn)是,總是使用(yòng)“因果”類比可能導緻虛假的(de)預測和無效的(de)決定。要想實現利用(yòng)大數(shù)據的(de)最好(hǎo)(hǎo)效果,數(shù)據科(kē)學(xué)家必須理(lǐ)解相關關系和根源的(de)區(qū)别。關聯往往是指同時觀察X和Y的(de)變化(huà)(huà),而因果關系意味著(zhe)X導緻Y。在(zài)數(shù)據科(kē)學(xué),這(zhè)是兩個(gè)完全不(bù)同的(de)事情,但(dàn)是許多數(shù)據科(kē)學(xué)家往往忽視(shì)了它們的(de)區(qū)别。基于相關性的(de)決定可能足以采取行(xíng)動,我(wǒ)們不(bù)需要知道(dào)原因,但(dàn)這(zhè)還是完全依賴于數(shù)據的(de)類型和要解決的(de)問題。

  每位數(shù)據科(kē)學(xué)家都必須懂得——“數(shù)據科(kē)學(xué)中相關關系不(bù)是因果關系”。如果兩個(gè)關系出現彼此相關的(de)情況,也不(bù)意味著(zhe)是一個(gè)導緻了另一個(gè)的(de)産生。

  2、沒有選擇合适的(de)可視(shì)化(huà)(huà)工具

  大部分的(de)數(shù)據科(kē)學(xué)家專心學(xué)習于分析的(de)技術方面。他(tā)們不(bù)能通過使用(yòng)不(bù)同的(de)可視(shì)化(huà)(huà)技術理(lǐ)解數(shù)據,即那些可以令他(tā)們更快獲得洞察力的(de)技術。如果數(shù)據科(kē)學(xué)家不(bù)能選擇合适的(de)可視(shì)化(huà)(huà)發展模型,監控探索性數(shù)據分析和表示結果,那麼即使是最好(hǎo)(hǎo)的(de)機器(qì)學(xué)習模型,它的(de)價值也會(huì)被稀釋。事實上,許多數(shù)據科(kē)學(xué)家根據他(tā)們的(de)審美選擇圖表類型,而不(bù)是考慮數(shù)據集的(de)特征。這(zhè)個(gè)可以通過定義可視(shì)化(huà)(huà)的(de)目标避免。

  即使數(shù)據科(kē)學(xué)家開發了一個(gè)最優秀和最好(hǎo)(hǎo)的(de)機器(qì)學(xué)習模型,它也不(bù)會(huì)大叫說(shuō)“尤裡(lǐ)卡”——所有這(zhè)些所需要的(de)是結果的(de)有效可視(shì)化(huà)(huà),可以理(lǐ)解數(shù)據模式的(de)不(bù)同,和意識到它的(de)存在(zài)可以被利用(yòng)來獲得商業成果。常言道(dào)“一張圖片勝過1000個(gè)單詞。”——數(shù)據科(kē)學(xué)家不(bù)僅要熟悉自己常用(yòng)的(de)數(shù)據可視(shì)化(huà)(huà)工具,也要理(lǐ)解數(shù)據有效可視(shì)化(huà)(huà)的(de)原理(lǐ),用(yòng)令人信服(fú)的(de)方式獲得結果。

  解決任何數(shù)據科(kē)學(xué)問題的(de)至關重要一步,就是要獲得該數(shù)據是關于什麼的(de)洞察力,通過豐富的(de)可視(shì)化(huà)(huà)表達,可以形成分析基礎和建立相應模型。

  3、沒有選擇适當的(de)模型-驗證周期

  科(kē)學(xué)家認為(wèi),建立了一個(gè)成功的(de)機器(qì)學(xué)習模型,就是獲得了最大程度的(de)成功。但(dàn)是,這(zhè)隻是成功了一半,它必須要确保模型的(de)預測發揮作用(yòng)。許多數(shù)據科(kē)學(xué)家經常忘記或者傾向性的(de)忽視(shì)這(zhè)樣的(de)事實,就是他(tā)們的(de)數(shù)據必須在(zài)指定的(de)時間間隔進行(xíng)反複驗證。一些數(shù)據科(kē)學(xué)家經常犯的(de)一個(gè)普遍性錯誤:如果和觀察到的(de)數(shù)據吻合,就認為(wèi)預測模型是理(lǐ)想的(de)。已建立的(de)模型的(de)預測效果可以因為(wèi)模型的(de)關系在(zài)不(bù)斷變化(huà)(huà)而瞬間消失。為(wèi)了避免這(zhè)種情況,數(shù)據科(kē)學(xué)家最好(hǎo)(hǎo)的(de)解決方式就是每個(gè)小時都對含有新(xīn)數(shù)據的(de)數(shù)據模型進行(xíng)評分,或者基于模型的(de)關系變化(huà)(huà)快慢逐日逐月評分。

  由于幾個(gè)因素,模型的(de)預測能力往往會(huì)變弱,因此數(shù)據科(kē)學(xué)家需要确定一個(gè)常數(shù),用(yòng)以确保模型的(de)預測能力不(bù)能低于可接受的(de)水(shuǐ)平。有實例即數(shù)據科(kē)學(xué)家可以重建數(shù)據模型。能建立幾個(gè)模型和解釋變量的(de)分布總是更好(hǎo)(hǎo)的(de),而不(bù)是考慮單個(gè)模型是最好(hǎo)(hǎo)的(de)。

  為(wèi)了保留已建模型的(de)預測效果和有效性,選擇叠代周期是非常重要的(de),如果做(zuò)不(bù)到,可能會(huì)導緻錯誤的(de)結果。

  4、無問題/計(jì)劃的(de)分析

  數(shù)據科(kē)學(xué)協會(huì)主席MichaelWalker說(shuō):“數(shù)據科(kē)學(xué)的(de)最高(gāo)級用(yòng)途就是設計(jì)實驗,提出正确的(de)問題和收集正确的(de)數(shù)據集,一切工作都要根據科(kē)學(xué)的(de)标準。然後你将獲得結果,并解釋它。”

  數(shù)據科(kē)學(xué)是一個(gè)結構化(huà)(huà)的(de)過程,以明确的(de)目标開始,随後出現一些假設的(de)問題,最終實現我(wǒ)們的(de)目标。數(shù)據科(kē)學(xué)家往往站在(zài)數(shù)據之上而不(bù)考慮那些需要分析回答(dá)的(de)問題。數(shù)據科(kē)學(xué)項目必須要有項目目标和完美的(de)建模目标。數(shù)據科(kē)學(xué)家們如果不(bù)知道(dào)他(tā)們想要什麼——最終得到的(de)分析結果将會(huì)是他(tā)們不(bù)想要的(de)。

  大多數(shù)數(shù)據科(kē)學(xué)項目最終是回答(dá)“是什麼”的(de)問題,這(zhè)是因為(wèi)數(shù)據科(kē)學(xué)家通過手頭的(de)問題作分析而不(bù)遵循做(zuò)分析的(de)理(lǐ)想路(lù)徑。數(shù)據科(kē)學(xué)是使用(yòng)大數(shù)據回答(dá)所有關于“為(wèi)什麼”的(de)問題。數(shù)據科(kē)學(xué)家應該通過整合以前未被整合的(de)數(shù)據集,主動分析給與的(de)數(shù)據集,回答(dá)以前沒人解答(dá)的(de)問題。

  為(wèi)了避免這(zhè)種情況,數(shù)據科(kē)學(xué)家應該集中精力獲得正确的(de)分析結果,這(zhè)可以通過明确實驗,變量和數(shù)據準确性和清晰明白他(tā)們想要從數(shù)據中獲得什麼實現。這(zhè)将簡化(huà)(huà)以往通過滿足假設的(de)統計(jì)方法來回答(dá)商業問題的(de)過程。引用(yòng)伏爾泰的(de)一句話——“判斷一個(gè)人,是通過他(tā)的(de)問題而不(bù)是他(tā)的(de)答(dá)案。”——先确定明确的(de)問題是及其重要的(de),能夠實現任何企業的(de)數(shù)據科(kē)學(xué)目标。

  5、僅關心數(shù)據

  根據博思艾倫咨詢公司(sī)的(de)數(shù)據科(kē)學(xué)家KirkBorne,“人們忘記在(zài)數(shù)據的(de)使用(yòng),保護以及統計(jì)産生的(de)問題如認為(wèi)相關關系就是因果關系會(huì)産生倫理(lǐ)問題。人們忘記了如果你處理(lǐ)的(de)數(shù)據足夠長(cháng),它就會(huì)告訴你任何事,如果你有大量的(de)數(shù)據,那麼你就可以找到相關關系。如果人們擁有大數(shù)據他(tā)們會(huì)相信他(tā)們看到的(de)任何事情”。

  數(shù)據科(kē)學(xué)家常常因為(wèi)得到來自多個(gè)數(shù)據源的(de)數(shù)據而興奮,并開始創建圖表和可視(shì)化(huà)(huà)來做(zuò)分析報(bào)告,忽視(shì)發展所需的(de)商業智慧。這(zhè)對任何組織來說(shuō)都是危險的(de)事情。數(shù)據科(kē)學(xué)家經常給與數(shù)據太多決策制定的(de)權力。他(tā)們不(bù)夠重視(shì)發展自身(shēn)商業智慧,不(bù)明白分析如何令企業獲益。數(shù)據科(kē)學(xué)家應該不(bù)僅僅讓數(shù)據說(shuō)話,而且善于運用(yòng)自身(shēn)的(de)智慧。數(shù)據應該是影響決策的(de)因素而不(bù)是數(shù)據科(kē)學(xué)項目決策制定的(de)最終聲音。企業雇傭的(de)數(shù)據科(kē)學(xué)家應該是可以将領域知識和技術特長(cháng)結合起來的(de),這(zhè)是避免錯誤的(de)理(lǐ)想情況。

  6、忽視(shì)可能性

  數(shù)據科(kē)學(xué)家經常傾向性忘記方案的(de)可能性,這(zhè)将導緻作出更多的(de)錯誤決策。數(shù)據科(kē)學(xué)家經常犯錯,因為(wèi)他(tā)們經常說(shuō),如果企業采取了X操作一定會(huì)實現Y目标。對于特定的(de)問題這(zhè)沒有唯一的(de)答(dá)案,因此要确認數(shù)據科(kē)學(xué)家從不(bù)同可能性中所做(zuò)的(de)選擇。對指定問題存在(zài)不(bù)止一個(gè)可能性,它們在(zài)某種程度是不(bù)确定的(de)。情景規劃和可能性理(lǐ)論是數(shù)據科(kē)學(xué)的(de)兩個(gè)基本核心,不(bù)應該被忽視(shì),應該用(yòng)以确認決策制定的(de)準确性頻(pín)率。

  7、建立一個(gè)錯誤人口數(shù)量的(de)模型

  如果一個(gè)數(shù)據項目的(de)目的(de)是建立一個(gè)客戶影響力模式的(de)模型,但(dàn)是他(tā)們僅僅考慮那些具有高(gāo)度影響力的(de)客戶的(de)行(xíng)為(wèi)數(shù)據,這(zhè)不(bù)是對的(de)做(zuò)法。建立該模型不(bù)僅要考慮那些具有高(gāo)度影響力的(de)客戶的(de)行(xíng)為(wèi)數(shù)據,也要考慮那些不(bù)怎麼有影響力但(dàn)是具有潛在(zài)影響力的(de)客戶的(de)行(xíng)為(wèi)數(shù)據。低估任何一邊人口的(de)預測力量都可能導緻模型的(de)傾斜或者一些重要變量的(de)重要性下降。

  這(zhè)些都是數(shù)據科(kē)學(xué)家在(zài)做(zuò)數(shù)據科(kē)學(xué)時常見的(de)錯誤。如果你能想到的(de)任何其他(tā)常見的(de)數(shù)據科(kē)學(xué)錯誤,我(wǒ)們很樂意在(zài)下面的(de)評論聽(tīng)到你的(de)想法。(責編:pingxiaoli)

微信掃一掃

關注昊雲訂閱号

服(fú)務(wù)項目

維保運維服(fú)務(wù)

信息系統集成服(fú)務(wù)

機房(fáng)搬遷服(fú)務(wù)

 
 
 
QQ 在(zài)線客服(fú)
QQ 在(zài)線客服(fú)
 
電話:
0531-88818533
客服(fú)QQ
2061058957
1905215487