大數(shù)據與統計(jì)新(xīn)思維
作者:admin  來源: 36大數(shù)據  發表時間:2016-6-21  點擊:3492

譯著(zhe)《大數(shù)據時代》(英國ViktorMayer-Schǒnberger,KennethCukier著(zhe))和《駕馭大數(shù)據》(美國BillFranks著(zhe)),以及我(wǒ)國學(xué)者塗子(zi)沛、郭曉科(kē)的(de)《大數(shù)據》等幾本書(shū)引起了廣泛的(de)關注,其他(tā)各種媒體關于大數(shù)據的(de)讨論也層出不(bù)窮,大數(shù)據已成為(wèi)流行(xíng)語。有人認為(wèi),大數(shù)據是一場新(xīn)的(de)革命,将橫掃一切領域,重構世界。不(bù)少國家已将大數(shù)據作為(wèi)國家發展戰略,而商業領域更是将其視(shì)為(wèi)下一個(gè)投資(zī)的(de)寶庫。毫無疑問,大數(shù)據時代已經來臨,它正在(zài)悄悄地(dì)改變著(zhe)人們的(de)行(xíng)為(wèi)與思維,難以阻擋,無法抗拒。在(zài)計(jì)算機科(kē)學(xué)、電子(zi)商務(wù)等領域已率先在(zài)大數(shù)據技術開發與應用(yòng)方面做(zuò)出不(bù)俗成就的(de)時候,以數(shù)據為(wèi)研究對象的(de)統計(jì)學(xué)該如何應對?無動于衷還是盲目追從?正确的(de)态度應該是理(lǐ)性對待、積極跟進、改變思維、謀求發展。

一:對大數(shù)據的(de)初步認識

  到底什麼是大數(shù)據,不(bù)同的(de)學(xué)科(kē)領域、不(bù)同行(xíng)業的(de)從業人員肯定會(huì)有不(bù)同的(de)理(lǐ)解。與傳統意義上的(de)數(shù)據相比,大數(shù)據的(de)“大”與“數(shù)據”都有了新(xīn)的(de)含義,絕不(bù)僅僅是體量的(de)問題,更重要的(de)是數(shù)據的(de)內(nèi)涵問題。或許,“大”與“數(shù)據”根本就不(bù)能分開,隻有把“大數(shù)據”當作一個(gè)整體概念來理(lǐ)解才有意義。那麼從統計(jì)學(xué)的(de)角度,我(wǒ)們該如何來理(lǐ)解大數(shù)據?筆者認為(wèi)大數(shù)據不(bù)是基于人工設計(jì)、借助傳統方法而獲得的(de)有限、固定、不(bù)連續、不(bù)可擴充的(de)結構型數(shù)據,而是基于現代信息技術與工具可以自動記錄、儲存和連續擴充的(de)、大大超出傳統統計(jì)記錄與儲存能力的(de)一切類型的(de)數(shù)據。有人用(yòng)4V(Volume,Variety、Velocity和Value)來形容大數(shù)據的(de)特征,最根本之處就是數(shù)字化(huà)(huà)基礎上的(de)數(shù)據化(huà)(huà)。通俗地(dì)說(shuō),大數(shù)據就是一切可記錄信号的(de)集合。

  如果說(shuō),傳統統計(jì)研究的(de)數(shù)據是有意收集的(de)結構化(huà)(huà)的(de)樣本數(shù)據,那麼現在(zài)我(wǒ)們面對的(de)數(shù)據則是一切可以記錄和存儲、源源不(bù)斷擴充、超大容量的(de)各種類型的(de)數(shù)據。樣本數(shù)據與大數(shù)據的(de)這(zhè)種區(qū)别,具有什麼樣的(de)統計(jì)學(xué)意義?我(wǒ)們知道(dào),樣本數(shù)據是按照(zhào)特定研究目的(de)、依據抽樣方案獲得的(de)格式化(huà)(huà)的(de)數(shù)據,不(bù)僅數(shù)據量有限,而且如果過程偏離(lí)方案,數(shù)據就不(bù)能滿足要求。基于樣本數(shù)據所進行(xíng)的(de)分析,其空間十分有限———通常無法滿足多層次、多角度的(de)需要,若遇到抽樣方案事先未曾考慮到的(de)問題,數(shù)據的(de)不(bù)可擴充性缺點就暴露無疑。而大數(shù)據是一切可以通過現代信息技術記錄和量化(huà)(huà)的(de)數(shù)據,不(bù)僅所蘊含的(de)信息量巨大,而且不(bù)受各種框框的(de)限制———任何種類的(de)數(shù)據都來者不(bù)拒、也無法抵拒。不(bù)難發現,大數(shù)據相比于樣本數(shù)據的(de)最大優點是,具有巨大的(de)數(shù)據選擇空間,可以進行(xíng)多維、多角度的(de)數(shù)據分析。更為(wèi)重要的(de)是,由于大數(shù)據的(de)大體量與多樣性,樣本不(bù)足以呈現的(de)某些規律,大數(shù)據可以體現;樣本不(bù)足以捕捉的(de)某些弱小信息,大數(shù)據可以覆蓋;樣本中被認為(wèi)異常的(de)值,大數(shù)據得以認可。這(zhè)将極大地(dì)提高(gāo)我(wǒ)們認識現象的(de)能力,避免丢失很多重要的(de)信息,避免失去很多決策選擇的(de)機會(huì)。

  這(zhè)裡(lǐ),我(wǒ)們自然就想到了大量觀察與大數(shù)據這(zhè)兩個(gè)概念中的(de)“大”的(de)區(qū)别。對于傳統的(de)統計(jì)研究方法而言,大量觀察法是基礎,是收集數(shù)據的(de)基本理(lǐ)論依據,其主要思想是要對足夠量的(de)個(gè)體進行(xíng)調查觀察,以确保有足夠的(de)微觀基礎來消除或削弱個(gè)體差異對整體特征的(de)影響,足以歸納出關于總體的(de)數(shù)量規律。所以,這(zhè)裡(lǐ)的(de)“大”是足夠的(de)意思。大量觀察法的(de)極端情況就是普查,但(dàn)限于各種因素不(bù)能經常進行(xíng),所以一般情況下隻能進行(xíng)抽樣調查,這(zhè)就需要精确計(jì)算最小的(de)樣本量。基于大量觀察法獲得的(de)樣本數(shù)據才符合大數(shù)法則或大數(shù)定律,才能用(yòng)以推斷總體。而大數(shù)據則指不(bù)限量的(de)數(shù)據,是基于現代信息技術的(de)一切可以記錄的(de)全體數(shù)據,其特征之一就是盡量多地(dì)包含數(shù)據,它與樣本容量無關,隻與信息來源的(de)數(shù)量與儲存容量有關。因此,這(zhè)裡(lǐ)的(de)“大”是全體的(de)意思。

  可見,統計(jì)學(xué)的(de)研究對象沒有變,變的(de)是數(shù)據的(de)來源、體量、類型、速度與量化(huà)(huà)的(de)方式。這(zhè)種變化(huà)(huà)對統計(jì)研究帶來了什麼樣的(de)挑戰?《大數(shù)據時代》提出了三個(gè)最顯著(zhe)的(de)變化(huà)(huà):一是樣本等于總體,二是不(bù)再追求精确性,三是相關分析比因果分析更重要。這(zhè)些觀點具有很強的(de)震撼力,迫使我(wǒ)們對現有的(de)統計(jì)研究思維進行(xíng)反思。盡管這(zhè)些觀點值得進一步商榷,但(dàn)至少告訴我(wǒ)們這(zhè)樣一個(gè)道(dào)理(lǐ):統計(jì)研究對象的(de)基礎變了,統計(jì)思維也要跟著(zhe)變化(huà)(huà),否則統計(jì)研究的(de)對象隻是全部數(shù)據的(de)5%,而且越來越少,那又(yòu)怎麼能說(shuō)統計(jì)學(xué)是一門(mén)關于數(shù)據的(de)科(kē)學(xué)呢(ne)?又(yòu)怎麼去完善和發展開展數(shù)據分析研究的(de)統計(jì)方法論呢(ne)?

二:統計(jì)思維的(de)變化(huà)(huà)

  改變統計(jì)思維,是大數(shù)據時代的(de)必然要求。否則,統計(jì)學(xué)科(kē)就有可能被大數(shù)據的(de)潮流所吞沒,至少會(huì)被邊緣化(huà)(huà),失去一次重要的(de)參與推動曆史變革的(de)機遇。當然,統計(jì)思維的(de)變化(huà)(huà)應該以一個(gè)永恒不(bù)變的(de)主題為(wèi)前提,那就是通過數(shù)據分析去揭示事物(wù)的(de)真相,這(zhè)個(gè)真相就是事物(wù)的(de)生存規律、聯系規律和發展規律。也就是說(shuō),數(shù)據分析要以數(shù)據背後的(de)數(shù)據去還原事物(wù)的(de)本來面目,以達到求真的(de)目的(de)。如果說(shuō),我(wǒ)們原來限于各種條件(jiàn)隻能根據有限的(de)樣本數(shù)據去實現這(zhè)個(gè)目的(de),那麼現在(zài)我(wǒ)們則可以在(zài)很多方面借助大數(shù)據去實現這(zhè)個(gè)目的(de),關鍵就看我(wǒ)們開展數(shù)據分析的(de)能力有多大,或者說(shuō)利用(yòng)大數(shù)據、從一切數(shù)據中提取有價值信息的(de)能力有多大———因為(wèi)大數(shù)據無疑增加了統計(jì)分析的(de)難度,而這(zhè)又(yòu)首先取決于我(wǒ)們統計(jì)思維能否适應大數(shù)據時代的(de)變化(huà)(huà)。正如邁爾–舍恩伯格所說(shuō):大數(shù)據發展的(de)核心動力就是人類測量、記錄和分析世界的(de)渴望。

  那麼,統計(jì)思維應該發生怎樣的(de)變化(huà)(huà)?筆者認為(wèi)主要要有如下三大變化(huà)(huà):

  (一)認識數(shù)據的(de)思維要變化(huà)(huà)

  前面已經提到,與傳統數(shù)據相比,大數(shù)據不(bù)僅體量大、變化(huà)(huà)快,而且其來源、類型和量化(huà)(huà)方式都發生了根本性的(de)變化(huà)(huà),使得數(shù)據雜亂、多樣、不(bù)規整。

  首先,從來源上看,傳統的(de)數(shù)據收集因為(wèi)具有很強的(de)針對性,因此數(shù)據的(de)提供者大多是确定的(de),身(shēn)份特征是可識别的(de),有的(de)還可以進行(xíng)事後核對。但(dàn)大數(shù)據通常來源于物(wù)聯網,不(bù)是為(wèi)了特定的(de)數(shù)據收集目的(de)而産生,而是人們一切可記錄的(de)信号(當然,任何信号的(de)産生都有其目的(de),但(dàn)它們是發散的(de)),并且身(shēn)份識别十分困難。從某種意義上講,大數(shù)據來源的(de)微觀基礎是很難追溯的(de)。

  其次,從類型上看,傳統數(shù)據基本上是結構型數(shù)據,即定量數(shù)據加上少量專門(mén)設計(jì)的(de)定性數(shù)據,格式化(huà)(huà),有标準,可以用(yòng)常規的(de)統計(jì)指标或統計(jì)圖表加以表現。但(dàn)大數(shù)據更多的(de)是非結構型數(shù)據、半結構型數(shù)據或異構數(shù)據,包括了一切可記錄、可存儲的(de)信号,多樣化(huà)(huà)、無标準、難以用(yòng)傳統的(de)統計(jì)指标或統計(jì)圖表加以表現。同時,不(bù)同的(de)網絡信息系統有不(bù)同的(de)數(shù)據識别方式,相互之間也沒用(yòng)統一的(de)數(shù)據分類标準。再者,現在(zài)有的(de)數(shù)據庫是非關系型的(de)數(shù)據庫,不(bù)需要預先設定記錄結構即可自動包容大量各種各樣的(de)數(shù)據。

  第三,從量化(huà)(huà)方式上看,傳統數(shù)據的(de)量化(huà)(huà)處理(lǐ)已經有一整套較為(wèi)完整的(de)方式與過程,量化(huà)(huà)的(de)結果可直接用(yòng)于各種運算與分析。但(dàn)大數(shù)據中大量的(de)非結構化(huà)(huà)數(shù)據如何量化(huà)(huà)(結構化(huà)(huà))、如何從中提取信息、如何與結構化(huà)(huà)數(shù)據對接是一個(gè)嶄新(xīn)的(de)問題。正如Franks所說(shuō):“幾乎沒有哪種分析過程能夠直接對非結構化(huà)(huà)數(shù)據進行(xíng)分析,也無法直接從非結構化(huà)(huà)的(de)數(shù)據中得出結論。”更為(wèi)重要的(de)是,“量化(huà)(huà)”的(de)含義恐怕也不(bù)一樣了,即此“量化(huà)(huà)”不(bù)一定等同于彼“量化(huà)(huà)”,量化(huà)(huà)結果的(de)表現形式自然也不(bù)相同。顯然,我(wǒ)們不(bù)能套用(yòng)已有的(de)方式去量化(huà)(huà)非結構化(huà)(huà)數(shù)據。

  可以說(shuō),大數(shù)據是雜亂、不(bù)規整、良莠不(bù)齊的(de),但(dàn)我(wǒ)們不(bù)能因此而回避它、拒絕它,隻能接納它、包容它。我(wǒ)們需要将統計(jì)研究的(de)對象範圍從結構型數(shù)據擴展到一切數(shù)據,需要重新(xīn)思考數(shù)據的(de)定義和分類方法,并以此為(wèi)基礎發展和創新(xīn)統計(jì)分析方法。從某種意義上講,沒有無用(yòng)的(de)數(shù)據,隻有未被欣賞的(de)數(shù)據,關鍵是我(wǒ)們從哪個(gè)角度看數(shù)據。

  (二)收集數(shù)據的(de)思維要變化(huà)(huà)

  收集數(shù)據是開展統計(jì)分析的(de)前提,“沒有黏土(tǔ),如何做(zuò)磚?”以往,收集統計(jì)數(shù)據的(de)思維是先确定統計(jì)分析研究的(de)目的(de),然後需要什麼數(shù)據就收集什麼數(shù)據,所以要精心設計(jì)調查方案,嚴格執行(xíng)每個(gè)流程,但(dàn)往往是投入大而數(shù)據量有限。現在(zài),我(wǒ)們擁有了大數(shù)據,就等于擁有了超大量可選擇的(de)數(shù)據———備選“黏土(tǔ)”的(de)體量與種類都極大地(dì)增加了,所要做(zuò)的(de)最重要的(de)工作就是比較與選擇,因此我(wǒ)們的(de)思維應該是如何充分利用(yòng)大數(shù)據,凡是大數(shù)據源中能找到的(de)數(shù)據就不(bù)再需要進行(xíng)專門(mén)的(de)調查。

  但(dàn)是,由于大數(shù)據來源與種類的(de)多樣性,以及數(shù)據增加的(de)快速性,我(wǒ)們在(zài)享受數(shù)據的(de)豐富性的(de)同時也不(bù)得不(bù)面臨這(zhè)樣一些困境:存儲能力夠不(bù)夠,分析能力夠不(bù)夠(是否及時、充分),如何甄别數(shù)據的(de)真僞,如何選擇關聯物(wù),如何提煉和利用(yòng)數(shù)據,如何确定分析節點?現在(zài)TB級的(de)數(shù)據庫已經很多,PB級的(de)數(shù)據庫也不(bù)少見,以後還會(huì)出現EB、甚至ZB、YB級的(de)數(shù)據庫。今天的(de)大數(shù)據,明天就不(bù)再是大數(shù)據。這(zhè)樣一來,電子(zi)存儲能力能否跟得上數(shù)據增加的(de)速度就成為(wèi)首要的(de)問題。如果讓數(shù)據庫自動更新(xīn)就有可能失去一些寶貴的(de)數(shù)據信息,而到了一定級别以後擴充存儲容量或對數(shù)據進行(xíng)拷貝,其代價是十分巨大的(de),因此我(wǒ)們不(bù)得不(bù)對數(shù)據進行(xíng)分類、篩選,有針對地(dì)删除那些垃圾數(shù)據、不(bù)重要或次重要的(de)數(shù)據。如果說(shuō)以前有針對地(dì)獲得數(shù)據叫做(zuò)收集,那麼今後有選擇地(dì)删除數(shù)據就意味著(zhe)收集。也就是說(shuō),大數(shù)據時代的(de)數(shù)據收集将更多的(de)是從已有的(de)超大量數(shù)據中進行(xíng)再過濾、再選擇。因此,我(wǒ)們要做(zuò)好(hǎo)(hǎo)丢棄一部分數(shù)據的(de)準備。

  當然,并不(bù)是任何數(shù)據都可以從現成的(de)大數(shù)據中獲得,這(zhè)裡(lǐ)存在(zài)一個(gè)針對性、安全性和成本比較問題。因此,我(wǒ)們既要繼續采用(yòng)傳統的(de)方式方法去收集特定需要的(de)數(shù)據,又(yòu)要善于利用(yòng)現代網絡信息技術和各種數(shù)據源去收集一切相關的(de)數(shù)據,并善于從大數(shù)據中進行(xíng)再過濾、再選擇。問題在(zài)于什麼是無用(yòng)的(de)或不(bù)重要的(de)數(shù)據?該如何過濾與選擇數(shù)據?這(zhè)就需要對已經存在(zài)的(de)數(shù)據進行(xíng)重要性分析、真僞别和關聯物(wù)定位。

  此外,大的(de)數(shù)據庫可能需要将信息分散在(zài)不(bù)同的(de)硬盤或電腦上,這(zhè)樣一來,在(zài)不(bù)能同步更新(xīn)數(shù)據信息的(de)情況下如何選擇、調用(yòng)和匹配數(shù)據又(yòu)是一個(gè)問題。因此從某種意義上講,從大數(shù)據中收集數(shù)據就是識别、整理(lǐ)、提煉、汲取(删除)、分配和存儲元數(shù)據的(de)過程。

  (三)分析數(shù)據的(de)思維要變化(huà)(huà)

  基于上述兩個(gè)變化(huà)(huà),數(shù)據分析的(de)思維必然要跟著(zhe)變化(huà)(huà),那就是要主動利用(yòng)現代信息技術與各種軟件(jiàn)工具從大數(shù)據中挖掘出有價值的(de)信息,并在(zài)這(zhè)個(gè)過程中豐富和發展統計(jì)分析方法。

  關于數(shù)據分析思維的(de)變化(huà)(huà),特别需要強調三點:

  第一,傳統的(de)統計(jì)分析過程是“定性—定量—再定性”,第一個(gè)定性是為(wèi)了找準定量分析的(de)方向,主要靠經驗判斷,這(zhè)在(zài)數(shù)據短缺、分析運算手段有限的(de)情況下很重要。現在(zài)我(wǒ)們是在(zài)大數(shù)據中找礦,直接依賴數(shù)據分析做(zuò)出判斷,因此基礎性的(de)工作就是找到“定量的(de)回應”,這(zhè)在(zài)存儲能力大為(wèi)增強、分析技術與分析速度大為(wèi)提高(gāo)的(de)今天,探測“定量的(de)回應”變得越來越簡單,所要做(zuò)的(de)就是直接從各種“定量的(de)回應”中找出那些真正的(de)、重要的(de)數(shù)量特征和數(shù)量關系,得出可以作為(wèi)判斷或決策依據的(de)結論,因此統計(jì)分析的(de)過程可以簡化(huà)(huà)為(wèi)“定量—定性”,從而大大提高(gāo)得到新(xīn)的(de)定性結論的(de)可能性。

  第二,傳統的(de)統計(jì)實證分析,一般都要先根據研究目的(de)提出某種假設,然後通過數(shù)據的(de)收集與分析去驗證該假設是否成立,其分析思路(lù)是“假設—驗證”,但(dàn)這(zhè)種驗證往往由于受到假設的(de)局限、指标選擇的(de)失當、所需數(shù)據的(de)缺失而得不(bù)出真正的(de)結論。特别是,一旦假設本身(shēn)不(bù)科(kē)學(xué)、不(bù)符合實際,那麼分析結論就毫無用(yòng)處、甚至扭曲事實真相。事實證明,很多這(zhè)樣的(de)實證分析純粹是為(wèi)了湊合假設。現在(zài),我(wǒ)們有了大數(shù)據,可以不(bù)受任何假設的(de)限制而從中去尋找關系、發現規律,然後再加以總結、形成結論。也就是說(shuō),分析的(de)思路(lù)是“發現—總結”。這(zhè)将極大地(dì)豐富統計(jì)分析的(de)資(zī)源與空間,有助于發現更多意外的(de)“發現”。

  第三,傳統的(de)統計(jì)推斷分析,通常是基于分布理(lǐ)論,以一定的(de)概率為(wèi)保證,根據樣本特征去推斷總體特征,其邏輯關系是“分布理(lǐ)論—概率保證—總體推斷”,推斷的(de)評判标準與具體樣本無關,但(dàn)推斷是否正确卻取決于樣本的(de)好(hǎo)(hǎo)壞。現在(zài),大數(shù)據強調的(de)是全體數(shù)據,總體特征不(bù)再需要根據分布理(lǐ)論進行(xíng)推斷,隻需進行(xíng)計(jì)數(shù)或計(jì)量處理(lǐ)即可。不(bù)僅如此,還可以根據全面數(shù)據和實際分布來判斷其中出現某類情況的(de)可能性有多大,其邏輯關系變成了“實際分布—總體特征—概率判斷”,也即概率不(bù)再是事先預設,而是基于實際分布得出的(de)判斷。按照(zhào)邁爾-舍恩伯格的(de)觀點,這(zhè)個(gè)概率判斷就可用(yòng)于預測了。

  伴随著(zhe)上述三大變化(huà)(huà),統計(jì)分析評價的(de)标準又(yòu)該如何變化(huà)(huà)?傳統統計(jì)分析的(de)評價标準無非兩個(gè)方面,一是可靠性評價,二是有效性評價,而這(zhè)兩種評價都因抽樣而生。所謂可靠性評價是指用(yòng)樣本去推斷總體有多大的(de)把握程度,是以概率來度量的(de)———有時表現為(wèi)置信水(shuǐ)平,有時表現為(wèi)顯著(zhe)性水(shuǐ)平。特别是在(zài)假設檢驗和模型拟合度評價中,顯著(zhe)性水(shuǐ)平怎麼定是一個(gè)難題,一直存在(zài)争議(yì),因為(wèi)所參照(zhào)的(de)分布類型不(bù)同其統計(jì)量就不(bù)同,顯著(zhe)性評價的(de)臨界值就不(bù)同,而臨界值又(yòu)與顯著(zhe)性水(shuǐ)平的(de)高(gāo)低直接相關。然而在(zài)大數(shù)據的(de)背景下,大數(shù)據在(zài)一定程度上就是全體數(shù)據,我(wǒ)們可以對全體數(shù)據進行(xíng)計(jì)數(shù)或計(jì)量分析,這(zhè)就不(bù)存在(zài)以樣本推斷總體的(de)問題了,那麼這(zhè)時還有沒有可靠性的(de)問題?還要不(bù)要确定置信水(shuǐ)平?怎麼确定?依據是什麼?如何比較來自不(bù)同容量數(shù)據庫的(de)分析結論的(de)可靠性?

  所謂有效性評價指的(de)是真實性,即誤差大小。這(zhè)裡(lǐ)又(yòu)有兩個(gè)相關的(de)概念:準确性與精确性。準确性一般是指一個(gè)觀察值與真實值的(de)吻合程度,通常情況下是無法做(zuò)出測度的(de);而精确性一般指樣本統計(jì)量分布的(de)離(lí)散程度,以抽樣分布的(de)标準差來衡量。很顯然,精确性是針對樣本數(shù)據而言的(de)。也就是說(shuō)樣本數(shù)據既有精确性問題又(yòu)有準确性問題,樣本數(shù)據中的(de)誤差既包括抽樣誤差也可能包括非抽樣誤差。抽樣誤差可以基于抽樣分布理(lǐ)論進行(xíng)計(jì)算和控制,而非抽樣誤差隻能通過各種方式加以識别或判斷,但(dàn)多數(shù)情況下由于樣本量不(bù)是太大而可以得到較好(hǎo)(hǎo)的(de)防範。但(dàn)對于大數(shù)據,由于它是全體數(shù)據,因而不(bù)再有抽樣誤差問題,隻有非抽樣誤差問題,也就是說(shuō)大數(shù)據的(de)真實性隻表現為(wèi)準确性而非精确性。然而由于大數(shù)據是超大量數(shù)據,再加上混雜性與多樣性,因此其非抽樣誤差很難防範與控制,這(zhè)就使得準确性評價問題變得更為(wèi)困難———如何測度?标準怎樣?

三:積極應對大數(shù)據

  面對大數(shù)據,我(wǒ)們唯有積極應對,别無選擇。如何應對,需要考慮以下幾個(gè)方面:

  (一)需要改變總體、個(gè)體乃至樣本的(de)定義方式

  傳統的(de)統計(jì)分析,是先有總體,再有數(shù)據,即必須先确定總體範圍和個(gè)體單位,再收集個(gè)體數(shù)據,分析總體。但(dàn)對大數(shù)據來說(shuō),情況完全不(bù)同了,是先有數(shù)據,再有總體。從某種意義上說(shuō),大數(shù)據的(de)産生系統多數(shù)是非總體式的(de),即無事先定義的(de)目标總體,隻有與各個(gè)時點相對應的(de)事後總體,原因就在(zài)于個(gè)體是不(bù)确定的(de),是變化(huà)(huà)著(zhe)的(de),是無法事先編制名錄庫的(de),這(zhè)與傳統的(de)總體與個(gè)體有很大的(de)不(bù)同。更為(wèi)複雜的(de)是,事後個(gè)體的(de)識别也很困難,因為(wèi)同一個(gè)個(gè)體可能有多個(gè)不(bù)同的(de)網絡符号或稱謂,而不(bù)同網絡系統的(de)相同符号(稱謂)也未必就是同一個(gè)個(gè)體,而且還經常存在(zài)個(gè)體異位的(de)情況(即某一個(gè)體利用(yòng)另一個(gè)體的(de)符号完成某種行(xíng)為(wèi)),因此我(wǒ)們對于大數(shù)據往往是隻見“數(shù)據”的(de)外形而不(bù)見“個(gè)體”的(de)真容。但(dàn)對大數(shù)據的(de)分析,仍然有一個(gè)總體口徑問題,依然需要識别個(gè)體身(shēn)份。這(zhè)就需要我(wǒ)們改變總體與個(gè)體的(de)定義方式———盡管它們的(de)內(nèi)涵沒有變。與此對應,如果要從大數(shù)據庫中提取樣本數(shù)據,那麼樣本的(de)定義方式也需要改變。當然,考慮到大數(shù)據的(de)流動變化(huà)(huà)性,任何時點的(de)總體都可以被理(lǐ)解為(wèi)一個(gè)截面樣本。

  (二)需要改變對不(bù)确定性的(de)認識

  衆所周知,統計(jì)學(xué)是為(wèi)了認識和研究事物(wù)的(de)不(bù)确定性而産生的(de),因為(wèi)無論是自然現象還是社會(huì)經濟現象,都時時處處充滿著(zhe)因個(gè)體的(de)差異性而引起的(de)不(bù)确定性,因為(wèi)在(zài)大多數(shù)情況下我(wǒ)們缺乏足夠的(de)信息或缺乏足夠的(de)知識去利用(yòng)有效信息,而人們總是期望通過量化(huà)(huà)事物(wù)的(de)不(bù)确定性去發現規律、揭示真相,認識不(bù)确定性背後的(de)必然性。要研究不(bù)确定性就需要收集數(shù)據,在(zài)隻能進行(xíng)抽樣觀測的(de)情況下,這(zhè)種不(bù)确定性就表現為(wèi)如何獲得樣本、如何推斷總體(包括估計(jì)與檢驗)和如何構建模型等方面。對于大數(shù)據,仍然存在(zài)著(zhe)個(gè)體的(de)差異性,區(qū)别隻在(zài)于它包括了一定條件(jiàn)下的(de)所有個(gè)體,而不(bù)是随機獲得的(de)一個(gè)樣本。這(zhè)樣,大數(shù)據的(de)不(bù)确定性就不(bù)再是樣本的(de)獲取與總體的(de)推斷,而是數(shù)據的(de)來源、個(gè)體的(de)識别、信息的(de)量化(huà)(huà)、數(shù)據的(de)分類、關聯物(wù)的(de)選擇、節點的(de)确定,以及結論的(de)可能性判斷等方面。可以說(shuō),大數(shù)據的(de)不(bù)确定性隻來自于其來源的(de)多樣性與混雜性,以及由于個(gè)體的(de)可變性所引起的(de)總體多變性,而不(bù)是同類個(gè)體之間的(de)差異性———因為(wèi)我(wǒ)們已經掌握了一定條件(jiàn)下的(de)完全信息。

  (三)需要建立新(xīn)的(de)數(shù)據梳理(lǐ)與分類方法

  大數(shù)據的(de)多樣性與混雜性,以及先有數(shù)據、後有總體的(de)特點,原有的(de)數(shù)據梳理(lǐ)與分類方法将受到諸多的(de)限制。傳統的(de)數(shù)據梳理(lǐ)與分類是按照(zhào)預先設定的(de)方案進行(xíng)的(de),标志與指标的(de)關系、分類标識與分組規則等都是結構化(huà)(huà)的(de),既是對有針對性地(dì)收集的(de)數(shù)據的(de)加工,也是統計(jì)分析的(de)組成部分。但(dàn)對于大數(shù)據,由于新(xīn)的(de)網絡語言、新(xīn)的(de)信息內(nèi)容、新(xīn)的(de)數(shù)據表現形式不(bù)斷出現,使得會(huì)産生哪些種類的(de)信息、有哪些可以利用(yòng)的(de)分類标識、不(bù)同标識之間是什麼關系、類與類之間的(de)識别度有多大、信息與個(gè)體之間的(de)對應關系如何等,都無法事先加以嚴格設定或控制,往往需要事後進行(xíng)補充或完善。面對超大量的(de)數(shù)據,我(wǒ)們從何下手?隻能從數(shù)據本身(shēn)入手,從觀察數(shù)據分布特征入手。這(zhè)就需要采用(yòng)不(bù)同的(de)數(shù)據梳理(lǐ)與分類方法。否則,要想尋找到能有效開展數(shù)據分析的(de)路(lù)徑是不(bù)可能的(de)。因此根據大數(shù)據的(de)特點,創新(xīn)與發展數(shù)據的(de)梳理(lǐ)與分類方法,是有效開展大數(shù)據分析的(de)重要前提。這(zhè)裡(lǐ)需要強調的(de)是,能否建立起能自動進行(xíng)初步的(de)數(shù)據梳理(lǐ)與分類的(de)簡單模型?因為(wèi)從技術上講,我(wǒ)們已經具備了一定的(de)對大數(shù)據進行(xíng)多次叠代建模的(de)算法。

  (四)需要強化(huà)(huà)結構化(huà)(huà)數(shù)據與非結構化(huà)(huà)數(shù)據的(de)對接研究

  有效實現結構化(huà)(huà)數(shù)據與非結構化(huà)(huà)數(shù)據的(de)對接,是數(shù)據概念拓展的(de)必然結果。盡管大數(shù)據是超大量數(shù)據,但(dàn)大數(shù)據不(bù)能涵蓋所有的(de)數(shù)據,因此傳統意義上的(de)結構化(huà)(huà)數(shù)據與大數(shù)據中的(de)非結構化(huà)(huà)數(shù)據必将長(cháng)期并存。大數(shù)據時代的(de)來臨,使得數(shù)據收集、存儲與分析的(de)能力大為(wèi)增強,而且步伐越來越快,但(dàn)出于針對性與安全性考慮,總有一些結構化(huà)(huà)數(shù)據要通過專門(mén)的(de)方式去收集而不(bù)能依賴于公共網絡系統(例如政府統計(jì)數(shù)據,專題研究數(shù)據)。這(zhè)樣,如何既能有針對性地(dì)收集所需的(de)結構化(huà)(huà)數(shù)據,又(yòu)能從大量非結構化(huà)(huà)數(shù)據中挖掘出有價值的(de)信息,使兩者相輔相成、有機結合,就成了一個(gè)新(xīn)的(de)課題,值得探讨的(de)問題包括非結構化(huà)(huà)數(shù)據如何結構化(huà)(huà)或結構化(huà)(huà)數(shù)據能否采用(yòng)非結構化(huà)(huà)的(de)表現形式等。通過特定的(de)方法,實現結構化(huà)(huà)數(shù)據與非結構化(huà)(huà)數(shù)據的(de)轉化(huà)(huà)與對接是完全可能的(de)。但(dàn)要實現這(zhè)種對接,必須要增強對各種類型數(shù)據進行(xíng)測度與描述的(de)能力,否則大數(shù)據分析就沒有全面牢固的(de)基礎。如果說(shuō)傳統的(de)基于樣本數(shù)據的(de)統計(jì)分析側重于推斷,那麼基于大數(shù)據的(de)統計(jì)分析需要更加關注描述。

  (五)需要轉變抽樣調查的(de)功能

  對于傳統的(de)數(shù)據收集而言,抽樣調查是最重要的(de)方式。盡管樣本隻是總體中的(de)很小一部分,但(dàn)由于依據科(kē)學(xué)的(de)抽樣理(lǐ)論,科(kē)學(xué)設計(jì)的(de)抽樣調查能夠确保數(shù)據的(de)精确度和可靠性。但(dàn)抽樣調查畢竟存在(zài)著(zhe)信息量有限、不(bù)可連續擴充、前期準備工作要求高(gāo)等缺陷,很難滿足日益增長(cháng)的(de)數(shù)據需求。現在(zài)有了大數(shù)據,我(wǒ)們應該利用(yòng)一切可以利用(yòng)的(de)、盡量多的(de)數(shù)據來進行(xíng)分析而不(bù)是僅局限于樣本數(shù)據。但(dàn)這(zhè)是否意味著(zhe)抽樣調查可以退出曆史舞台呢(ne)?筆者認為(wèi)還為(wèi)時過早,在(zài)信息化(huà)(huà)、數(shù)字化(huà)(huà)、物(wù)聯網還不(bù)能全覆蓋的(de)情況下,仍然還有很多數(shù)據信息需要通過抽樣調查的(de)方式去獲取。與此同時,盡管我(wǒ)們可以對大數(shù)據進行(xíng)全體分析,但(dàn)考慮到成本與效率因素,在(zài)很多情況下抽樣分析仍然是不(bù)錯的(de)或明智的(de)選擇。當然,抽樣調查也要适當轉變其功能以便進一步拓展其應用(yòng)空間:一是可以把抽樣調查獲得的(de)數(shù)據作為(wèi)大數(shù)據分析的(de)對照(zhào)基礎與驗證依據;二是可以把抽樣調查作為(wèi)數(shù)據挖掘、快速進行(xíng)探測性分析的(de)工具———從混雜的(de)數(shù)據中尋找規律或關系的(de)線索。

  (六)需要歸納推斷法與演繹推理(lǐ)法并用(yòng)

  哲人培根說(shuō)過“知識就是力量”。統計(jì)研究的(de)任務(wù)就是為(wèi)了發現新(xīn)的(de)知識,歸納法則是發現新(xīn)知識的(de)基本方法。因此,歸納推斷法成為(wèi)最主要的(de)統計(jì)研究方法,使得我(wǒ)們能夠從足夠多的(de)個(gè)體信息中歸納出關于總體的(de)特征。當然,歸納推斷的(de)依據通常是樣本數(shù)據,即在(zài)歸納出樣本特征的(de)基礎上再推斷總體。對于大數(shù)據,我(wǒ)們依然要從中去發現新(xīn)的(de)知識,依然要通過具體的(de)個(gè)體信息去歸納出一般的(de)總體特征,因此歸納法依然是大數(shù)據分析的(de)主要方法。正如C.R.勞指出:“‘從數(shù)據中提取一切信息’或者‘歸納和揭示’作為(wèi)統計(jì)分析的(de)目的(de)一直沒有改變。”但(dàn)是,大數(shù)據是一個(gè)信息寶庫,光重視(shì)一般特征的(de)歸納與概括是不(bù)夠的(de),還需要分析研究子(zi)類信息乃至個(gè)體信息,以及某些特殊的(de)、異常的(de)信息———或許它(們)代表著(zhe)一種新(xīn)生事物(wù)或未來的(de)發展方向,還需要通過已掌握的(de)分布特征和相關知識與經驗去推理(lǐ)分析其他(tā)更多、更具體的(de)規律,去發現更深層次的(de)關聯關系,去對某些結論做(zuò)出判斷,這(zhè)就需要運用(yòng)演繹推理(lǐ)法。演繹法可以幫助我(wǒ)們充分利用(yòng)已有的(de)知識去認識更具體、細小的(de)特征,形成更多有用(yòng)的(de)結論。隻要歸納法與演繹法結合得好(hǎo)(hǎo),我(wǒ)們就既可以從大數(shù)據的(de)偶然性中發現必然性,又(yòu)可以利用(yòng)全面數(shù)據的(de)必然性去觀察偶然性、認識偶然性、甚至利用(yòng)偶然性,從而提高(gāo)駕馭偶然性的(de)能力。

  (七)需要相關分析與因果分析并重

  《大數(shù)據時代》認為(wèi),我(wǒ)們隻須從大數(shù)據中知道(dào)“是什麼”就夠了,沒必要知道(dào)“為(wèi)什麼”,并且指出“通過給我(wǒ)們找到一個(gè)現象的(de)良好(hǎo)(hǎo)的(de)關聯物(wù),相關關系可以幫助我(wǒ)們捕捉現在(zài)和預測未來”以及“建立在(zài)相關關系分析法基礎上的(de)預測是大數(shù)據的(de)核心”。毫無疑問,從超大量數(shù)據中發現各種真實存在(zài)的(de)相關關系,是人們認識和掌控事物(wù)、繼而做(zuò)出預測判斷的(de)重要途徑,而大數(shù)據時代新(xīn)的(de)分析工具和思路(lù)可以讓我(wǒ)們發現很多以前難以發現或不(bù)曾注意的(de)事物(wù)之間的(de)聯系,因此大力開展相關分析是大數(shù)據時代的(de)重要任務(wù)。但(dàn)是,我(wǒ)們僅僅停留于知道(dào)“是什麼”是不(bù)夠的(de),還必須知道(dào)“為(wèi)什麼”,正所謂“既要知其然,更要知其所以然”,隻有這(zhè)樣才能更好(hǎo)(hǎo)地(dì)理(lǐ)解“是什麼”———為(wèi)什麼需要把手電筒與蛋撻放在(zài)一起。隻有知道(dào)原因、背景的(de)數(shù)據才是真正的(de)數(shù)據。因此探求“是什麼”背後的(de)原因始終是人類探索世界的(de)動力,因果分析是人類永恒的(de)使命。哲學(xué)家德谟克利特早就指出:“與其做(zuò)波斯國王,還不(bù)如找到一種因果關系。”如果我(wǒ)們隻知道(dào)相關關系而不(bù)知道(dào)因果關系,那麼數(shù)據分析的(de)深度隻有一半,一旦出現問題或疑問就無從下手。而如果我(wǒ)們知道(dào)了因果關系,就可以更好(hǎo)(hǎo)地(dì)利用(yòng)相關關系,就可以更好(hǎo)(hǎo)地(dì)掌握預測未來的(de)主動權,就可以幫助我(wǒ)們更科(kē)學(xué)地(dì)進行(xíng)決策。當然,因果分析是困難的(de),正因為(wèi)困難,所以要以相關分析為(wèi)基礎,要更進一步利用(yòng)好(hǎo)(hǎo)大數(shù)據。相關分析與因果分析不(bù)是互相對立的(de),而是互補的(de),兩者必須并重。

  (八)需要統計(jì)技術與雲計(jì)算技術融合

  盡管用(yòng)于收集和分析數(shù)據的(de)統計(jì)技術已相對成熟、自成體系,但(dàn)其所能處理(lǐ)的(de)數(shù)據量是有限的(de),面對不(bù)可同日而語的(de)大數(shù)據、特别是其中大量的(de)非結構化(huà)(huà)數(shù)據,恐怕單憑一己之力是難以勝任的(de),隻能望“數(shù)”興歎。首先遇到的(de)問題就是計(jì)算能力問題,這(zhè)就要求我(wǒ)們在(zài)不(bù)斷創新(xīn)與發展統計(jì)技術的(de)同時,還要緊緊依靠現代信息技術、特别是雲計(jì)算技術。雲計(jì)算技術主要包括虛拟化(huà)(huà)、分布式處理(lǐ)、雲終端、雲管理(lǐ)、雲安全等技術,或者說(shuō)以編程模型、數(shù)據存儲、數(shù)據管理(lǐ)、虛拟化(huà)(huà)、雲計(jì)算平台管理(lǐ)等技術最為(wèi)關鍵。借助雲計(jì)算技術可以将網格計(jì)算、分布式計(jì)算、并行(xíng)計(jì)算、效用(yòng)計(jì)算、網絡存儲、虛拟化(huà)(huà)、負載均衡等傳統計(jì)算機技術與現代網絡技術融合起來,把多個(gè)計(jì)算實體整合成一個(gè)具有強大計(jì)算能力的(de)系統,并借助SaaS、PaaS、IaaS、MSP等商業模式把它分布到終端用(yòng)戶手中。雲計(jì)算的(de)核心理(lǐ)念就是不(bù)斷提高(gāo)“雲”處理(lǐ)能力來減少用(yòng)戶終端的(de)處理(lǐ)負擔,使用(yòng)戶終端簡化(huà)(huà)成一個(gè)單純的(de)輸入輸出設備,并能按需享受強大的(de)“雲”計(jì)算處理(lǐ)能力。可見,統計(jì)技術與雲計(jì)算技術的(de)融合是一種優勢互補,隻有這(zhè)樣統計(jì)技術才能在(zài)大數(shù)據時代一展身(shēn)手、有所作為(wèi),才能真正把統計(jì)思想在(zài)數(shù)據分析中得到體現,實現統計(jì)分析研究的(de)目的(de)。

  數(shù)據創造統計(jì),流量創新(xīn)分析。由于各個(gè)應用(yòng)領域的(de)不(bù)斷變化(huà)(huà),特别是數(shù)據來源與類型的(de)不(bù)斷變化(huà)(huà),使得統計(jì)學(xué)還難以成為(wèi)一門(mén)真正成熟的(de)科(kē)學(xué)。因此,在(zài)數(shù)據分析的(de)世界裡(lǐ),不(bù)斷提高(gāo)駕馭數(shù)據的(de)能力是統計(jì)學(xué)發展的(de)終身(shēn)動力。

微信掃一掃

關注昊雲訂閱号

獲取更多專業資(zī)訊

服(fú)務(wù)項目

維保運維服(fú)務(wù)

信息系統集成服(fú)務(wù)

機房(fáng)搬遷服(fú)務(wù)

 
 
 
QQ 在(zài)線客服(fú)
QQ 在(zài)線客服(fú)
 
電話:
0531-88818533
客服(fú)QQ
2061058957
1905215487