這(zhè)些數(shù)據科(kē)學(xué)技能,才是老闆們最想要的(de)
作者:  來源: 雪(xuě)(xuě)晴數(shù)據網  發表時間:2016-3-15  點擊:3847

這(zhè)是一個(gè)好(hǎo)(hǎo)消息,如果你希望在(zài)2016年找一份數(shù)據科(kē)學(xué)的(de)工作在(zài)該領域職位空缺的(de)數(shù)量正在(zài)不(bù)斷增加,企業希望利用(yòng)大數(shù)據來獲得競争優勢。但(dàn)事實上,找一份夢寐以求的(de)數(shù)據科(kē)學(xué)工作就意味著(zhe)你要具備一些技能的(de)組合,你可能會(huì)驚訝學(xué)習哪些技能是雇主所最需要的(de)。

  最近(jìn),人們在(zài)CrowdFlower上針對Linkedin的(de)3490個(gè)數(shù)據科(kē)學(xué)職位做(zuò)了分析,并對最常出現的(de)21個(gè)技能進行(xíng)了排序。有些結果并不(bù)那麼令人驚訝—SQL排在(zài)最前,而其它的(de)結果可能是數(shù)據科(kē)學(xué)領域不(bù)斷發展的(de)領先指标。

  如上所述,SQL是最常見的(de)技能,在(zài)Linkedin發布的(de)所有數(shù)據科(kē)學(xué)工作中占比達到了57%。Hadoop排在(zài)第二,占比49%。這(zhè)并不(bù)出乎CrowdFlower公司(sī)CEO和創始人LukasBiewald的(de)意料。CrowdFlower是美國矽谷一家從事衆包數(shù)據處理(lǐ)的(de)公司(sī)。

  “SQL和Hadoop排在(zài)前兩位并沒什麼驚訝的(de),因為(wèi)它們本身(shēn)就是存儲數(shù)據的(de)技術”Biewald告訴Datanami(本文轉譯自該網站)。“每個(gè)數(shù)據科(kē)學(xué)家必須知道(dào)如何獲取數(shù)據。如果你不(bù)知如何獲取數(shù)據,那你什麼都做(zuò)不(bù)了。”

  在(zài)所有數(shù)據科(kē)學(xué)的(de)招聘信息中,python是排在(zài)第三名的(de)技能。在(zài)CrowdFlower去年關于數(shù)據科(kē)學(xué)家哪些技能是最重要的(de)調查中,python排在(zài)R的(de)後面。但(dàn)在(zài)本次招聘信息的(de)調查中(這(zhè)無疑是更具有前瞻性的(de)範圍),python作為(wèi)數(shù)據科(kē)學(xué)的(de)一項關鍵性技能占比達到了39%。相比之下,R是32%。

  相比R來說(shuō),為(wèi)什麼現在(zài)越來越多的(de)雇主正在(zài)尋找具備python技能的(de)數(shù)據科(kē)學(xué)家?Biewald提出了自己的(de)看法:“python的(de)工具集越來越好(hǎo)(hǎo)。已經有很多基于python的(de)統計(jì)工具”。“還有一個(gè)認識是數(shù)據科(kē)學(xué)不(bù)僅僅是統計(jì)學(xué)”。

  設想一下,數(shù)據科(kē)學(xué)家80%的(de)時間花(huā)費在(zài)數(shù)據清理(lǐ)和數(shù)據準備上,而隻有20%的(de)時間是用(yòng)來做(zuò)分析。這(zhè)或許可以解釋python突然出現的(de)原因。

  “我(wǒ)認為(wèi)Python是做(zuò)數(shù)據清理(lǐ)的(de)語言,而R是做(zuò)分析的(de)”,Biewald說(shuō)到。在(zài)創辦CrowdFlower之前,他(tā)負責領導Yahoo的(de)搜索相關團隊。“由于數(shù)據科(kē)學(xué)更多的(de)是做(zuò)數(shù)據清洗和準備,python正變得越來越重要。它無疑是将數(shù)據整理(lǐ)成适合做(zuò)分析的(de)數(shù)據格式最好(hǎo)(hǎo)的(de)語言”。

  事實上,Java排在(zài)第四位讓人有點摸不(bù)著(zhe)頭腦。因為(wèi)Java本身(shēn)不(bù)是數(shù)據科(kē)學(xué)所要求的(de)掌握一門(mén)語言,當你在(zài)java中寫Hadoop的(de)時候,它的(de)高(gāo)配就顯得有道(dào)理(lǐ)了。其它跟Hadoop相關的(de)工具都排在(zài)前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

  對于這(zhè)份CrowdFlower從Linkedin編輯過來的(de)職位列表,多少有些遺漏。ApacheSpark,在(zài)上面給出的(de)數(shù)據科(kē)學(xué)技能要求中沒有出現過。Scala也沒有出現過,它是在(zài)Spark框架內(nèi)處理(lǐ)數(shù)據的(de)主要途徑之一。

  這(zhè)可能是因為(wèi)Spark還比較前沿,大家對它知之甚少。“現在(zài)周圍對它有很多炒作,但(dàn)可能還是太早了”Biewald說(shuō)到。“在(zài)CrowdFlower,我(wǒ)們已經開始使用(yòng)它了。我(wǒ)認為(wèi)這(zhè)門(mén)技術很棒,但(dàn)在(zài)企業真正使用(yòng)它的(de)時候會(huì)有些滞後”。

  Spark和Scala可能是數(shù)據科(kē)學(xué)的(de)未來(它們在(zài)Alphabet[NASDAQ:GOOGL]公司(sī)中得到大力支持,矽谷的(de)許多高(gāo)科(kē)技公司(sī)也在(zài)廣泛的(de)使用(yòng)它們)。但(dàn)不(bù)是每個(gè)數(shù)據科(kē)學(xué)項目或團隊都需要走在(zài)技術的(de)最前沿才能實現他(tā)們的(de)大數(shù)據成果。“令人驚訝的(de)是現在(zài)很多人都在(zài)尋找數(shù)據科(kē)學(xué)家,但(dàn)是我(wǒ)認為(wèi)他(tā)們中的(de)很多人是不(bù)想走在(zài)最前沿的(de)”Biewald說(shuō)到。

  這(zhè)份CrowdFlower列表中包含了許多知名的(de)數(shù)據分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald認為(wèi)這(zhè)些工具仍是有價值的(de)并且在(zài)未來一段時間內(nèi)還會(huì)繼續使用(yòng)。但(dàn)是他(tā)希望它們的(de)市(shì)場份額逐漸被那些專門(mén)為(wèi)大數(shù)據設計(jì)的(de)新(xīn)工具所奪走。

  “數(shù)據科(kē)學(xué)的(de)角色大于統計(jì)學(xué)家”他(tā)說(shuō)。“在(zài)我(wǒ)們的(de)腦海裡(lǐ),這(zhè)些舊的(de)語言更多的(de)是建立在(zài)統計(jì)學(xué)家的(de)基礎上,它們隻是對少量的(de)數(shù)據進行(xíng)分析。而排名在(zài)前的(de)Hadoop,python和Java則可以運行(xíng)TB級的(de)數(shù)據。你可以用(yòng)SAS,SPSS,Matlab來做(zuò)大數(shù)據分析,但(dàn)這(zhè)不(bù)是它們設計(jì)的(de)目的(de)”。

  不(bù)是每個(gè)人都同意“數(shù)據科(kē)學(xué)”或“數(shù)據科(kē)學(xué)家”應該做(zuò)什麼以及應該掌握什麼樣技能的(de)定義。事實上,一些人反對使用(yòng)術語“科(kē)學(xué)”,而甯願用(yòng)諸如“應用(yòng)統計(jì)”的(de)短語。(想起了哈佛商業評論稱應用(yòng)統計(jì)學(xué)家是21世紀最性感的(de)職業)但(dàn)在(zài)Biewald和其他(tā)人眼中,處理(lǐ)數(shù)據的(de)能力和統計(jì)分析的(de)能力同等重要。這(zhè)就是他(tā)對數(shù)據科(kē)學(xué)家進一步給出的(de)定義。

  “在(zài)過去,我(wǒ)們處理(lǐ)幾千條記錄的(de)時候不(bù)是特别難。但(dàn)是,當數(shù)據量達到數(shù)十億條記錄的(de)時候我(wǒ)們就需要真本事來得到一個(gè)規範的(de)格式,以便我(wǒ)們進一步做(zuò)回歸或機器(qì)學(xué)習”他(tā)說(shuō)。“對于這(zhè)種情況,我(wǒ)想要聘請(qǐng)的(de)是一名掌握python或者是C、Perl、Ruby亦或是一門(mén)更多做(zuò)數(shù)據處理(lǐ)而不(bù)是做(zuò)數(shù)據分析的(de)語言的(de)數(shù)據科(kē)學(xué)家”。

服(fú)務(wù)項目

維保運維服(fú)務(wù)

信息系統集成服(fú)務(wù)

機房(fáng)搬遷服(fú)務(wù)

 
 
 
QQ 在(zài)線客服(fú)
QQ 在(zài)線客服(fú)
 
電話:
0531-88818533
客服(fú)QQ
2061058957
1905215487