“數據(ju)科(ke)(ke)學(xue)家(jia)”在2009年由Natahn Yau首次提(ti)出,其概(gai)念是采用(yong)科(ke)(ke)學(xue)方法、運用(yong)數據(ju)挖掘工具(ju)尋找新的數據(ju)洞(dong)察的工程師。數據(ju)科(ke)(ke)學(xue)家(jia)集技術專(zhuan)家(jia)與數量分(fen)析師的角色于(yu)一(yi)身,與傳(chuan)統數量分(fen)析師相比(bi):后者通常(chang)利用(yong)企業的內部(bu)數據(ju)進行(xing)分(fen)析,以支持領導(dao)層的決策(ce);而前者更多(duo)的是通過關注面向用(yong)戶(hu)的數據(ju)來創造不(bu)同特性的產品和流程,為(wei)客戶(hu)提(ti)供有意義(yi)的增值服務。
面(mian)向客(ke)戶的性質決定了大部分數(shu)(shu)據(ju)科學(xue)家擔任(ren)公(gong)司產品開發或營銷部門的職位,或是效力于首席(xi)技術(shu)官。那么數(shu)(shu)據(ju)科學(xue)家需要具備哪些(xie)核心(xin)能力呢?科技記者(zhe)Derrick Harris在其文章中介紹(shao)了數(shu)(shu)據(ju)科學(xue)家應(ying)具備的一些(xie)技能。
他(ta)表(biao)示(shi),在你詢問別人什(shen)么是(shi)(shi)數據科(ke)學(xue)(xue)(xue)(xue)家,或者(zhe)數據科(ke)學(xue)(xue)(xue)(xue)家是(shi)(shi)做(zuo)什(shen)么的時(shi)候,很(hen)容(rong)易發現:“數據科(ke)學(xue)(xue)(xue)(xue)家”其實是(shi)(shi)從“大(da)數據”引發的術語(yu)混亂中形(xing)成的。數據科(ke)學(xue)(xue)(xue)(xue)的核(he)心能力被(bei)定義為:SQL、統(tong)計、預測建(jian)模和編程(cheng)、Python等(deng)(deng),這些聽起來很(hen)合理(li)。但是(shi)(shi)很(hen)快就有更多名(ming)詞添加到其中:Hadoop/MapReduce、機器學(xue)(xue)(xue)(xue)習、可(ke)視化(hua),甚(shen)至(zhi)還(huan)有傳統(tong)的數學(xue)(xue)(xue)(xue)、物理(li)、計算機科(ke)學(xue)(xue)(xue)(xue)等(deng)(deng)類似能力。
許多人(ren)呼吁專業(ye)領域(yu)、商業(ye)智慧、創造(zao)力(li)及表(biao)達能力(li)也(ye)是(shi)(shi)同樣(yang)重要(yao)的(de)。一(yi)(yi)個(ge)(ge)數據(ju)科學(xue)家(jia)不能只擅長數字(zi)(這(zhe)(zhe)(zhe)種人(ren)被(bei)稱(cheng)為(wei)統(tong)計學(xue)家(jia)或(huo)分析師),也(ye)要(yao)能夠理解業(ye)務:什么(me)樣(yang)的(de)數據(ju)或(huo)結果才是(shi)(shi)有參考性的(de);能夠找(zhao)到新(xin)的(de)數據(ju)集并為(wei)其創造(zao)新(xin)產品;然后能夠讓CEO們理解這(zhe)(zhe)(zhe)一(yi)(yi)切。這(zhe)(zhe)(zhe)是(shi)(shi)一(yi)(yi)個(ge)(ge)艱巨的(de)任務,這(zhe)(zhe)(zhe)個(ge)(ge)世界上(shang)這(zhe)(zhe)(zhe)類人(ren)是(shi)(shi)很少的(de)。作(zuo)為(wei)頂尖的(de)數據(ju)科學(xue)家(jia),不要(yao)求他們對環境(jing)做出什么(me)積極(ji)的(de)改變,但是(shi)(shi)需要(yao)他們嘗試做一(yi)(yi)些(xie)真(zhen)正(zheng)先進的(de)東西,幫助大家(jia)更(geng)好的(de)解決業(ye)務上(shang)的(de)問題(ti)。
數據科學家的六種(zhong)能(neng)力:
1.對數據(ju)的提取與綜合能力;
2.統(tong)計(ji)分析能力;
3.數據洞察(cha)與信息(xi)挖掘能力(li);
4.開發軟件能力;
5.網絡編程能力;
6.數據(ju)的(de)可視化表示(shi)能力。
數據科學家涉及(ji)學科:
1.計算機科學:數據獲取(qu)、數據解(jie)析、數據存(cun)放、和數據安全
2.數(shu)理統計學:數(shu)據(ju)分析(xi)、數(shu)據(ju)過濾、數(shu)據(ju)挖(wa)掘(jue)、和數(shu)據(ju)優化(hua)
3.圖形設計學:顯示數據結果(guo),比如將數據表達成三維圖形,以便更(geng)好地理解和利用
4.人機(ji)交(jiao)互學(xue):在用戶和數(shu)據(ju)(ju)之間建立有機(ji)聯(lian)系,使得人對數(shu)據(ju)(ju)的使用更方(fang)便