數(shù)據(jù)科學(xué)該怎么學(xué)?必備技能有哪些?
最近,一份數(shù)據(jù)科學(xué)領(lǐng)域的學(xué)習(xí)寶典在推特上火了,吸引點贊1k+。
之所以能夠引起大家的關(guān)注,是因為這份教程將數(shù)據(jù)科學(xué)廣而雜的知識內(nèi)容,梳理成了14個方面及各自要點,同時解答了許多學(xué)習(xí)中的常見疑問。
比如“用什么語言比較好”、“哪些工具最適合”。
這份學(xué)習(xí)寶典的作者為Matt Dancho,他是一個數(shù)據(jù)科學(xué)學(xué)習(xí)網(wǎng)站的創(chuàng)始人。
那么,具體這份干貨到底講了什么?是否真的如此神奇?
我們一起來看。
更推薦R語言
進(jìn)入正題之前,我們先來淺聊一下數(shù)據(jù)科學(xué)(Data Science)。
數(shù)據(jù)科學(xué)是指通過挖掘數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù),從而得到有用信息的技術(shù)和研究,再將這些信息應(yīng)用到不同領(lǐng)域的各個方面。
該學(xué)科結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué)、統(tǒng)計、模式識別、機器學(xué)習(xí)、數(shù)據(jù)可視化、數(shù)據(jù)倉庫以及高性能計算等,覆蓋知識面非常廣。
作者表示想要掌握這些技能,大概每周要投入10個小時來學(xué)習(xí)。
那么在開始真正學(xué)習(xí)之前,先來看一個最關(guān)鍵的問題——
用什么語言?
在這里,作者認(rèn)為選擇R語言或者Python都可以。
如果從從業(yè)角度出發(fā),他會考慮以下三個因素:
編程語言對數(shù)據(jù)科學(xué)的影響有多大?就業(yè)市場的需求如何?就業(yè)市場的競爭力如何?
第一方面,作者直接將二者進(jìn)行了對比。
Python非常適合機器學(xué)習(xí)和深度學(xué)習(xí)。但是在市場報告方面的優(yōu)勢不大,能用于統(tǒng)計經(jīng)濟學(xué)等重要領(lǐng)域的庫比較少。
R語言在業(yè)務(wù)分析、數(shù)據(jù)科學(xué)方面都擁有完善的工具支持,在深度學(xué)習(xí)方面的應(yīng)用比較弱。
不過作者認(rèn)為,深度學(xué)習(xí)在數(shù)據(jù)科學(xué)中的應(yīng)用不多,而且在需要深度學(xué)習(xí)或者其他API時,R語言可以和Python集合。
再從就業(yè)市場角度來看。
作者統(tǒng)計了美國招聘市場上的數(shù)據(jù)。
結(jié)果顯示,Python方面在招職位的數(shù)量,是R語言的2.4倍。
但是了解、掌握Python的人,也比掌握R語言的更多。
可能達(dá)到4-32倍。
最終作者認(rèn)為,選擇R語言更有優(yōu)勢。
那么還有一些其他基礎(chǔ)技能呢?
比如推薦使用Excel嗎?
作者認(rèn)為,雖然Excel的使用人群更廣、商務(wù)人士非常喜愛,但是它在處理機器學(xué)習(xí)、大數(shù)據(jù)方面都不具有優(yōu)勢,而且單元格中的函數(shù)也容易報錯。
所以,建議大家慎重使用Excel。
而在選用什么開發(fā)工具方面,作者展開了一項小調(diào)查。
針對喜歡使用R語言的人群,RStudio是大家最喜愛的開發(fā)工具。
Python方面,Jupyter、VSCode更受人們歡迎。
在這里作者沒有給出明確的推薦,大家可以按照喜好選擇。
只需4步,上手?jǐn)?shù)據(jù)科學(xué)
接下來,就到了正式學(xué)習(xí)的環(huán)節(jié)。
大致可以分為4個步驟:
掌握基礎(chǔ)技能學(xué)習(xí)建模學(xué)習(xí)時間序列分析將模型集成到應(yīng)用程序
所需要點亮的技能樹如下所示:
看到這里,先不要頭皮發(fā)麻……作者給出了一些具體的學(xué)習(xí)tips。
第一,從基礎(chǔ)技能學(xué)起。
可能很多人一上來就想搞定機器學(xué)習(xí),但這可能會影響學(xué)習(xí)興趣&效率。
作者用R語言進(jìn)行了示范,列舉了一些基礎(chǔ)技能:
導(dǎo)入數(shù)據(jù):使用數(shù)據(jù)庫,連接到SQL,readr包, readxl包;轉(zhuǎn)換數(shù)據(jù):處理異常值、缺失數(shù)據(jù)、重塑數(shù)據(jù)、聚合、過濾等;可視化數(shù)據(jù):靜態(tài)/交互式數(shù)據(jù)可視化,ggplot2以及plotly;處理文本數(shù)據(jù)、函數(shù)式編程……
如果以上這些基礎(chǔ)技能都掌握后,接下來就可以學(xué)習(xí)機器學(xué)習(xí)了。
在這里,可能有人會疑惑,不應(yīng)該先學(xué)習(xí)數(shù)學(xué)、統(tǒng)計和算法嗎?
對此作者認(rèn)為,如果從頭開始學(xué)習(xí)如何編寫算法,可能并不是快速上手?jǐn)?shù)據(jù)分析。
所以,他更推薦從實戰(zhàn)中學(xué)習(xí)這些技能。
簡單來看可以分為三步:
把機器學(xué)習(xí)應(yīng)用在實際問題上;嘗試使用不同的算法;對比不同的應(yīng)用結(jié)果。
在這方面需要用到哪些工具呢?
Tidymodels和H2O是作者推薦的兩個軟件包。
另外,Recipes中具有很多預(yù)處理工具,可以轉(zhuǎn)換數(shù)據(jù)、創(chuàng)建數(shù)據(jù)特征。
接下來,作者推薦你開始學(xué)習(xí)時間序列分析。
因為這個技能意味著你可以對未來的一些數(shù)據(jù)進(jìn)行預(yù)測,掌握這項技能也會使你成為大廠手中炙手可熱的人才。
在這方面,你需要掌握的技能如下:
時間序列分析:處理日期/日期時間數(shù)據(jù)、聚合、轉(zhuǎn)換、可視化時間序列、使用timetk預(yù)測:ARIMA、指數(shù)平滑、Prophet、機器學(xué)習(xí)(XGBoost、隨機森林、GLMnet 等)、深度學(xué)習(xí)(GluonTS)、集成、調(diào)整超參數(shù)、擴展預(yù)測、modeltime包。
進(jìn)行到這一步后,你就可以嘗試去創(chuàng)建一個模型并投入使用了。
在這里,作者推薦了一個能夠?qū)⒛P图傻綉?yīng)用程序中的工具——Shiny。
這個程序包可以用來創(chuàng)建交互式Web應(yīng)用程序,代碼可以在本地或服務(wù)器上托管。
One More Thing
看完這份技能樹后,也有網(wǎng)友提出了疑問:
為什么沒有看到深度學(xué)習(xí)?
作者回復(fù)表示:針對商業(yè)應(yīng)用,機器學(xué)習(xí)會更實用。
作者表示,有位小哥在他們網(wǎng)站選擇了快速進(jìn)修的課程后,得到了微軟機器學(xué)習(xí)工程師的offer。
當(dāng)然,這份完整的學(xué)習(xí)計劃是可以白嫖的(鏈接請見文末)。
對于這篇分享,你怎么看?
歡迎留言討論~
學(xué)習(xí)清單:https://www.business-science.io/r-cheatsheet
關(guān)鍵詞: 這份寶典火了 小哥學(xué)后加薪30W+
網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 www.ffpps.com All Rights Reserved.
中國網(wǎng)絡(luò)消費網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
成人用品网站| 精品欧洲av无码一区二区三区| free性开放小少妇| 将军与娇妻各种做高h| 农场主的女儿们 经典k 8| 女局长白白嫩嫩大屁股| 韩国三级| 被喂春药饮料健身教练玩弄| 夫妇交换性3中文字幕| 国产真实乱了露脸在线观看| 变态另类重口特级| 老太做爰xxxx| 欧美激情一区二区三区| 色婷婷亚洲婷婷七月中文字幕| 三个人c了我半小时| 丰满少妇高潮惨叫久久久| 一路向西在线观看完整版| 国产jizzjizz麻豆全部免费| 97色情在线观看免费高清| 被部长玩的漂亮人妻| 最近中文字幕2019免费版日本 | 日本最大胆的人文体艺术| 国内精品久久久久久99蜜桃| a级毛片免费观看在线播放| 妓院里的中国姑娘| 亚洲愉拍99热成人精品| 欧美特黄a级高清免费大片a片| 荡公乱妇11部分| 色婷婷亚洲婷婷七月中文字幕| 放学后的秘密花园| 激情都市亚洲一区二区| 欧一欧二欧三| 最近免费中文字幕mv免费高清版 | 日本在线视频网站| 偿还HD韩国中文版| 日本潮水rapper超多| 老师说我考好了就随便我怎样| 好吊妞国产欧美日韩免费观看| 欧美顶级少妇做爰hd| 亚洲国产精品一区二区久久| 最近最新的日本字幕mv|