Kevin Tseng
Nov 14, 2017

--

時光飛逝,做了data快四年的時光,雖然近期在技術上面比較少著墨(慚愧),但還是update一下相關資訊。(2021/04/10 update)

1. 社群:社群是一個相對開放,而且沒有門檻的入口,也是長期能吸收到許多知識的地方。

(1) Data Science Meetup 台灣資料科學社群:友善的社群,但相對技術成分比較少,有線上線下演講、徵才、應用、甚至是Mentorship program等。

(2) Taiwan R User Group / MLDM Monday:常態性的講座,很多實務與技術分享。

(3) Python Taiwan:Python的台灣社群,由於data相關的從業人員,使用Python的比例很高,所以技術的部分也會在這裡出現。

(4) R-Ladies Taipei

(5) Pyladies Taiwan

(6) 臺灣資料工程協會聚焦於data engineering 領域

2. Short-term Programs:

(1) ccClub Python讀書會:可參考medium上參加心得

(2) 台灣資料科學社群Mentorship program

(3) 曼陀號領航計畫

3. 培訓計畫

(1) AppWorks School:有同事參加過,很像École 42,密集的訓練課程,但主要靠學生自學與互助,很像工程師的工作日常。

(2) 資策會的Data Engineering課程:有分台北跟中壢的課程,中壢辦了比較久,建議要比較師資與課程,是否符合104上面的JD,投入前最後透過線上課程或short-term program確認自己適不適合寫程式,不然就是花了半年跟一筆錢確認自己不適合,我當初上台北班的時候,可能是因為幾乎都是零基礎,大概有一半的人發現自己不適合走這一行。然後不管是長短期的計畫,其實重點都是在學習的氛圍跟自己,師資是其次。

(3) 台灣人工智慧學校

4. Conference

(1) PyData Taipei

(2) PyCon TW

5.基本技術

  1. 常用的工具或語言:SQL、Python/R、Excel、資料視覺化工具 (Tableau/Power BI)、ETL tool
  2. 技能需求(不同規模與部分需要差別很大,請詳閱JD,越模糊的公司代表工作內容越不確定,但相對進入門檻會較低):

(1) SQL必備:基本上跟資料打交道,基礎語法不夠熟練會死得很慘

(2) 基本的分群(clustering)、分類(classification)演算法

(3)敘述統計:快速了解資料分佈:加總、平均、變異、盒鬚圖等,這部分有很多成熟的軟體,例如Tableau都會有內建的功能可以快速確認

(4) 程式語言:爬蟲、資料清洗(regex, pandas)、文字探勘(Text Mining)、主流演算法套件(如scikit-learn)實作

(5)簡報技巧:透過資料視覺化及PPT提供簡報,協助商業決策

6. 職涯選擇:

資料科學(Data Science, DS)主要分三個角色

(1) Data Engineer:負責資料的蒐集與處理,偏底層、架構的角色,需求最大。

(2) Data Analyst:負責資料探勘(Mining)、分析、建模、演算法實作,資料視覺化(Data Visualization)、簡報呈現:將最終分析結果供商業決策,找出數據的價值,重點是達成目的,而不是使用多炫砲的演算法。

(3) Data Scientist:相對於data analyst,更加強調coding的與modeling的技術,但公司規模與產業上的差距很大,還是需要以JD確認。

小公司可能 (1)、(2) 會合在一起,市場上Data Analyst/Data Scientist常常混淆,還是要看公司規模而定,公司越大,分工越細,小公司或新創就是都要會做,小公司練技術、大公司就是專精於某一職能,甚至某一細分領域(ex. 自然語言處理(NLP)、電腦視覺(CV)

7. 工作內容:

基本上從一開始的ETL,到資料清理、探勘、建模、視覺化,以及最後的簡報呈現都有接觸,會經歷專案的完整流程,因為在大公司不需要硬體方面的建置,是交給其餘IT部門負責,所以環境上會比較單純一點,不過依公司而異。

8. 就業機會:

104一掃就是一堆,DS跟AI最近炒得相當火熱,但是很多企業才剛導入,也不確定能產生商業價值,屬於試驗階段。在金融、電信、廣告都屬於資料量較大的領域,在DS或許能產出較好的商業價值。

9. 學習資源:

(1)書籍:

a. Python for Data Analysis:O’Reilly的書,介紹了資料分析常用的套件Pandas與Numpy,但版本比較舊,指令可能不同了,但是分析概念不變。

b. 統計學習方法:李航有扎實的數學推導,是中國機器學習常推薦的書,但建議有點基礎再讀,不管是線代或算法上,但是讀完應該會有對演算法深刻的理解,難度頗高。

c. 精通Python,扎實理解Python語言,但如果只做分析,可以挑會用到的章節就好。

(2)線上課程

a. Coursera:Andrew Ng的ML與DL課程,都很適合入門,不太需要任何基礎

b. 林軒田教授的機器學習基石(上)(下):建議線代、微積分有一定基礎再去聽,不然會很痛苦,但課程很扎實

(3) 新知補充:infoQ

結語:基本上不管如何新潮的技術,從Data Mining, Modeling, AI,重點是要能解決商業上的實際問題,並且為企業帶來價值,否則就會像一個沒有產出的研發部門,下場應該不太好…… 而基礎的技術也只是帶你入門,重點是持續在職涯上解決問題,跟上技術的潮流,才能不被這個快速變動的領域淘汰

--

--

Kevin Tseng
Kevin Tseng

Written by Kevin Tseng

Area about fake news, information operation, data visualization, and data science

Responses (2)