Kevin Tseng
5 min readFeb 25, 2018

資料科學家(Data Scientist)職涯規劃 (1) — AI技術內參考(極客APP)心得

Data Scientist(DS)在台灣算新興的職務,生態上尚未健全,許多公司正嘗試導入,或成果不如預期裁撤也有所聽聞,整體環境讓人迷惘,所以我一直嘗試蒐集相關資料與自身工作經驗作為對照,從知乎上的卡牌大師、北冥乘海生付費直播,到網路上隨手可見的從業人員經驗談,直到最近訂了極客APP的專欄AI技術內參考(一周更新三次,持續一年,199 RMB),總算找到比較有系統的歸納,尋找期間投資了不少,為了對得起自己的投資,也確認自己的職涯路線,此文主要以AI技術內參的付費內文《如何組建一個數據科學團隊?》,作者是Etsy的主管洪亮劼,作為參考依據並補充。

1. 主要職涯路線

首先Data Scientist粗略可分為兩類,

(1) 數據分析,英文一般稱為Data Analyst,如KKBOX

(2) 算法模型,則是Algorithm Engineer,如阿里巴巴

2–1. 數據分析-職務要求

(1) 理論知識:

a. 機率與統計

b. 基本假設檢定

c. 進階的假設檢定,如無母數統計

c. A/B test 及其實驗設計

d. 對時間序列的資料進行分析

ps. 原文有提到因果推論(Causal Inference),但查了資料好像是比較前沿的知識,故先不納入

(2)技術:

a. 程式語言,如R, Python的基本操作,如DataFrame、ETL(Etract Transfer Load)等

b. 基礎SQL指令

c. Hadoop等分佈式系統處理工具的基礎認知

d. 傳統的計算機演算法,如排序等

2–2. 算法模型-職務要求

(1) 理論知識:

a. 機率與統計

b. 傳統機器學習的模型,分類、分群、回歸

c. 概率圖模型(probabilistic graphical model, PGM)

補充:想了解概率图模型?你要先理解图论的基本定义与形式

d. 對深度學習(Deep Learning, DL)有基礎認識

e. 對優化(optimization)演算法有基礎認識

f. 基礎的計算機演算法、資料結構、資料庫、操作系統知識

g. 特定領域(domain)的模型相關知識,如推薦系統、文字探勘(Text Mining)、自然語言處理(NLP)

(2)技術:

a. 以程式語言實現某些機器學習的演算法

b. 使用和擴展現有工具,如Scikit Learn

c. 以Hadoop為基礎的工具(Hive, Pig, Spark…) 建構分散式運算的環境。

d. 對DL框架,如Tensorflow, Caffe, Torch, MxNet有基礎認識

2–3. 總結

分析現有數據及強化決策,職位偏向數據分析,通過演算法或模型改進產品,那就是偏算法模型了。

3. 團隊建置階段

當公司或團隊較小時,比較需要「通才」型的DS,就跟小公司做的事情比較雜,比較廣一樣,大公司才比較需要特定領域的專才;所以相對於台灣以中小企業居多,可想而知整體的就業分布如何,就像如果公司量體或盈餘不夠大,很難會有「前瞻性」的研發團隊建置。

(1)早期-平台建置:

此時比較需要通才型的DS,必須跟IT搭建數據流(Pipeline),將資料的ETL建置完成,比較偏向資料工程師Data Engineer的腳色。

有了平台後,就可以建立自動化的運營指標(Metrics)如MoM, YoY之類的報表,進一步是視覺化(Visualization),產出儀表板(Dashboard),加快決策速率,以及減少人員 routine貼Excel報表的維運時間,到了這個階段,才需要建立Data Science團隊,但是台灣自動化做好的公司有多少呢?每天有多少人在貼報表中度過呢?Pipeline都沒建好的話,就像沒食材想煮滿漢全席一樣荒唐。

(2) 第一階:當企業在上升期時,最需要的是進攻,必須快速為產品的更迭提供建議,利用對產品需求的理解,快速提供數據分析的支持,並且與產品經理(PM)、IT快速的跨部門合作。

(3) 第二階:初期提供的算法與模型並不複雜,可能就是簡單的回歸(LR)、決策樹等。

(4) 第三階段,業務穩定後,公司逐漸理解到老客戶帶來的收益更加,或市場趨於飽和、新用戶獲取難度上升,強化用戶慰留(Costumer Retention)的資源投入。此時需要「專才」的導入,因為個人已經較難勝任兩方的任務了。

a. 分析面的專才,分為實驗設計及分析產品指標的DS,另一邊是領域(Domain)專家,透過長時間數據的分析,找出Insight。

b. 建模方面的專才,依照各個流程,如推薦系統、文字探勘、圖像識別等區分,此外作者也提醒,通才到專才的Gap很大,訓練的時間很長,所以公司夠大的話,必須進行專才的招聘。

經上述階段可看出,整體建置是一條不短的路,很多公司都還在摸索,如果過程尚未到達,也不太能看到最後一階段的「錦上添花」,或是覺得某個fancy的演算法就能做出超然的貢獻;目前我自己從業大概經過了第二階段到第三,漸漸感受到學科上的基礎素養及相關限制,只能透過閒暇時間惡補了 QQ 這種需要長時間克服基礎素養,不知道大家如何克服呢?希望有人能分享

這是我目前看過DS職涯規劃架構很最好的闡述,推薦給大家,當然這只是一家之言,也可以看看其他人的看法,例如 如何成为一个年薪 50 万以上的数据分析师?

Kevin Tseng
Kevin Tseng

Written by Kevin Tseng

Area about fake news, information operation, data visualization, and data science

Responses (1)