為什麼都用「勝算比」odds ratio(OR) 而不是「相對風險」 (RR)呢?
1. 總結
最近在用邏輯回歸做模型時(Logistic Regression, LR),突然想到為什麼挑變數都是看odds ratio(WOE, IV),而不是相對直觀的relative risk(RR)呢? 歸納一下找到的資料,主要原因有兩個:
感謝 Oscar 09/30提出文章錯誤 ,RR在前瞻與回溯性研究都可以使用, 10/10更正
(1). odds ratio(OR)勝算比:
可以用在前瞻性研究(prospective study)與回溯性研究(retrospective study)及病例對照研究(Case–control study),適用範圍較廣。
(2). RR:
RR不能用在Case–control study,是因為控制組或對照組的比例一改變,RR也會不同,但OR還是一樣。
參考資料主要以下兩篇,接下來會對定義與範例作解釋
(1). 知乎的問答 :主要是英文,但圖解很清晰易懂
(2). 醫學期刊常見的風險測量(Risk measure in medical journal):
notice: 文章有提到RR不能用在回溯性是錯的, 10/10已經留言給作者
晨晰統計部落格,很多統計的東西都會看到他的文章,解說完整但排版差一點,想看中文的解說可以逛逛,但要注意,此邊文章在算OR時,突然換了方向,可能會讓讀者困惑,可以看知乎那篇就比較一致
2. 名詞解釋
(1). 前瞻性研究:主要是長時間的研究調查,觀察某些因素在長時間的影響。Wiki
(2). 回溯性研究:在已有資料中,尋找過去以前的相關因素及其結果,時間跟成本上較為節省。參考來源:教育百科
3. 以VIP用戶流失為例
(1) 前瞻性研究,VIP與非VIP各調查一百人
a. 相對風險(RR):某類別的事件發生比例相除,所以VIP用戶流失的比率10%除以30%為33.3%,可以代表VIP用戶的流失風險只有非VIP的三成左右,相對較低。
b. 勝算比(OR):要解釋勝算比odds ratio(OR) ,要先知道odds的定義,odds是事件發生的比率/事件不發生的比率,也就是「勝算」,我贏你的機率除上輸的機率。
以VIP用戶為例,流失的機率為10%,未流失的機率為90%,所以VIP用戶流失的勝算odds,就是10%/90%=1/9,約為11%;由於分母都相同,可直接簡化成分子相除。
最後,VIP流失的odds除上一般用戶,就是25.9%,代表風險較低,但不直接代表風險的倍數,如VIP用戶的風險是一般用戶的25.9%,這是錯誤的解讀,並不如RR較為直觀的倍數關係。
(2) 回溯性研究
相對於前瞻性研究,一開始並不知道不同用戶最終的流失情形,回溯性結果已經產生,可以調整事件的比例,如將流失用戶多加入一倍,看看會有甚麼變化:
a. 相對風險(RR):
可以看到流失用戶多一倍後,流失率上升了,RR也從原本的33.3%上升到39.4%。
b. 勝算比(OR):
來看看勝算比,雖然勝算皆變為兩倍,但勝算比相除後就抵銷了,一樣是25.9%,所以RR不適用於回溯性研究,就是因為研究是從事件中去挑選資料(未/流失用戶),事件的機率是由研究者決定,可能就會發生偏差。
(3)如果將某個類別改變分布呢?
當時看完文章,就想到,如果將VIP用戶多一倍呢? 先講結論,RR與OR都不會變,因為這就等同在一開始實驗設計時,將某個族群的人多調查一些,並不會影響到該族群的風險或特性。