第五天/100 關於流失模型churn model的一些想法
Part A:About Model
模型的好壞跟工作的KPI有點像,例如,業績高低是能力區別,而每個月KPI有沒有達標,是工作的穩定性,並以此衡量薪水。
同樣在評價模型時,也會評量準確性,預測的準不準,對比到一個人能拉到多少業績,而Lift值是常見的指標之一,代表準確性高於水平的幾倍,是否能在少量的可能名單中,找出大量流失的用戶,例如:
A評估有100%~80%機率流失(Churn Rate流失機率)的用戶,找到實際上7成流失的用戶,而B如果你必須要100~80%,只能找到4成的實際流失的用戶,Lift值就會相對更高,代表在100~80%流失機率的部分,A模型表現得更好。
那能不能在預測100%會流失的用戶就是實際全部流失的用戶呢?當然可以,但這通常代表模型已經太準了!過度適配(Overfit)了,泛化(generalize)能力可能會很差,下個月可能就會很不準,過於針對目前的狀況,而無法推演到其他月份。
就好像完全學習一棵樹的樣貌,多一片少一片葉子、樹根都不行,那幾乎無法判斷其他樹木。
除了準確性也會評量模型的穩定度,在這個月跟下個月跟下下個月是否維持差不多的水平,如果不夠穩定除了在解釋上會遇到困難,也代表模型泛化能力的不足,某些變數(抑或噪音)可能在月份中的變動劇烈,導致模型浮動。
Part B:Application
剛好在Dosudo的讀書會有討論模型評價的部分,針對幾個點紀錄一下,
為何一般練習,會將p>0.5設為門檻值?
應該是因為一般習題並沒有商業上的目標,所以就會將超過一半機率就判定為流失。而在商業上,必須考量成本及營收,所以會有些控管,
(1)名單的限制:
每次促銷都有成本,相對慰留每一位用戶也會有其成本,所以可能每月就針對前1000名流失風險用戶慰留,更精細的做法可能是利用期望值,就是流失機率%*慰留的收益-每次慰留的成本,就會得到一個收益圖(Gain Chart),可以選擇收益幅度較大的部分,觀察邊際效益的漲跌,端看商業上的取捨。
(2)用戶慰留的Model:
針對最可能流失的用戶,可能也是體驗很差,心已死~~~~ 怎麼慰留都沒有用,像這種例子可能就在商業上沒有價值,或許能在流失模型上再疊一個續約模型,找出續約的預測機率,並縱橫考慮成本營收,還有做A/B test確認其效果,但是我還沒做過這部分,還需要資料驗證或參考其他案例。
由於小弟尚在學習中,如有錯誤歡迎指出,感謝!