或許很多網友見到我們做研究時經常都會利用AUC可以分析模型表現,所以有不少人都會向我們查詢怎樣去利用AUC做分析,同時亦發現有不少網友對AUC有誤解。

甚麼是AUC?

ROC 曲線是以視覺化方式呈現模型分析力成效。 而AUC代表在ROC曲線下的面積,能表示分類器預測能力的一項常用的統計值。ROC曲線越靠近左上方越好,因此,ROC曲線下的面積越大越好,代表模型的效益越高。當AUC = 0.5時,代表模型無預測價值,分析能力與隨機猜測沒有分別。當AUC 越大時,代表模型越有預測能力。

高AUC並不一定代表是一個有用的模型

一般情況來說,在資料科學領域, AUC確實是一個十分客觀和準確去評估Machine Learning預測模型的指標,而且AUC一般亦會與模型的預測準確度有直接關係。但開發賽馬預測模型時,準確度本身也不是最重要的考慮因素,因為開發模型的終極目標是投注回報率,而投注回報率井並不一定等同預測準確度,所以畢竟盲目追求高AUC。

我用以下例子再作說明,我們利用2025年2月前資料訓練完成的模型預測2025年2月至4月23日之賽事結果,會得出以下ROC曲線:

AUC高於0.7,當然以一般科學或醫學應用不算10分理想,但以賽馬預測來說,這個預測模型已經有不錯的預測能力,有不少和我們交流的網友,他們都說AUC達到0.7已經比他們的好。但其實就一個模型又是否真的十分準確呢?

以下這個模型這個模型純粹只參考獨贏賠率,即是我們所講的大眾智慧,它可以做到更高的AUC,即是比我們的模型更加準確。但大家都知道長期投注大熱門雖然勝率十分之高,但最後的回報率都會是負數的,簡單來說即是會輸錢,這個模型有用嗎?

的而且確如果根據我們以模擬投注作回測的結果,有一些幫客戶開發的模型雖然AUC及勝率比我們公開的模型低,但長期回報率反而會比AUC高的模型好,這個例子說明開發預測模型,並不能夠只追求AUC或準確度,使用AUC作為研究工具時要小心應用,切勿不可以有盲目追求高AUC的迷思。