評估指標 – ROC 曲線及曲線下的面積 AUC

ROC 曲線是以視覺化方式呈現模型分析力成效。 而AUC代表在ROC曲線下的面積,能表示分類器預測能力的一項常用的統計值。ROC曲線越靠近左上方越好,因此,ROC曲線下的面積越大越好,代表模型的效益越高。當AUC = 0.5時,代表模型無預測價值,分析能力與隨機猜測沒有分別。當AUC 越大時,代表模型越有預測能力。

實驗結果

我們利用2023年馬季或之前資料訓練完成的模型預測2024年馬季由9月8日至12月11日之賽事結果,得出以下ROC曲線:

如果將沙田 (SHATIN) 及跑馬地 (HAPPY VALLEY) 馬場數據分別計算,會得出以下ROC曲線,可以見到模型預測沙田馬場賽事能力會比跑馬地賽事為高:

如果再將三班或以上賽事與四班或以下數據分別計算,會得出以下ROC曲線,可以見到模型預測高班馬能力比較高:

結論

從以上實驗結果可以證實我們的人工智能模型對沙田馬場賽事和高班馬預測能力比較高。其實我們嘗試用更長時間數據回測,亦得出類似結果,所以可以排除純粹偶然性而影響分析結果。我們嘗試用資料科學去解釋原因,可能因為沙田馬場賽事本身比較多,所以比賽多沙田賽事資料訓練模型而預測能力亦會較強。我們亦有向比賽懂得香港賽馬朋友查詢,他們覺得跑馬地馬場比賽窄及彎度比較急,增加了不確定性,而高班馬表現一般比低班馬穩定,這些都可能解釋到我們的實驗結果。