我們幾個朋友本身是從事工智能 (Artificial Intelligence) 及大數據 (Big Data) 方面的工作,為學習同時亦為興趣,我們經常找不同應用項目進行模型開發及研究。而預測香港賽馬結果是我們其中一個用了很多時間和功夫的研究項目。

已完成的工作
文獻探討
我們搜集和分析了全世界於利用人工智能、機器學習(Machine Learning)、深度學習(Deep Learning)進行賽馬預測的學術論文,歸納已知及公開的學術成果以作我們的研究基礎及方向。從這些已發表的學術研究,我們收集到其他類似研究一般會利用的過往數據類別、資料前處理(Data Preprocessing)方法、預測模型選擇、模型表現等資料。這些有用資訊大幅加快我們的研究及令我們有了比較清晰研究方向。

數據準備
要訓練一個預測模型,數據扮演著至關重要的角色。我們收集了過去十多年的有關資料,包括歷史賽事結果、賠率、馬匹資料、騎師練馬師資料、天氣場地等等。我們整合及處理原始數據,並利用特徵工程 (Feature Engineering) 技術進行一系列特徵提取及發現工作令系統更加容易從過去資料進行學習。
模型開發
雖然從學術文獻已經掌握不少關於模型選擇的資訊,不過因為那些研究背景、資料與香港賽馬及我們訓練模型的資料始於有不少出入,所以我們仍然開發不同模型作評估及選擇。我們由比較傳統的機器學習分類 (Machine Learning Classification) 、機器學習迴歸 (Machine Learning Regression) 、人工神經網路 (Artificial Neural Network) 到深度學習 (Deep Learning) 均有研究及評估,當中過程及結果都相當有趣。我們發現不同模型都有基本的預測能力,不過模型間的不同表現、穩定性、回測 (Backtesting)時投注回報率、對某個別輸入資料的重視度都有不同。我們發現沒有某一個模型會絕對完勝,反而應該視乎實際用途再作選擇。
模型優化 (Model Tuning)
為提高模型的準確性、降低運算成本並增強模型的穩定性,我們為模型進行了優化工作。使用了一些常用的調整超參數、應用正則化技術、採用適當的微調策略等,再將模型的表現及可用度提升。
回測 (Backtesting) 實驗
除了運用一般資料科學 (Data science) 會用到的方法去評估模型的表現,例如最直接的準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 Score、曲線下的面積(AUC)等等,我們覺得利用投注回報率去評估一個賽馬結果預測模型會更加有意義。我們於回測時加入不同投注項目的回報率作重要指標去選擇及優化模型。
結果可視化
模型之預測結果是一個數據資料表,一般不易被人類理解,於是我們將結果以圖表方法呈現及製作了此網站分享數據。
為什麼我們免費分享研究數據?
我們本身有人工智能專家、有資料科學家、有系統開發人員,我們對人工智能研究十分著迷,但我們不熱衷投注博彩,更加不是博彩或賽馬專家。但根據我們的回測結果,以香港賽馬會派彩計算,我們的模型投注會有正回報,表示這模型的分析能力已經超越一般大眾馬迷。

既然我們已經用了不少時間研究,亦不需要再投入太多資源繼續運作,我們亦不打算出售研究結果,不如將研究結果同大家分享,我應該可以作為大家一個投注時客觀選馬參考。而且我們相信一定會有投注專家識得利用專業投注策略去最大化回報率,同時亦希望拋磚引玉,看看會否有其他同好專家會一齊交流。
另外我們的本業是人工智能、機械學習、股票投資程式系統開發,如果你有這方面需要協助亦可以與我們聯絡。
聯絡我們
如果你對我們的研究有什麼意見或想同我們交流下,都歡迎聯絡我們:
電郵地址: info@horseracinghk.com
你也可以用以下表格聯絡我們: