AI競馬くん 仕様

項目 説明
0 AIの種類 機械学習(教師あり学習)
1 AIの手法 勾配ブースティング木(LightGBM)
2 開発環境 Google Colaboratory
3 使用言語 Python
4 使用ライブラリ Pandas, Beautiful Soup等
5 使用ライブラリ(AI) scikit-learn(LightGBM), Optina(ハイパーパラメータ最適化)
6 情報元 https://db.netkeiba.com/
7 情報内容 •2022, 2023, 2024年の中央競馬結果
•馬のデータより過去成績や血統
•新馬や障害・ダートを除く。
オープン以上のみ
8 情報量 計 約2,600レース、のべ約16,000頭分
9 説明変数(AIに使用する特徴量) 現在以下の24項目
( 馬名, 斤量 , 騎手, 調教師, 年齢, 性別, 枠番, Grade(GIなど),
芝・ダート, 競馬場, 距離, 右回りか左か, 天候, 馬場状態,
過去5戦の着順平均, 過去5戦の1位からの着差平均, 過去5戦の上り平均、
前走からのローテーション, 血統として父の馬名, 母, 父の父, 父の母, 母の父, 母の母)
10 説明変数として除外しているもの 以下はAIに情報として与えていません。
(1)人気、単勝倍率
客観的なデータ分析のためには不要と判断。
(2)馬体重と増減
11 目的変数(教師データ) 着順
12 何をあてるのか? 複勝(3位以内に入るか)の確率
13 的中率 AUCスコアでは0.727。実際は別ページの結果を参照
14 Web構築環境 AWS (Route53, CloudFront, EC2, S3, Cloud9)
15 Version変更履歴 v1.1: (1)過去5戦の平均とする。
(2)過去レースのGradeが正しくひろえないバグを修正。
(3)2024年のレースデータを最新まで取り込み、2021年も取り込む。
(4)レース距離は数字ではなく、カテゴリ変数としてAIに学習させる。
(5)上り平均も特徴量に
過去の結果へのリンク
トップページに戻る