競馬くん

	項目	Machine Learning版v1.3	Deep Learning版v2.2
0	AIの種類	機械学習（教師あり学習）	Deep learning(教師あり学習、3分類)
1	AIの手法	勾配ブースティング木(LightGBM)	ニューラルネットワーク（現在5層)
2	開発環境	Google Collaboratory	左に同じ
3	使用言語	Python	左に同じ
4	使用ライブラリ	Pandas, Beautiful Soup等	左に同じ
5	使用ライブラリ(AI)	scikit-learn(LightGBM), Optina(ハイパーパラメータ最適化)	PyTorch Lightning
6	情報元	https://db.netkeiba.com/	左に同じ
7	情報内容	•2018-2024年の中央競馬結果\n•馬のデータより過去成績や血統\n•新馬や障害を除く。3勝以上のみ	まだ2019-2024しかとれていない
8	情報量	計約6000レース、のべ約16,000頭分	NaN
9	説明変数（AIに使用する特徴量)	現在以下の26項目\n( 馬名, 斤量 , 騎手, 調教師, 年齢, 性別, 枠番, Grade(GIなど), 芝・ダート, 競馬場, 距離, 右回りか左か, 天候, 馬場状態, 過去5戦の着順平均, 過去5戦の1位からの着差平均, 過去5戦の上り平均、前走からのローテーション, 血統として父の馬名, 母, 父の父, 父の母, 母の父, 母の母。脚質、連対率)	1) 以下を追加\n前走着順, 全1着, 同競馬場1着, 同距離1着, 同一騎手1着, 同一馬場状態1着, 全連対率, 同競馬場連対率, 同距離連対率, 同一騎手連対率, 同一馬場状態連対率, 過去5レースの賞金を出走馬で標準化\n2)以下を削除\n父の母、母の父、母の母
10	説明変数として除外しているもの	以下はAIに情報として与えていません。\n(1)人気、単勝倍率\n客観的なデータ分析のためには不要と判断。\n(2)馬体重と増減	左に同じ
11	目的変数（教師データ）	着順	着順
12	何をあてるのか？	複勝（3位以内に入るか）の確率。1着の確率	1着の確率、複勝の確率(1位、3位以内、着外の3分類）
13	的中率	AUCスコアでは0.716。	AUCスコアで、0.7程度
14	Web構築環境	AWS (Route53, CloudFront, EC2, S3, Cloud9)	左に同じ
15	Version変更履歴	v1.1: (1)過去5戦の平均とする。\n (2)過去レースのGradeが正しくひろえないバグを修正。\n (3)2024年のレースデータを最新まで取り込み、2021年も取り込む。\nV1.2 (1) ダートも取り込み。2020年まで取り込み\n　　　(2) 脚質を計算、連対率を計算、着順は馬数で割り標準化\nV1.2a (1)ダートと芝を分離して予想	NaN
16	単勝的中率(9/16現在)	0.226	NaN
17	単勝回収率(9/16現在)	0.887	NaN
18	複勝的中率(9/16現在)	0.387	NaN
19	複勝回収率(9/16現在)	0.77	NaN

過去の結果へのリンク
トップページに戻る