Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Train reward-shaping model with large data #1134

Merged
merged 12 commits into from
Sep 16, 2022

Conversation

nissymori
Copy link
Collaborator

@nissymori nissymori commented Sep 1, 2022

@sotetsuk sotetsuk changed the title train with large data Train reward-shaping model with large data Sep 3, 2022
@nissymori
Copy link
Collaborator Author

nissymori commented Sep 4, 2022

データ数: 17369
learning rate: 0.001
epoch数: 50
batch size 16
で学習させて, 局数と自分の点数を変化させてプロットしてみました. 局ごとの変化がないのが気になるので, 調査しようと思います.

スクリーンショット 2022-09-04 19 46 10

@nissymori
Copy link
Collaborator Author

データ数, learning rateは同じで, epoch数を200, batch sizeを32にすると割と局ごとの差も出て良い感じな気がします.

スクリーンショット 2022-09-04 20 04 03

@sotetsuk
Copy link
Collaborator

sotetsuk commented Sep 4, 2022

局もonehotを加えるか置き換えるかしてみてもいいかも?

@sotetsuk
Copy link
Collaborator

sotetsuk commented Sep 4, 2022

あとは学習曲線がどんな感じかにもよる気がします

@nissymori
Copy link
Collaborator Author

了解です!

@sotetsuk
Copy link
Collaborator

sotetsuk commented Sep 4, 2022

あとたぶんデータ全然足りない気がしますね

@sotetsuk
Copy link
Collaborator

sotetsuk commented Sep 4, 2022

Epoch数50はもう結果を覚えてるのでは?バリデーションセット用意しました?

@nissymori
Copy link
Collaborator Author

nissymori commented Sep 4, 2022

Epoch数50はもう結果を覚えてるのでは?バリデーションセット用意しました?

とりあえずlossが下がるかを確認するためだったので, 用意していませんでした.
データ増やしてvalidation setも用意してやってみようと思います!

@nissymori
Copy link
Collaborator Author

nissymori commented Sep 4, 2022

ToDo

  • plot learning curve
  • increase data
  • validation

@nissymori
Copy link
Collaborator Author

validation dataを追加して訓練してみました.
learning rate 0.002, epoch 30, バッチサイズ 64です.

データ数はまだ32000ほどです.

スクリーンショット 2022-09-08 15 11 01
スクリーンショット 2022-09-08 15 13 30

@nissymori
Copy link
Collaborator Author

nissymori commented Sep 8, 2022

  • Readme書く.
  • データ数を増やす.
  • 点でプロット
  • 南3 or 南4専用と比べる.

@nissymori
Copy link
Collaborator Author

nissymori commented Sep 9, 2022

南四局と途中で終わっている場合は最終局のみのデータを使って学習させた結果と学習曲線です.
epoch数は10です.

局をランダムに選んだ場合とあまり違いがない様に思います.
何四局なのでもっと単関数みたいにならないとおかしい気がします. バグがないか調べてみます.

一旦10万くらいまでデータを増やしてみます.

スクリーンショット 2022-09-09 11 45 48
スクリーンショット 2022-09-09 11 45 33

@nissymori
Copy link
Collaborator Author

試しに1000epochくらい学習させてみました.
直感に近づいている気がします. val lossは悪化していますが.

とりあえずデータ増やしてみます.

スクリーンショット 2022-09-09 12 01 34

スクリーンショット 2022-09-09 12 01 24

@nissymori
Copy link
Collaborator Author

nissymori commented Sep 15, 2022

変更点

  • 特徴量として残りの親の数を追加する.
  • 風の情報を
  • 出力は4次元[起家, ..ラス親]
  • NNは8個用意するmodel_0, ...model_7

procedure

  • 南4のデータから順位点をmodel_7に予測させる
  • 南3のデータのmodel_7の予測結果をmodel_6に予測させる.
  • 以下繰り返す.

ToDo

  • 特徴量実装
  • 特徴量テスト
  • 訓練関数実装
  • 訓練関数テスト
  • plot関数実装
  • plot関数テスト
  • コマンドライン整備
  • 実験

@nissymori
Copy link
Collaborator Author

特徴量再考

出力を四次元にするのでそれに伴って特徴量設計を変えた方が良い.

  • 4人分の点 [起家, ..ラス親]の順で与える.(今まではtargetを起点にしていた)
  • 本場: 変更なし
  • 詰み棒: 変更なし
  • 局: 変更なし
  • 風: one-hotで四人分? 起家の風だけone-hotでもいい気がする.
  • 親: one-hot
  • 残りの親の数: 起家から順番に

@nissymori
Copy link
Collaborator Author

nissymori commented Sep 16, 2022

@sotetsuk
長くなってきたので, 一旦このPRマージしてしまってもよろしいでしょうか.

@sotetsuk
Copy link
Collaborator

sotetsuk commented Sep 16, 2022

Typo suphx(suphnxがある)

マージしちゃって下さい!@nissymori

@nissymori
Copy link
Collaborator Author

Typo suphx(suphnxがある)

マージしちゃって下さい!@nissymori

ありがとうございます!

typo直してmergeします!

@nissymori nissymori merged commit 1a120f7 into master Sep 16, 2022
@nissymori nissymori deleted the nissymori/run/train_model_with_large_data branch September 16, 2022 10:26
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants