-
Notifications
You must be signed in to change notification settings - Fork 20
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
train reward shping model #1138
Conversation
ToDo
|
実験に必要な実装は一通り終わったので, 実験を始めていきます. |
いい感じですね。席によって違うかも確認したいですね。ラス親とそうでない人の違いとか。 |
-135超えちゃってるのが少し気になるな。。。🤔 |
そうですよね.... プロット時のデータの渡し方が悪いかもしれないので少し考えてみます! |
とりあえず, 8局分学習を回してみようと思います! |
あれ、なんで1000epochもやるんでしたっけ。。。 |
ブートストラップでの8局全体の流れとりあえずやってもらえると🙏 |
傾向として, 少ないepochだとシャープな曲線にならなかったので, 実験的にか学習させてみた感じでした! 8局分の学習はエポック少なめでとりあえずやってみます! |
いいですね!可視化のやつ。同じfigに重ねてもらえると比較しやすいかも? |
これ対象のプレイヤー以外は全部同じ点数にしてるので2万5千点を少しでも超えるとトップになります. 少しずらすとまた結果変わると思います! 5000ずつくらいずらしてみようかと思います. |
点数ずらしてみるのもいいと思いますけど、 |
すみません実装間違っているかもしれません🙇♂️, 開始時のデータを予測に使うべきところを終了時のデータを使って学習していました. 現状では としています. |
確認ありがとうございます!いいですね!楽しみにしてます!!😆 |
とんでもないです. こちらが正しいという認識であっていますかね. その場合, 東1局については, 親の場所と風から予測する感じになるってことですかね. |
そうですね。 |
でも東一局も連荘したりして点数違う場面もあると思いますけどね。 |
Model6のコメントなんか違う気しますけど 南3局開始時から南4局開始時のモデル7の予測、を予測する感じになりますね。 |
|
了解です! |
変更点
|
明日の夜に実装して実験してしまいます! |
いいですね!😆👍 |
[-135, 90]からはみ出している値は報酬関数として組み込むときはclipすればいいですかね. |
ありがとうございます!いい感じですね😆 ただやっぱりはみ出てるのが気になりますけどね。。。 https://stats.stackexchange.com/questions/11985/how-to-model-bounded-target-variable |
絶対値が大きいところで誤差が大きいのはあんまり良くないと思うんですよね。学習がそこに大きく影響受けてるはずなので。。。 |
|
各局開始時の特徴量 誤差は独立と仮定して良さそうです.各局で次の局のモデルの予測を予測することは実際にはその局から最終スコアを予測しているということが正当化できている気がします. 仮にNN$g$を用意して, 単に1半荘に一局サンプリングして局ごとに最終スコアを予測するというアルゴリズムに比べて確かにデータ八倍になりますね! 式にして考えていなかったので, 今まで完璧に理解していませんでしたが, すごくいい手法だと思いました! 麻雀みたいにリワードがスパースなゲームの報酬設計に普遍的に使えそうだと思いました. |
スーパーフェニックス方式ではNNを一つしか使っていないので, 各局についてこちらの方が分散が小さいということができそうだと思いました.NN8個使うので単純な比較はできないかもしれませんが.. |
一回上のリンクにある手法試してみてvalid誤差比較してみてもいいかもですね。 |
|
|
ToDo
|
@sotetsuk |
了解です!セルフマージしちゃって下さい🙏@nissymori |
#1127