-
Notifications
You must be signed in to change notification settings - Fork 5
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Merge pull request #6 from pfnet-research/v0.2.0
v0.2.0
- Loading branch information
Showing
2,838 changed files
with
623,464 additions
and
9,479 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
|
@@ -168,3 +168,6 @@ run.sh | |
results2 | ||
results3 | ||
run | ||
run2 | ||
.venv* | ||
cache |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,27 @@ | ||
# Major Update History and Explanation | ||
If you have any concern about the update, you can argue in the issue! More discussion is welcome! | ||
|
||
重大なアップデートに関して、疑念がある場合は、Issueで議論を投稿できます。日本語でも大丈夫です。 | ||
|
||
## v0.2.0 | ||
In this update, we made the following major changes that affect the evaluation results: | ||
- Only 0-shot results are employed for the leaderboard. | ||
- We reject the different prompt selections for each task. Now, the same prompt version is enforced for all tasks. | ||
|
||
このアップデートでは、以下の重要な変更を行いました。これらの変更は評価結果に影響を与えます。 | ||
- リーダーボードには0-shotの結果のみを使用します。 | ||
- 各タスクごとに異なるプロンプトを利用することを禁じます。今後は、すべてのタスクに同じプロンプトバージョンを使用する組のみが許可されます。 | ||
|
||
### Why ? | ||
|
||
#### Only 0-shot results are employed for the leaderboard / リーダーボードには0-shotの結果のみを使用します | ||
|
||
Recently, many leaderboards have employed 0-shot results for evaluation. We also follow this trend. On the other hand, for some private evaluation of models that support longer prompts, n-shots (n >> 5) evaluation is still used. However, checking the results of huge patterns of n-shots is not practical because it requires a lot of computational resources. Moreover, testing many n-shot results could be p-hacking (It means that there is a good chance of finding extremely high results accidentally). Therefore, we decided to use only 0-shot results for the leaderboard. | ||
|
||
最近、多くのリーダーボードが評価に0-shotの結果を使用しているため、この傾向に従うことにしました。一方、より長いプロンプトをサポートするモデルのプライベート評価では、n-shot(n >> 5)の評価がまだ使用されています。ただし、n-shotの多くのパターンの結果を確認することは計算リソースの観点から現実的ではありません。また、多くのn-shotの結果をテストすることはp値hackingになる可能性があります(これは、偶然に非常に高い結果を見つける可能性が高いことを意味します)。そのため、リーダーボードには0-shotの結果のみを使用することにしました。 | ||
|
||
#### We reject the different prompt selection for each task / 各タスクごとに異なるプロンプトを利用することを禁じます | ||
|
||
In the previous version, we allowed different prompt selections for each task. However, this setting is not fair because the prompt selection should not be optimized for each task, and it should be unique to the model. Moreover, testing huge patterns of prompt sets for tasks is not practical because it requires a lot of computational resources. In addition, testing many prompt sets could be p-hacking. Therefore, we decided to enforce the same prompt version for all tasks. However, in some tasks, some prompt versions are missing (e.g., chase-1.0-0.1.2). In those cases, the most similar prompt version is enforced (e.g., chabsa-1.0-0.1 is used instead of chabsa-1.0-0.1.2). | ||
|
||
以前のバージョンでは、各タスクごとに異なるプロンプトの選択を許可していました。しかし、プロンプトの選択は各タスクごとに最適化されるべきではなく、モデルに固有であるべきです。また、タスクのためのプロンプトセットの多くのパターンをテストすることは計算リソースの観点から現実的ではありません。さらに、多くのプロンプトセットをテストすることはp値hackingになる可能性があります。そのため、すべてのタスクに同じプロンプトバージョンを強制することにしました。ただし、一部のタスクでは、一部のプロンプトバージョンが欠落している場合があります(例:chabsa-1.0-0.1.2など)。そのような場合は、最も類似したプロンプトバージョンが強制されます(例:chabsa-1.0-0.1.2の代わりにchabsa-1.0-0.1が使用されます)。 |
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Oops, something went wrong.