-
Notifications
You must be signed in to change notification settings - Fork 0
評価結果_2024 08 19
matsusho070 edited this page Aug 21, 2024
·
11 revisions
評価実行例: evaluation_results_2024-08-19_10-52-31.csv
- Index methodをHigh qualityにする以外は、Difyのデフォルト設定のまま評価を行った。
- ナレッジのデータは、Firecrawlで自動収集した32ドキュメント+手動でアップロードしたPDF5つ+Excelデータ1つ
- 該当のボット:http://aidrd.japaneast.cloudapp.azure.com/app/0972d5ca-505a-46fa-9b1f-1a9d218cd96d/configuration
結果の表:evaluation_results_all_default.csv
- source_urls_f1_score = 0.44 かつ Average Answer Similarity Score = 2.54ということで、数値的には正解率半分程度
- source_urls_f1_scoreが0(該当する情報ソースが取得できていない)場合は、当然ながらスコアが低くなっている。 また、ファイル単位では参照先が正しい場合でも、例えば「難病と指定された場合に,助成対象とはならない介護の内容は?」という質問に対して、「助成対象となる介護の内容」のチャンクを取得してしまい、「助成対象とならない費用」のチャンクを参照できていないなどの問題がある
- 1回目とほぼ同様の設定だが、チャンク方法をAutoからCustomに変更し、チャンクサイズとして200文字を指定した。
- なおAutoの場合は、文章の区切り位置次第でチャンクサイズが変動し、最小40文字、最大で1000文字超になっていた(平均すると500文字程度)
結果の表:evaluation_results_chunk_200.csv
- source_urls_f1_score = 0.25 かつ Average Answer Similarity Score = 1.69 ということで、1回目よりかなり悪化している。
- チャンクサイズ以上に、Segment Identifierとして改行文字(\n)を採用してしまったことで、各チャンクが意味が成り立たないレベルまで細分化されてしまった影響が大きそうに見える。
- 1回目の設定と同じナレッジを使用するが、Rerankモデルを有効化し、RetrievalをN to 1(事前にどのナレッジを使用するかをLLMが決めてからチャンクを検索)ではなくMultipath Retrieval(すべてのナレッジを横断的に検索した後、Rerankでより関連性が強いものを選出)に変更した。
結果の表:evaluation_results_with_rerank.csv
- source_score が 0.49, answer_similarity が 3.54 と、1回目よりは良くなっている。
- N to 1 だったときはナレッジの説明を見てLLMが選択していたが、ここの情報量が足りていなかったためMultipath Retrievalの方が性能が出たものと思われる。
- 実際、今回のような用途の場合に各ナレッジに説明をつけていくのは現実的ではないため、基本的にはMultipathの方が妥当?(ただ、説明自体を事前にLLMで付加するアプローチも可能かもしれない)
- 個別にアップロードした資料ではなく、クローリングスクリプトで完全に自動的に収集したナレッジを使用した評価を行った(ドキュメント数=414)。
- チャンク分割などの設定は1回目と同じ。
結果の表:evaluation_results_whth_automatically_crawled_knowledge.csv
- source_score が 0.3, answer_similarity が 2.46と、source_scoreが1回目より悪い。answer_similarityは微妙に減少している
- 単純に対象とするドキュメントの数が増えたので、どれを参照すべきかの精度が下がっている。
- 数値的には下がったが、例えば「消化器疾患の難病と診断されましたが...」の質問に対しては、令和5年の資料ではなくより新しい令和6年の資料を参照して日程を回答しているなど、良い部分もある。
- 「指定難病ではなく,東京都が独自に指定する助成対象の疾患を教えてください」に対しては、8疾病あるということは回答できるがその具体的な内訳を回答できていない。
- 「指定難病の認定を受けている場合,助成を受けられる訪問看護サービスはどこですか?」に関しては、資料を参照することができず、具体的な一覧を返すことができない(指定薬局板の質問も同様)
- 「難病と指定された場合に,助成対象とはならない介護の内容は?」に対して、逆に「助成対象となる介護」のチャンクしか参照できておらず、具体的な回答ができない。