評価結果_2024 08 19

Jump to bottom

matsusho070 edited this page Aug 21, 2024 · 11 revisions

評価実行例： evaluation_results_2024-08-19_10-52-31.csv

１回目（ほぼデフォルト設定）

実験設定

Index methodをHigh qualityにする以外は、Difyのデフォルト設定のまま評価を行った。
ナレッジのデータは、Firecrawlで自動収集した32ドキュメント＋手動でアップロードしたPDF５つ＋Excelデータ１つ
該当のボット：http://aidrd.japaneast.cloudapp.azure.com/app/0972d5ca-505a-46fa-9b1f-1a9d218cd96d/configuration

実験結果

結果の表：evaluation_results_all_default.csv

source_urls_f1_score = 0.44 かつ Average Answer Similarity Score = 2.54ということで、数値的には正解率半分程度
source_urls_f1_scoreが0（該当する情報ソースが取得できていない）場合は、当然ながらスコアが低くなっている。また、ファイル単位では参照先が正しい場合でも、例えば「難病と指定された場合に，助成対象とはならない介護の内容は？」という質問に対して、「助成対象となる介護の内容」のチャンクを取得してしまい、「助成対象とならない費用」のチャンクを参照できていないなどの問題がある

２回目（chunk_size=200）

実験設定

１回目とほぼ同様の設定だが、チャンク方法をAutoからCustomに変更し、チャンクサイズとして200文字を指定した。
- なおAutoの場合は、文章の区切り位置次第でチャンクサイズが変動し、最小40文字、最大で1000文字超になっていた（平均すると500文字程度）

実験結果

結果の表：evaluation_results_chunk_200.csv

source_urls_f1_score = 0.25 かつ Average Answer Similarity Score = 1.69 ということで、１回目よりかなり悪化している。
チャンクサイズ以上に、Segment Identifierとして改行文字（\n）を採用してしまったことで、各チャンクが意味が成り立たないレベルまで細分化されてしまった影響が大きそうに見える。

３回目

実験設定

１回目の設定と同じナレッジを使用するが、Rerankモデルを有効化し、RetrievalをN to 1（事前にどのナレッジを使用するかをLLMが決めてからチャンクを検索）ではなくMultipath Retrieval（すべてのナレッジを横断的に検索した後、Rerankでより関連性が強いものを選出）に変更した。

実験結果

結果の表：evaluation_results_with_rerank.csv

source_score が 0.49, answer_similarity が 3.54 と、１回目よりは良くなっている。
N to 1 だったときはナレッジの説明を見てLLMが選択していたが、ここの情報量が足りていなかったためMultipath Retrievalの方が性能が出たものと思われる。
- 実際、今回のような用途の場合に各ナレッジに説明をつけていくのは現実的ではないため、基本的にはMultipathの方が妥当？（ただ、説明自体を事前にLLMで付加するアプローチも可能かもしれない）

４回目

実験設定

個別にアップロードした資料ではなく、クローリングスクリプトで完全に自動的に収集したナレッジを使用した評価を行った（ドキュメント数=414）。
チャンク分割などの設定は１回目と同じ。

実験結果

結果の表：evaluation_results_whth_automatically_crawled_knowledge.csv

source_score が 0.3, answer_similarity が 2.46と、source_scoreが１回目より悪い。answer_similarityは微妙に減少している
単純に対象とするドキュメントの数が増えたので、どれを参照すべきかの精度が下がっている。
- 数値的には下がったが、例えば「消化器疾患の難病と診断されましたが...」の質問に対しては、令和５年の資料ではなくより新しい令和６年の資料を参照して日程を回答しているなど、良い部分もある。

全体で共通の課題

「指定難病ではなく，東京都が独自に指定する助成対象の疾患を教えてください」に対しては、８疾病あるということは回答できるがその具体的な内訳を回答できていない。
「指定難病の認定を受けている場合，助成を受けられる訪問看護サービスはどこですか？」に関しては、資料を参照することができず、具体的な一覧を返すことができない（指定薬局板の質問も同様）
「難病と指定された場合に，助成対象とはならない介護の内容は？」に対して、逆に「助成対象となる介護」のチャンクしか参照できておらず、具体的な回答ができない。