2024‐07‐31 Firecrawlによるクローリング

"Crawl sub-pages" を有効にしたので、かなりのページを辿ってくれることを期待したが、１ページしか取得できなかった。
もしかしてプランの問題かとも思ったが、フリープランでも500ページまではクローリングしてくれるはずなので別の理由と思われる。
- https://www.firecrawl.dev/pricing
おそらくは、該当するページが厳密な「サブページ」ではないから？
- crawlerOptions.allowBackwardCrawling というオプションを設定すれば、ページ内リンクを問答無用で辿ってくれそうだが、Difyから実行する場合はそれを指定する方法が無さそう。
- 今回はとりあえずDify経由で実行したい（Dify 側に実装済みのFirecrawlの連携機能をそのまま利用したいため）
ターゲットのURLをhttps://www.hokeniryo.metro.tokyo.lg.jp/kenkou/nanbyo/portal/seido/index.htmlではなく、https://www.hokeniryo.metro.tokyo.lg.jp/kenkou/nanbyo/portal/seido/のようにすれば良いかもしれないと思い、実行してみる。
今度はうまくいったらしい。

ただ、取得された対象はHTMLだけであり、PDFなどのHTML以外のファイルは取れていないらしい。これはFirecrawlの仕様？
- 少なくともscrape（単一URLからの情報取得）であれば実行できるように見える。crawl（サブページも含む自動取得）だと自動的には行えないのかも？
  - https://docs.firecrawl.dev/advanced-scraping-guide
現時点でOpenAIの埋め込みモデルが使えないため、一旦デフォルトの埋め込みモデルでインデックス作成を行った。
- http://aidrd.japaneast.cloudapp.azure.com/datasets/db9373fd-7137-41b4-975b-d849b0350d54/documents
追加の実験として、Dify自体はxlsxもインポートできるとのことだったので、Firecrawl越しでも同様にインポートできるか試してみた。
- 実験したURL: https://www.hokeniryo.metro.tokyo.lg.jp/kenkou/nanbyo/portal/seido/tourokusyasyou.files/tourokusinki.xlsx
- が、どうやらだめらしい（読み込んだ結果が文字化けの嵐）。これなら素直にアップロードした方が良さそう。自動でやりたい場合は、APIか何かでアップロードできるか？（要調査）
参考までに、Dify自体の機能でExcelファイルを読み込んだ結果は以下のようなもの。チャンクの取得の仕方などには課題がありそう

Provide feedback