-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Huginn指南:为任意网站制作RSS :: Colinx Blog — Colin的个人博客 #42
Comments
请教一下。用browserless抓取网站"https://www.sciencedirect.com/journal/journal-of-financial-economics"。把网址粘贴到payload的url后面字段,其它代码和你上面的例子一样。返回结果是一个禁止访问的页面。检查结果有 "User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/106.0.5249.0 Safari/537.36"。 直接用部署了docker版browserless来检查,发现只要把headless选项关掉,网页就能正常访问。如果打开,则返回结果和上面一样,且user-agent也一样。那就应该是这个user-agent的问题。但是试了很多次,在Post Agent里不知道怎么定制user_agent。返回结果一直包含 "HeadlessChrome/106.0.5249.0"。 请问Post Agent里用什么字段来自定义user-agent?右侧给出的那些字段都试过不起作用,要么是没用对。 |
User Agent 放到post请求的header里就好 具体的格式和字段的值可以多参考浏览器开发人员工具Network网络选项卡里的信息 |
谢谢,已搞定。貌似在Huginn这里设置无效,是在browserless docker启动时,要加入参数,比如, |
嗯搞定了就好,也感谢你的反馈,我回头更新一下文章 |
折腾了一下午,一直报错,求教大佬指点。 |
你 huginn里面是怎么配置的, 能否贴一下 |
@Yafeiml 还有需要确认下你使用的 browserless 是哪个版本。 如果是使用 rssman 里面配置的, 或者指定的镜像为browserless/chrome, 那应该没问题。 如果是使用的官网文档里最新的 ghcr.io/browserless/chromium, 那情况可能会有点不一样, 这个是 v2 版本,api 等方面会有一些不同 |
配置就是使用您提供的,期间也做过各种调整,加useragent,调整参数值等等: 另外browserless使用的是官方(2.13.0)版本,应该是最新的,但是看文档API的使用方法和路径应该是没有差别的,并且curl可以正常获取页面内容,感觉是Post Agent的格式问题,但是官方以及各路搜索都没有找到相关的资料,有点麻,感谢大佬回复。 补充下browserless的错误日志: |
我看了下 v2 版本的文档, content这个接口没有太大变化应该是可以用的. 假设你的 browserless 实例部署在 |
试过多次了确实不行,browserless的各种配置也都试过多种,感谢您的回答,我抽空继续查找下原因。 |
我搭了一个干净的环境测试了下, v2 版本的 browserless 与 最新版本的 huginn 协作时确实有问题. 暂时没有很好的解决方案, 可以考虑使用 v1 版本的 browserless (镜像为 docker hub 上的这个页面默认就是 v1 版本的, 可以直接使用. https://hub.docker.com/r/browserless/chrome |
|
https://blog.colinx.one/posts/huginn%E6%8C%87%E5%8D%97%E4%B8%BA%E4%BB%BB%E6%84%8F%E7%BD%91%E7%AB%99%E5%88%B6%E4%BD%9Crss/
Huginn使用多个不同功能的Agent组合搭配来实现一系列功能,一个Agent可以执行特定的操作,并产生一个Event,你可以指定他产生的
The text was updated successfully, but these errors were encountered: