web-content-fetcher
网页正文内容提取。支持 Jina Reader / Scrapling+html2text / web_fetch 三级降级策略, 自动返回干净的 Markdown 格式正文,保留标题、链接、图片 URL、列表结构。 能读取微信公众号文章(Jina 做不到的场景)。 触发条件:用户要抓取某个 URL 的正文内容、读取某篇文章、提取网页内容等。 --- # Web Content Fetcher — 网页正文提取 ## 能力说明 给一个 URL,返回干净的 Markdown 格式正文,保留: - 标题层级(# ## ###) - 超链接([文字](url)) - 图片() - 列表、代码块、引用块 ## 提取策略(三级降级) ``` URL ↓ 1. Jina Reader(首选) web_fetch("https://r.jina.ai/<url>", maxChars=30000) 优点:快(~1.5s),格式干净 限制:200次/天免费配额 失败场景:微信公众号(403)、部分国内平台 ↓ 2. Scrapling + html2text(Jina 超限或失败时)
更新日志: Source: GitHub https://github.com/shirenchuang/web-content-fetcher
还没有评论,快来第一个发言吧。