audio-paper-digest
语音/音乐/音频论文速递自动化技能。抓取 arXiv + HuggingFace Papers,使用环境变量配置的 LLM 做筛选与深度分析, 输出结构化 JSON,并可发布到 GitHub Pages 博客、微信公众号草稿与小红书文案。 适用场景:论文速递、论文摘要、每日追踪、重分析、博客发布、微信发布与小红书发布。 --- **[English](SKILL.en.md)** | 中文 # Paper Digest Skill(以当前代码为准) ## 1. 文档定位 - `SKILL.md`:给 Agent 的执行规则与安全约束 - `README.md`:给人的运行手册(命令、配置、排错) - `prompts/filter.md`:筛选阶段 LLM prompt - `prompts/deep-analysis.md`:深度分析阶段 LLM prompt(输出格式、标签体系、评分标准) 当文档与代码冲突时,**以 `scripts/*` 当前实现为准,并同步更新文档**。 --- ## 2. 当前真实流程 主入口:`./run-full-fetch.sh`(或 `node scripts/full-fetch.js` / `npm run fetch`) 1. **自动归档**:检查 `data/current/deep-analysis-result.json` / `filtered-papers.json` / `analyzed.json`,若时间戳早于今天(北京时间)且 `data/archive/<日期>/` 下不存在,则复制后删除原文件。**`papers.json` 不归档。** 2. **arXiv 抓取**:7 个分类,每类最多 100 篇(可通过 `PD_ARXIV_MAX_RESULTS` 调整),遇连续 20 篇已有 ID 提前停止 3. **HuggingFace 抓取**:`daily_papers` 分页(最多 20 页)+ `papers` API 补充,默认近 7 天 4. **合并去重**:arXiv 优先,HF 补充 7 个特有字段,标记 `sources` 5. **LLM 筛选**:按 `PAPER_ANALYZER_*` 配置逐篇判断语音/音乐/音频相关,`batchSize=5`(可通过 `PD_FILTER_BATCH_SIZE` 调整),单篇超时 60 秒,重试 3 次 6. **保存筛选结果**:`data/current/filtered-papers.json` 7. **深度分析**:`deep-analyzer.js`,全文+图片,并发 3 篇(可通过 `PD_ANALYSIS_CONCURRENCY` 调整),每篇最多重试 2 次(可通过 `PD_ANALYSIS_MAX_RETRIES` 调整) 8. **增量保存**:每批分析后立即保存到 `data/current/deep-analysis-result.json`,自带失败结果保护(已有成功 analysis 的论文不会被无 analysis 的失败结果覆盖) 9. **更新去重库**:追加新论文 ID 到 `data/current/papers.json`,自动备份 papers.json(保留最近 7 天) 10. **收尾合并**:去重合并历史结果,自动备份 bak 文件(保留最近 10 个) `full-fetch.js` **不会自动发布博客/微信**,发布需单独运行 Python 脚本。 --- ## 3. 数据路径规范 ### 3.1 优先路径(当前) | 文件 | 用途 | 归档行为 | |------|------|---------| | `data/current/papers.json` | 论文去重数据库 | **不归档**,持续累积 | | `data/current/filtered-papers.json` | 筛选后的论文元数据 | 每日归档移走后重新生成 | | `data/current/deep-analysis-result.json` | 核心分析结果(含 analysis / parsed / imageUrls) | 每日归档移走后重新生成 | | `data/current/analyzed.json` | 旧版已分析记录(兼容) | 每日归档移走后重新生成 | ### 3.2 兼容行为 部分脚本在读取时兼容 `data/*.json` 旧路径,但新产物应写入 `data/current/`。 ### 3.3 归档目录 `data/archive/<YYYY-MM-DD>/` 按日期子目录存放当日归档文件。`deep-analysis-resul
更新日志: Source: GitHub https://github.com/nanless/audio-paper-digest
评论加载中...