audio-paper-digest

Category: Development & Coding | Uploader: nanlessnanless | Downloads: 0 | Version: v1.0(Latest)

语音/音乐/音频论文速递自动化技能。抓取 arXiv + HuggingFace Papers,使用环境变量配置的 LLM 做筛选与深度分析, 输出结构化 JSON,并可发布到 GitHub Pages 博客、微信公众号草稿与小红书文案。 适用场景:论文速递、论文摘要、每日追踪、重分析、博客发布、微信发布与小红书发布。 --- **[English](SKILL.en.md)** | 中文 # Paper Digest Skill(以当前代码为准) ## 1. 文档定位 - `SKILL.md`:给 Agent 的执行规则与安全约束 - `README.md`:给人的运行手册(命令、配置、排错) - `prompts/filter.md`:筛选阶段 LLM prompt - `prompts/deep-analysis.md`:深度分析阶段 LLM prompt(输出格式、标签体系、评分标准) 当文档与代码冲突时,**以 `scripts/*` 当前实现为准,并同步更新文档**。 --- ## 2. 当前真实流程 主入口:`./run-full-fetch.sh`(或 `node scripts/full-fetch.js` / `npm run fetch`) 1. **自动归档**:检查 `data/current/deep-analysis-result.json` / `filtered-papers.json` / `analyzed.json`,若时间戳早于今天(北京时间)且 `data/archive/<日期>/` 下不存在,则复制后删除原文件。**`papers.json` 不归档。** 2. **arXiv 抓取**:7 个分类,每类最多 100 篇(可通过 `PD_ARXIV_MAX_RESULTS` 调整),遇连续 20 篇已有 ID 提前停止 3. **HuggingFace 抓取**:`daily_papers` 分页(最多 20 页)+ `papers` API 补充,默认近 7 天 4. **合并去重**:arXiv 优先,HF 补充 7 个特有字段,标记 `sources` 5. **LLM 筛选**:按 `PAPER_ANALYZER_*` 配置逐篇判断语音/音乐/音频相关,`batchSize=5`(可通过 `PD_FILTER_BATCH_SIZE` 调整),单篇超时 60 秒,重试 3 次 6. **保存筛选结果**:`data/current/filtered-papers.json` 7. **深度分析**:`deep-analyzer.js`,全文+图片,并发 3 篇(可通过 `PD_ANALYSIS_CONCURRENCY` 调整),每篇最多重试 2 次(可通过 `PD_ANALYSIS_MAX_RETRIES` 调整) 8. **增量保存**:每批分析后立即保存到 `data/current/deep-analysis-result.json`,自带失败结果保护(已有成功 analysis 的论文不会被无 analysis 的失败结果覆盖) 9. **更新去重库**:追加新论文 ID 到 `data/current/papers.json`,自动备份 papers.json(保留最近 7 天) 10. **收尾合并**:去重合并历史结果,自动备份 bak 文件(保留最近 10 个) `full-fetch.js` **不会自动发布博客/微信**,发布需单独运行 Python 脚本。 --- ## 3. 数据路径规范 ### 3.1 优先路径(当前) | 文件 | 用途 | 归档行为 | |------|------|---------| | `data/current/papers.json` | 论文去重数据库 | **不归档**,持续累积 | | `data/current/filtered-papers.json` | 筛选后的论文元数据 | 每日归档移走后重新生成 | | `data/current/deep-analysis-result.json` | 核心分析结果(含 analysis / parsed / imageUrls) | 每日归档移走后重新生成 | | `data/current/analyzed.json` | 旧版已分析记录(兼容) | 每日归档移走后重新生成 | ### 3.2 兼容行为 部分脚本在读取时兼容 `data/*.json` 旧路径,但新产物应写入 `data/current/`。 ### 3.3 归档目录 `data/archive/<YYYY-MM-DD>/` 按日期子目录存放当日归档文件。`deep-analysis-resul

Changelog: Source: GitHub https://github.com/nanless/audio-paper-digest

Directory Structure

Current level: tree/main/

  • 📁 .github/
    • 📁 workflows/
      • 📄 ci.yml 773 B
  • 📁 docs/
    • 📁 en/
      • 📄 data-format.md 4.3 KB
      • 📄 maintenance.md 7.0 KB
      • 📄 scripts.md 22.0 KB
      • 📄 setup.md 9.7 KB
      • 📄 troubleshooting.md 4.3 KB
      • 📄 workflow.md 13.1 KB
    • 📄 data-format.md 4.1 KB
    • 📄 maintenance.md 5.8 KB
    • 📄 scripts.md 20.1 KB
    • 📄 setup.md 8.8 KB
    • 📄 troubleshooting.md 3.8 KB
    • 📄 workflow.md 11.4 KB
  • 📁 prompts/
    • 📁 en/
      • 📄 deep-analysis.md 29.0 KB
      • 📄 filter.md 4.2 KB
      • 📄 gap-fill.md 7.7 KB
      • 📄 index.md 1.4 KB
      • 📄 opensource-scan.md 2.0 KB
    • 📄 deep-analysis.md 24.8 KB
    • 📄 filter.md 3.5 KB
    • 📄 gap-fill.md 6.3 KB
    • 📄 index.md 1.2 KB
    • 📄 opensource-scan.md 1.7 KB
  • 📁 scripts/
    • 📄 analysis-engine.js 12.8 KB
    • 📄 analyze-single-paper.js 3.2 KB
    • 📄 backfill_papers.py 10.4 KB
    • 📄 backup-data.sh 2.1 KB
    • 📄 batch-analyze.js 4.0 KB
    • 📄 config.js 7.3 KB
    • 📄 deep-analysis-only.js 4.4 KB
    • 📄 deep-analyzer.js 37.1 KB
    • 📄 fetch-huggingface-papers.js 11.6 KB
    • 📄 fetch-papers.js 19.1 KB
    • 📄 full-fetch.js 19.0 KB
    • 📄 log-setup.js 3.0 KB
    • 📄 log_setup.py 2.0 KB
    • 📄 publish-to-blog.py 43.1 KB
    • 📄 publish-to-feishu.py 11.5 KB
    • 📄 publish-wechat-full.py 13.2 KB
    • 📄 publish-xiaohongshu.py 10.4 KB
    • 📄 publish_common.py 6.7 KB
    • 📄 quick-test.js 2.9 KB
    • 📄 reanalyze-selected.js 3.5 KB
    • 📄 reanalyze.js 6.4 KB
    • 📄 test-api-key.js 3.4 KB
    • 📄 utils.js 33.7 KB
    • 📄 utils.py 21.3 KB
    • 📄 xiaohongshu-publisher.py 31.0 KB
  • 📁 tests/
    • 📄 config.test.js 3.8 KB
    • 📄 utils.test.js 8.1 KB
  • 📄 .gitignore 398 B
  • 📄 LICENSE 1.0 KB
  • 📄 package-lock.json 18.0 KB
  • 📄 package.json 1.4 KB
  • 📄 README.en.md 6.5 KB
  • 📄 README.md 5.9 KB
  • 📄 run-full-fetch.sh 326 B
  • 📄 SKILL.en.md 32.8 KB
  • 📄 SKILL.md 29.5 KB

SKILL.md

Login to download/like/favorite ❤ 31 | ★ 0
Comments 0

Please login before commenting.

Loading comments...