deepseek-vision
每当用户引用图像(本地文件路径或 http/https URL — 屏幕截图、照片、图表、UI 捕获、图表、错误对话框)并且您需要知道其中的内容来回答或采取行动时使用。通过 DashScope 调用视觉模型(默认为 Qwen3.6-Flash)并返回可以推理的文本描述。在像 DeepSeek V4 这样的纯文本后端上运行时尤其重要,而且即使主模型是多模式时,也可用作专用 OCR/细节提取器。
更新日志: Source: GitHub https://github.com/Agents365-ai/dsclaude
评论加载中...