PDF扫描件转Word文档。支持中文OCR识别,自动裁掉页眉页脚,保留插图,彩色章节封面页保留为图片。使用百度OCR API(免费额度1000次/月)。当用户要求把扫描PDF转成文字/Word时触发。
数据来源:ClawHub。 在 ClawSkills 查看
选择你使用的 Agent
方法一:命令行安装(推荐)
推荐(无需提前安装 clawhub)
npx clawhub@latest --dir ~/.claude/skills install pdf-ocr或使用 clawhub CLI(需提前安装)
clawhub --dir ~/.claude/skills install pdf-ocr⚠️ 需要 Node.js 18+,没有 Node?请使用下方方法二直接下载 ZIP。 安装 Node.js →
方法二:手动下载安装(无需 Node)
下载 ZIP,解压后将文件夹放到以下路径,重启 Agent 即可:
安装路径
~/.claude/skills/pdf-ocr/💡解压后将文件夹放到上方路径,重启 Agent 即可生效
--- name: pdf-ocr description: PDF扫描件转Word文档。支持中文OCR识别,自动裁掉页眉页脚,保留插图,彩色章节封面页保留为图片。使用百度OCR API(免费额度1000次/月)。当用户要求把扫描PDF转成文字/Word时触发。 ---
accurate_basicpip install pymupdf python-docx pillow
python3 {baseDir}/scripts/pdf_to_docx.py <PDF路径> [输出目录]
输出文件在 [输出目录]/xxx_全文_ocr.docx,文件较大时用脚本压缩图片:
python3 {baseDir}/scripts/compress_docx.py <docx路径> <输出路径>
| 页面类型 | 判断方式 | 处理方式 | |---------|---------|---------| | 正文页 | 默认 | 裁掉顶部6%(页眉)+底部4%(页脚),OCR识别文字 | | 插图页 | OCR无文字输出 | 保留为图片嵌入Word | | 彩色封面/章节页 | 彩色像素占比>25% | 保留为图片,加灰色标注 |
- 解决:用户找到问题页,告知PDF页码,截图后手动替换
- 解决:转换后人工替换目录页为图片
安装 Pdf Ocr 后,可以对 AI 说这些话来触发它
Help me get started with Pdf Ocr
Explains what Pdf Ocr does, walks through the setup, and runs a quick demo based on your current project
Use Pdf Ocr to convert PDF scans to Word documents
Invokes Pdf Ocr with the right parameters and returns the result directly in the conversation
What can I do with Pdf Ocr in my documents & notes workflow?
Lists the top use cases for Pdf Ocr, with example commands for each scenario
将技能文件夹放到 ~/.claude/skills/pdf-ocr/ 目录(个人级,所有项目可用),或 .claude/skills/pdf-ocr/(项目级)。重启 AI 客户端后,用 /pdf-ocr 主动调用,或让 AI 根据上下文自动发现并使用。
Pdf Ocr 支持 Claude、Cursor、OpenClaw,可与这些 AI 平台无缝集成,扩展其能力。
Pdf Ocr 可免费安装使用。请查阅仓库了解许可证信息。
PDF扫描件转Word文档。支持中文OCR识别,自动裁掉页眉页脚,保留插图,彩色章节封面页保留为图片。使用百度OCR API(免费额度1000次/月)。当用户要求把扫描PDF转成文字/Word时触发。
Pdf Ocr 属于「Documents & Notes」分类,该分类的技能帮助 AI 智能体在此领域执行专业任务。
Automate my documents & notes tasks using Pdf Ocr
Identifies repetitive steps in your workflow and sets up Pdf Ocr to handle them automatically