智能验证码自动识别 Skill - 混合模式(本地 Tesseract OCR + 阿里云千问 3 VL Plus)。支持两阶段输入框查找、安全隐私警告。用于网页自动化中的验证码识别、填写和提交。
数据来源:ClawHub。 在 ClawSkills 查看
选择你使用的 Agent
方法一:命令行安装(推荐)
推荐(无需提前安装 clawhub)
npx clawhub@latest --dir ~/.claude/skills install captcha-auto或使用 clawhub CLI(需提前安装)
clawhub --dir ~/.claude/skills install captcha-auto⚠️ 需要 Node.js 18+,没有 Node?请使用下方方法二直接下载 ZIP。 安装 Node.js →
方法二:手动下载安装(无需 Node)
下载 ZIP,解压后将文件夹放到以下路径,重启 Agent 即可:
安装路径
~/.claude/skills/captcha-auto/💡解压后将文件夹放到上方路径,重启 Agent 即可生效
--- name: captcha-auto description: 智能验证码自动识别 Skill - 混合模式(本地 Tesseract OCR + 阿里云千问 3 VL Plus)。支持两阶段输入框查找、安全隐私警告。用于网页自动化中的验证码识别、填写和提交。 ---
利用 本地 OCR + 视觉大模型降级 智能识别网页验证码,平衡成本与准确率。
实测成功率:6/6 (100%) - 已在多个真实网站验证(国家统计局、Telerik、Digivarsity 等)
---
Clawhub 默认安装到当前工作目录的 ./skills 子目录!
# 方式 1:进入 workspace 目录安装(推荐)
cd ~/.openclaw/workspace
clawhub install captcha-auto
# 方式 2:使用 --workdir 参数(任何目录都可以)
clawhub install captcha-auto --workdir ~/.openclaw/workspace
# 方式 3:设置环境变量(永久生效)
export CLAWHUB_WORKDIR=~/.openclaw/workspace
clawhub install captcha-auto
# 不要在 home 目录直接运行!
cd ~
clawhub install captcha-auto # 会安装到 ~/skills/captcha-auto ❌
# 正确位置
ls -la ~/.openclaw/workspace/skills/captcha-auto/
# 如果装错了(在 ~/skills/),删除并重新安装
rm -rf ~/skills/captcha-auto
cd ~/.openclaw/workspace
clawhub install captcha-auto
---
---
安装前请仔细阅读:
VISION_API_KEY~/.openclaw/openclaw.json--api-key---
本 Skill 需要阿里云千问 3 VL Plus API Key,用于当本地 OCR 失败时的降级识别。
推荐配置(阿里云千问 3 VL Plus):
export VISION_API_KEY="sk-your-api-key"
export VISION_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export VISION_MODEL="qwen3-vl-plus"
说明:
qwen3-vl-plus 是阿里云千问 3 视觉模型,国产性价比最高的视觉模型编辑 ~/.openclaw/openclaw.json:
{
"models": {
"providers": {
"bailian": {
"baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"apiKey": "sk-your-api-key"
}
}
}
}
node scripts/run.mjs --url="https://example.com" --api-key="sk-xxx" --model="qwen3-vl-plus"
---
| 网站 | 验证码类型 | 结果 | |------|-----------|------| | captcha.com/demos | 标准文本 | ✅ | | captcha-generator-basiakedz.netlify.app | 随机文本 | ✅ | | tjy.stats.gov.cn (国家统计局) | 数字验证码 | ✅ | | solvecaptcha.com/demo | 字母数字混合 | ✅ | | demos.telerik.com/aspnet-ajax/captcha | ASP.NET 验证码 | ✅ | | aibe.digivarsity.online | 用户认证验证码 | ✅ |
---
重要:必须在 ~/.openclaw/workspace 目录下运行安装命令!
# ✅ 正确:在 workspace 目录安装
cd ~/.openclaw/workspace
clawhub install captcha-auto
# ❌ 错误:在 home 目录安装(会装到 ~/skills/)
cd ~
clawhub install captcha-auto # 不要这样!
验证安装位置:
ls -la ~/.openclaw/workspace/skills/captcha-auto/
cd ~/.openclaw/workspace
npm install
export VISION_API_KEY="sk-your-api-key"
export VISION_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export VISION_MODEL="qwen3-vl-plus"
node skills/captcha-auto/scripts/run.mjs --url="https://example.com/login"
运行后生成截图文件(保存在 ~/.openclaw/workspace/):
smart_captcha_page.png - 原始页面截图smart_captcha_filled.png - 填写验证码后的截图smart_captcha_result.png - 提交后的结果截图---
# ⚠️ 必须在 ~/.openclaw/workspace 目录下运行!
cd ~/.openclaw/workspace
clawhub install captcha-auto
# 混合模式(本地 OCR 优先,失败降级视觉模型)
node skills/captcha-auto/scripts/run.mjs --url="https://example.com/login"
# 指定输出前缀
node scripts/run.mjs --url="https://example.com" --prefix="my_login"
# 直接使用视觉模型(跳过本地 OCR)
node scripts/run.mjs --url="https://example.com" --skip-local
# 命令行覆盖配置
node scripts/run.mjs --url="https://example.com" --api-key="sk-xxx" --model="gpt-4o"
# JSON 输出(方便程序解析)
node scripts/run.mjs --url="https://example.com" --json
import { recognizeCaptcha } from './skills/captcha-auto/index.mjs';
const result = await recognizeCaptcha({
url: 'https://example.com/login',
outputPrefix: 'my_test',
apiKey: 'sk-xxx',
baseUrl: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
model: 'qwen3-vl-plus'
});
if (result.success) {
console.log(`✅ 验证码:${result.text}`);
console.log(`识别方式:${result.method}`);
} else {
console.error(`❌ 失败:${result.error}`);
}
---
🤖 Captcha Auto Skill v1.0.2 (混合模式)
============================================================
目标:https://example.com/login
视觉模型:qwen3-vl-plus
============================================================
🔍 尝试本地 Tesseract OCR 识别...
识别进度:45%
识别结果:"ABC123" (置信度:52.3%)
⚠️ 本地 OCR 置信度过低,需要降级到视觉模型
⚠️ 本地 OCR 不可靠,降级到视觉模型...
🧠 降级到视觉模型识别...
✅ 视觉模型识别成功:ABC123
✅ 完成!验证码:ABC123
识别方式:视觉模型
--json){
"success": true,
"text": "ABC123",
"method": "vision",
"analysis": {
"captchaText": "ABC123",
"captchaLocation": "登录框右侧",
"inputLocation": "验证码图片左侧",
"buttonLocation": "输入框下方",
"buttonText": "登录"
},
"screenshots": {
"page": "/Users/xxx/.openclaw/workspace/smart_captcha_page.png",
"filled": "/Users/xxx/.openclaw/workspace/smart_captcha_filled.png",
"result": "/Users/xxx/.openclaw/workspace/smart_captcha_result.png"
},
"metadata": {
"url": "https://example.com/login",
"model": "qwen3-vl-plus",
"timestamp": "2026-02-24T12:00:00Z"
}
}
---
1. 打开目标网页并截图
2. 第一层:本地 Tesseract OCR 识别
- 置信度 >= 60% → 使用结果
- 置信度 < 60% → 降级
3. 第二层:视觉模型分析截图
- 调用阿里云千问 3 VL Plus
- 返回验证码文字和位置信息
4. 自动查找输入框并填写
5. 自动点击提交按钮
6. 截图记录结果
---
---
原因:验证码过于复杂(扭曲、干扰线、背景噪声)
解决:使用 --skip-local 直接用视觉模型
node scripts/run.mjs --url="https://example.com" --skip-local
检查:VISION_API_KEY 是否正确
echo $VISION_API_KEY
检查:VISION_BASE_URL 是否正确
echo $VISION_BASE_URL
# 应为:https://dashscope.aliyuncs.com/compatible-mode/v1
macOS:安装 Google Chrome
# 下载地址:https://www.google.com/chrome/
Linux:安装 Chromium
sudo apt install chromium-browser
---
---
# 检查 Node.js
node --version # 需 >= 18
# 检查 Chrome(macOS)
ls /Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome
# 检查 API Key
echo $VISION_API_KEY
---
MIT
安装 Captcha Auto 后,可以对 AI 说这些话来触发它
Help me get started with Captcha Auto
Explains what Captcha Auto does, walks through the setup, and runs a quick demo based on your current project
Use Captcha Auto to intelligent verification code automatic recognition Skill - hybrid ...
Invokes Captcha Auto with the right parameters and returns the result directly in the conversation
What can I do with Captcha Auto in my documents & notes workflow?
Lists the top use cases for Captcha Auto, with example commands for each scenario
将技能文件夹放到 ~/.claude/skills/captcha-auto/ 目录(个人级,所有项目可用),或 .claude/skills/captcha-auto/(项目级)。重启 AI 客户端后,用 /captcha-auto 主动调用,或让 AI 根据上下文自动发现并使用。
Captcha Auto 支持 Claude、Cursor、OpenClaw,可与这些 AI 平台无缝集成,扩展其能力。
Captcha Auto 可免费安装使用。请查阅仓库了解许可证信息。
智能验证码自动识别 Skill - 混合模式(本地 Tesseract OCR + 阿里云千问 3 VL Plus)。支持两阶段输入框查找、安全隐私警告。用于网页自动化中的验证码识别、填写和提交。
Captcha Auto 属于「Documents & Notes」分类,该分类的技能帮助 AI 智能体在此领域执行专业任务。
Automate my documents & notes tasks using Captcha Auto
Identifies repetitive steps in your workflow and sets up Captcha Auto to handle them automatically