基于Claude 3.5实现的GUI元素智能定位工具。通过自然语言描述,快速定位界面元素位置。
English | 简体中文
- 🎯 两阶段定位策略
- 第一阶段:区域定位
- 第二阶段:精确点位定位
- 🤖 智能元素分类系统
- 支持10种常见GUI元素类型识别
- 针对不同元素类型优化定位策略
- 📊 网格辅助系统
- 添加可视化坐标网格
- 提供更精确的位置参考
- ✨ 置信度评估系统
- 自动评估定位结果可信度
- 低置信度结果提供确认机制
- 🚀 改进图像压缩算法
- 🔄 优化API调用策略
- 💾 添加结果缓存机制
- 🎨 区分注意力区域和目标点的显示
- 📝 更详细的结果反馈
- 🛠️ 完善的错误处理机制
- 🤖 基于Claude-3.5的智能识别
- 🎯 两步定位策略,提供更精确的坐标
- 🌍 支持多语言元素描述
- 📊 可视化结果展示
- 🔄 自动重试和错误处理机制
- 📝 完整的日志记录
- Python 3.8+
- Claude API Key
git clone https://github.com/xiaoqidaov2/GUI_Element_Locator.git
cd GUI_Element_Locator
pip install -r requirements.txt
- 复制配置模板文件
cp config.example.py config.py
- 编辑
config.py
, 设置你的API密钥:
API_KEY = "your_claude_api_key"
python app.py
访问 http://localhost:7860
打开Web界面
- 上传GUI界面截图
- 输入要查找的元素描述
- 点击"查找位置"
- 获取标注结果和坐标信息
系统现已支持以下GUI元素类型的智能识别:
- 按钮 (button)
- 图标 (icon)
- 输入框 (input)
- 文本 (text)
- 链接 (link)
- 复选框 (checkbox)
- 单选框 (radio)
- 下拉框 (dropdown)
- 菜单 (menu)
- 其他 (other)
- 系统会自动评估定位结果的可信度
- 置信度低于0.4时会提示确认
- 可以选择继续或重新定位
- Python
- Gradio
- Claude Vision API
- PIL
- Requests
输入: "点击搜索框"
# 配置最大图片大小
MAX_IMAGE_SIZE_MB = 5
# 配置重试次数
MAX_RETRIES = 3
# 配置重试延迟
RETRY_DELAY = 1
- Fork 本仓库
- 创建新的分支
git checkout -b feature/AmazingFeature
- 提交更改
git commit -m 'Add some AmazingFeature'
- Push到分支
git push origin feature/AmazingFeature
- 提交Pull Request
该项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情
A: 系统会自动压缩图片到5MB以下,无需手动处理。
A: 支持所有主流语言,包括中文、英文等。
- 首次发布
- 支持基础元素定位功能
- 添加Web界面
- 添加批量处理功能
- 优化定位算法
- 添加更多示例
- 支持更多元素类型
这个README包含了项目的主要信息、安装说明、使用方法、配置选项等重要内容,采用了清晰的结构和emoji标注,使得内容更加直观。你可以根据实际需求对内容进行调整。