GUI Element Locator

基于Claude 3.5实现的GUI元素智能定位工具。通过自然语言描述,快速定位界面元素位置。

English | 简体中文

🌟 最新更新

v1.1.0 (2024-03-25)

新特性

🎯 两阶段定位策略
- 第一阶段：区域定位
- 第二阶段：精确点位定位
🤖 智能元素分类系统
- 支持10种常见GUI元素类型识别
- 针对不同元素类型优化定位策略
📊 网格辅助系统
- 添加可视化坐标网格
- 提供更精确的位置参考
✨ 置信度评估系统
- 自动评估定位结果可信度
- 低置信度结果提供确认机制

性能优化

🚀 改进图像压缩算法
🔄 优化API调用策略
💾 添加结果缓存机制

用户体验提升

🎨 区分注意力区域和目标点的显示
📝 更详细的结果反馈
🛠️ 完善的错误处理机制

🌟 特性

🤖 基于Claude-3.5的智能识别
🎯 两步定位策略,提供更精确的坐标
🌍 支持多语言元素描述
📊 可视化结果展示
🔄 自动重试和错误处理机制
📝 完整的日志记录

🚀 快速开始

环境要求

Python 3.8+
Claude API Key

安装

git clone https://github.com/xiaoqidaov2/GUI_Element_Locator.git
cd GUI_Element_Locator
pip install -r requirements.txt

配置

复制配置模板文件

cp config.example.py config.py

编辑 config.py, 设置你的API密钥:

API_KEY = "your_claude_api_key"

运行

python app.py

访问 http://localhost:7860 打开Web界面

📖 使用说明

上传GUI界面截图
输入要查找的元素描述
点击"查找位置"
获取标注结果和坐标信息

新功能使用说明

元素类型识别

系统现已支持以下GUI元素类型的智能识别：

按钮 (button)
图标 (icon)
输入框 (input)
文本 (text)
链接 (link)
复选框 (checkbox)
单选框 (radio)
下拉框 (dropdown)
菜单 (menu)
其他 (other)

置信度评估

系统会自动评估定位结果的可信度
置信度低于0.4时会提示确认
可以选择继续或重新定位

🛠️ 技术栈

Python
Gradio
Claude Vision API
PIL
Requests

📊 示例

输入: "点击搜索框"

🔧 高级配置

# 配置最大图片大小
MAX_IMAGE_SIZE_MB = 5

# 配置重试次数
MAX_RETRIES = 3

# 配置重试延迟
RETRY_DELAY = 1

🤝 贡献指南

Fork 本仓库
创建新的分支 git checkout -b feature/AmazingFeature
提交更改 git commit -m 'Add some AmazingFeature'
Push到分支 git push origin feature/AmazingFeature
提交Pull Request

📄 许可证

该项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情

🙏 致谢

🔍 常见问题

Q: 如何处理大尺寸图片?

A: 系统会自动压缩图片到5MB以下,无需手动处理。

Q: 支持哪些语言描述?

A: 支持所有主流语言,包括中文、英文等。

📈 更新日志

[1.0.0] - 2024-03-20

首次发布
支持基础元素定位功能
添加Web界面

🗺️ 开发路线图

添加批量处理功能
优化定位算法
添加更多示例
支持更多元素类型


这个README包含了项目的主要信息、安装说明、使用方法、配置选项等重要内容,采用了清晰的结构和emoji标注,使得内容更加直观。你可以根据实际需求对内容进行调整。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gradio		.gradio
__pycache__		__pycache__
examples		examples
README.md		README.md
app.log		app.log
app.py		app.py
config.py		config.py
demo.py		demo.py
requirements.txt		requirements.txt
temp_grid_image.jpg		temp_grid_image.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GUI Element Locator

🌟 最新更新

v1.1.0 (2024-03-25)

新特性

性能优化

用户体验提升

🌟 特性

🚀 快速开始

环境要求

安装

配置

运行

📖 使用说明

新功能使用说明

元素类型识别

置信度评估

🛠️ 技术栈

📊 示例

🔧 高级配置

🤝 贡献指南

📄 许可证

🙏 致谢

🔍 常见问题

Q: 如何处理大尺寸图片?

Q: 支持哪些语言描述?

📈 更新日志

[1.0.0] - 2024-03-20

🗺️ 开发路线图

About

Releases

Packages

Languages

xiaoqidaov2/GUI_Element_Locator

Folders and files

Latest commit

History

Repository files navigation

GUI Element Locator

🌟 最新更新

v1.1.0 (2024-03-25)

新特性

性能优化

用户体验提升

🌟 特性

🚀 快速开始

环境要求

安装

配置

运行

📖 使用说明

新功能使用说明

元素类型识别

置信度评估

🛠️ 技术栈

📊 示例

🔧 高级配置

🤝 贡献指南

📄 许可证

🙏 致谢

🔍 常见问题

Q: 如何处理大尺寸图片?

Q: 支持哪些语言描述?

📈 更新日志

[1.0.0] - 2024-03-20

🗺️ 开发路线图

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages