tianchiguaixia

Follow

奥特曼 tianchiguaixia

Follow

专注于领域：知识图谱，问答系统，多模态信息抽取等

39 followers · 21 following

上海
11:11 (UTC -12:00)
[email protected]

Achievements

Achievements

tianchiguaixia/README.md

👋 Hi, I’m @tianchiguaixia
👀 I’m interested in python,NLP
🌱 I’m currently learning NLP
💞️ I’m looking to collaborate on NLP
📫 How to reach me:[email protected]

Pinned Loading

ocr-detection ocr-detection Public

微调阿里开源的文字检测模型，利用合合识别返回的OCR结果作为初始训练数据，对模型进行优化训练，使其更加适应1万张图片的具体场景，提高文字区域检测的精度，优化边界框质量，减少漏检和误检。

Python 7
ocr_recognition ocr_recognition Public

微调阿里开源的文字检测模型，利用合合识别返回的OCR结果作为初始训练数据，对模型进行优化训练，使其更加适应1万张图片的具体场景，提高文字识别的精度。

7
layoutlmv3-chinese layoutlmv3-chinese Public

该项目是为了使用layoutlmv3针对中文图片训练和推理。其中主要解决三个问题： 1.数据标准化成可以的训练数据集格式 2.layoutlmv3-base-chinese 分词修改 2.超过512长度的文本切分和滑窗操作

Python 42 7
qwen1.5-ner qwen1.5-ner Public

使用Qwen1.5-0.5B-Chat模型进行通用信息抽取任务的微调，旨在：验证生成式方法相较于抽取式NER的效果；为新手提供简易的模型微调流程，尽量减少代码量；大模型训练的数据格式处理。

Python 11
text_classification text_classification Public

该项目通过新闻数据集演示文本分类全流程：数据清洗，模型训练，模型部署和前端展示。使用的模型和工具：pytorch，bert，streamlit

Python 18
medical_ocr_streamlit medical_ocr_streamlit Public

该项目主要是为了识别图片里面的表格数据，并将表格数据抽取处理，导出成csv的文件。整个项目会使用streamlit进行部署和展示。使用的技术：paddleocr，PPStructure，streamlit

Python 35 4