InternLM Long Context SIG #1336
ValeriaWong
started this conversation in
LongContext
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
目的:探索、学习大模型长上下文技术,并产出多个最佳实践和典型案例$$O(n^2)$$ ,该问题导致在成本有限的情况下模型无法有效处理长序列。因此需要学习长上下文技术以便于运用到实际任务,如法律文件审查、医疗记录分析、财务报告分析、合同管理等
时间周期:2024年8月——11月
基于Transformer的大型语言模型(LLMs)在知识库、人机界面和agent等多个领域获得了广泛应用,推动了人工智能(AGI)的发展。然而,目前的LLMs主要在短文本片段(如512,2048,4096等长度)上进行预训练,这限制了它们在实际应用中处理长文本上下文的能力。随着在线长文档规模的增加,自动理解长文本成为关键问题。但是由于传统transformer结构在注意力机制的计算复杂度方面落后,即
兴趣小组主线任务:
组员福利:
良好的学习氛围
优秀组员证书
上海人工智能实验室内推机会
免费且充足的算力支持
InternLM 社区已有长上下文工作:
internlm2_5-7b-chat-1m https://huggingface.co/internlm/internlm2_5-7b-chat-1m
Needle-Bench https://github.com/open-compass/opencompass
小伙伴如果有相关的项目欢迎参与贡献~
想参与的同学欢迎联系浦语小助手(微信搜索 InternLM),或者联系兴趣小组长法律人(微信搜索 Valeria_Wong)
飞书共享文件夹:https://aicarrier.feishu.cn/wiki/HobBw3ODsibfV4kI9CKckau3nsf
Beta Was this translation helpful? Give feedback.
All reactions