本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计140382 字,简读后为10777字,阅读时间为27分钟,为您提高阅读效率为1300%
- 深度揭秘爆火MoE!GPT-4关键架构成为开源模型的逆袭杀手锏 🔍
- 8x7B开源MoE击败Llama,逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿 💻💥
- Altman回归OpenAI,Ilya Sutskever 处境尴尬! 🔄😬
- 卡西欧四十周年纪念黄金手表 G-D001 拍卖:AI 参与设计,成交价超过40万美元 💍💰
- 微软急了?Windows 12发布进程提速 ⏩💻
- 助力AI技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE” 🐜🔍
- OpenAI来到印度:设立本地团队 🇮🇳🌐
- 荣耀申请“荣耀魔方大模型”商标,MagicOS 将融合端侧 AI 大模型 🔮💻
- AI大模型驱动气候风险感知范式变革,行业首个次季节气候大模型亮相迪拜COP28大会 🌍🌦️
- Soul正式上线自研大模型“SoulX”,持续丰富用户社交体验 👥🚀
要点解析:
-
宏基因组学项目揭示了地球生物圈中超过80亿个非冗余微生物蛋白质序列,其中11.7亿种蛋白质在超过100,000个可用参考基因组中没有可识别的同源物。机器学习在预测氨基酸序列的原子级蛋白质结构方面取得了前所未有的准确性,特别是基于ESMFold预测器的研究,能够快速生成617万个结构,其中36%被认为具有较高的置信度。
-
最新研究使用AlphaFold数据库中的2.15亿个结构,通过Foldseek cluster方法聚类蛋白质结构,将数据库蛋白质空间减少到230万个结构。这有助于功能预测,特别是对于“黑暗”簇中的微生物蛋白。另一项研究使用UniProt数据库预计算集群,定义了600万个代表性结构,通过序列相似性网络识别新的毒素蛋白家族。
-
集成微生物基因组和微生物组数据库的研究分析了80亿条序列,通过AlphaFold预测了约4000个独特的结构,证明结构相似性在鉴定家族关联中的价值。这些研究为解码微生物基因组中的功能信息提供了有力推论。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-9
要点解析:
-
Mistral AI在大模型领域以开源方式发布了新的模型Mistral 8x7B,相较于GPT-4,该模型规模较小,但保持了相似的架构。具体来说,它采用了8个专家,每个专家具有7B参数,总参数为42B,与GPT-4相同的32K上下文。该模型的开源动作在社区引起轰动,提供了在线体验网站供开发者测试。
-
专家混合(MoE)技术在LLM中广泛使用,Mistral 8x7B的元数据表明,对于每个token的推理,仅使用了2个专家。这一开源动作引起了对闭源大模型的质疑,将MoE技术引入开源领域可能改变大模型的发展方向。Mistral AI成立于2023年,是一家法国初创公司,凭借技术实力和创纪录的融资成为欧洲大模型领域的亮点。
-
Mistral AI最新一轮融资动态显示,公司估值达20亿欧元,融资额约4亿欧元,由Andreessen Horowitz牵头,参与者包括英伟达、Salesforce、General Catalyst等。公司创始人Arthur Mensch表示技术更高效、成本更低,尽管公司目前尚未盈利,但预计将在年底前通过新平台实现变革。此举引起投资者持续关注,显示Mistral AI在人工智能领域的前景备受期待。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-12
要点解析:
-
英伟达研究生奖学金计划支持近20年,资助近200名研究生,今年向全球10位博士生提供每人高达6万美元的奖学金,涉及计算创新各领域。
-
入选者来自卡内基梅隆大学、加州大学圣迭戈分校、佐治亚理工、苏黎世联邦理工学院、马里兰大学等,涉及机器学习、计算机视觉、无线通信等研究方向,将参与加速计算前沿工作。
-
获奖者将在奖学金年度前进入英伟达进行暑期实习,重点领域包括深度学习、机器人、计算机图形电路、自动驾驶等,英伟达首席科学家表示这些研究至关重要。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-6
要点解析:
-
Mistral AI发布了开源MoE大模型,8x7B的小模型在基准测试中超越了Llama 2 70B,成为AI圈关注焦点。MoE架构将任务分割成小任务,每个由专家负责,门控网络决定专家处理哪些输入。Mistral 8x7B规模虽小,但性能不俗,考验大模型发展的方向。
-
Mistral 8x7B在基准测试中表现抢眼,多个小模型组合超越Llama 2 70B。MoE架构的独特性使得每个专家在特定领域发挥卓越,门控网络引导输入数据到合适专家。该开源模型成为AI竞争中的新劲敌,引发对大模型发展方向的思考。
-
Mistral AI以开源理念挑战AI领域,其MoE大模型在基准测试中迅速崭露头角,取得巨额融资。相较于竞争对手,Mistral坚信开源带来更广泛的审查,提高模型安全性。这标志着法国初创公司在AI领域的突破,引发了欧洲在全球科技竞争中的潜力。
要点解析:
-
习近平总书记在上海考察调研中强调科技创新对中国式现代化的战略支撑,指出上海要在全球影响力上当好龙头。为提升科技创新策源能力,将举办数智上海 2023 峰会,重点探讨生成式AI在各领域的创新应用。
-
数智上海 2023 峰会将聚焦生成式AI创新应用,邀请业界专家如复旦大学教授张奇、商汤科技副总裁张少霆等分享关键技术进展,涵盖金融、工业、医疗和教育等领域的前沿赋能实践,推动上海市 AI 大模型创新发展。
-
作为重要环节,峰会将特别举办「数智说」生成式人工智能创新应用赋能千行百业论坛,邀请知名专家和企业代表分享大模型最新发展趋势,加速上海在AI领域的国际影响力。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-2
要点解析:
-
开发中的人工智能公司OpenAI正积极推进其在印度的战略计划。据TechCrunch报道,前Twitter India负责人Rishi Jaitly现任OpenAI高级顾问,将在印度政策和法规的复杂领域发挥关键作用。这是OpenAI与印度政府互动并可能在该国建立本地团队的整体战略的一部分。
-
据消息来源透露,Rishi Jaitly曾在Google印度负责公私合作伙伴关系,后来担任Times Bridge首席执行官,目前正积极为OpenAI在印度建立重要联系提供建议。“尽管尚不清楚Jaitly是否正式在OpenAI工作,但在CEO Sam Altman于六月访问新德里后卷入了公司事务。”
-
尽管本月初仅获得商标批准,OpenAI在印度尚无正式存在。Sam Altman在世界巡回期间与印度总理Narendra Modi的会面暗示可能有公告,但到目前为止尚未出现。印度以其庞大的人口和作为全球第二大互联网市场的地位而备受关注。
原文链接:https://www.analyticsvidhya.com/blog/2023/12/openai-is-coming-to-india-setting-up-a-local-team/
要点解析:
-
生成式AI在电商领域迎来爆发,阿里云与天猫联合发起[Create@AI创客松],旨在加速电子商务进入[AI+]新时代。大赛主题为[AI赋能数字化商业],涵盖面向企业和消费者的多个创新方向,包括产品设计、供应链管理、生产流程优化、销售与市场营销、个性化客户体验等。
-
挑战呼唤参赛者深度思考电商领域的技术创新,提出AI解决方案,如利用AI进行市场调研、产品测试,通过预测分析优化库存管理和供应链选择,以及利用生成式AI的多模态输出提高营销效率。大赛支持团队获得阿里云算力、云资源,以及由淘天DIGITAL生态实验室提供的为期三个月的免费孵化服务。
-
[Create@AI创客松]旨在发掘并孕育实力和潜力俱佳的AI创新团队,推动电商生态的繁荣。参赛团队将有机会实战应用AI技术,优化电商服务和产品,共同探索未来电商模式的前沿,创造全新机遇。
要点解析:
-
在技术风暴和社会变革的旋风中,“AI”这个词毫无疑问已经刻在全球讨论的前沿。在过去的十二个月里,这个缩写在无数的头条新闻、商业调查和技术报告中回响,牢牢地确立为《柯林斯英语词典》2023年度词汇。大语言模型(LLMs)不仅仅是技术术语;它们是实用工具,正在塑造日常和企业活动的格局。
-
根据麦肯锡的调查,近四分之一的C级高管坦言个人使用生成AI(GenAI)工具进行专业任务,反映了在企业董事会中广泛认可生成AI影响的现实议程。同一调查显示,所有职位的79%的受访者在工作或家中都接触到生成AI。在俄罗斯,卡巴斯基的一项调查揭示了这一现实,显示11%的受访者已将聊天机器人整合到工作日程中,近30%表达了对AI驱动的失业风险的担忧。在欧洲办公室,惊人的50%的比利时办公室工作者据称使用ChatGPT,展示了生成AI工具在专业环境中的普遍整合。
-
随着这一快速增长的技术的发展,政策制定和监管已经成为一个问题。国家和国际组织已经启动了倡议,全球和地区制定AI的未来框架。G7成员通过广岛AI进程,中国通过全球AI治理倡议,展示了制定负责任AI使用基准的战略推动。联合国通过建立AI高级咨询机构来强调其承诺,以引导伦理考虑的错综复杂的领域。在地区范围内,AI治理的动力明显。在欧洲,正在努力制定EU AI法案,引入了基于风险的AI系统分类方法。在东南亚,ASEAN正在积极制定AI伦理和治理指南,而非洲联盟已经起草了一项AI大陆战略,计划在2024年通过。
-
生成AI不仅仅是一个技术现象,更是全球力量,正在重新塑造我们工作、思考和治理的方式。然而,随着人工智能的影响超越语言荣誉,一个细致入微的叙述浮现,囊括了我们充满人工智能的现实的奇迹和挑战。
原文链接:https://kasperskycontenthub.com/securelist/?p=111341
要点解析:
-
近期OpenAI内部动荡引发关注,涉及CEO解雇、董事辞职、员工威胁辞职等。实际上,这一事件揭示了AI未来发展理念的分歧,加速主义与保守派的碰撞成为导火索。
-
生成式AI的热潮催生新的安全挑战,特别是大模型成为下一个安全战场。数据隐私、安全问题愈发凸显,企业上传大量数据至云端面临泄露、隐私曝光等风险,加剧了网络安全和数据隐私的考验。
-
面对生成式AI的安全挑战,技术防御需创新。以AI对抗AI、用大模型学习风险知识为方向,加强大模型的训练管理、研发新型安全技术、强化数据安全保护以及加强监管法律保护,成为解决问题的关键。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30619369.html
要点解析:
-
剑桥大学最新研究表明,AI模型与人脑神经结构存在相似之处,可能成为未来AI模型设计的关键。研究通过模拟一个简化的大脑模型,施加物理约束,使AI系统自我组织,生成类似人类大脑的关键特征和发育策略。
-
研究团队设计了一个迷宫导航任务,要求AI系统结合多种信息找到最短路径。通过自我学习,系统改变节点间连接强度,类似于人类学习时脑细胞连接的变化。系统在物理限制下发展出类似人脑的特征,如集线器的发展和单个节点的灵活编码方案。
-
这项研究揭示了人工智能系统在面临物理限制时如何采用类似人类大脑的策略,对未来人工智能系统设计具有启发意义。
要点解析:
-
11月30日,OpenAI经历了领导层变动,Sam Altman重新担任CEO,而首席科学家Ilya Sutskever不再是董事会成员。此次内斗由Ilya主导,涉及CEO解职、董事会变动等多个阶段。虽最终Altman胜出,但Ilya未来在OpenAI中的角色仍是未知数。
-
Ilya Sutskever,OpenAI首席科学家,AI领域杰出创造者,曾与Geoffrey Hinton合作发表AlexNet论文。他在OpenAI历次GPT系列和DALL-E模型的研发中发挥关键作用。最近,他强调对AI安全的担忧,领导成立“超级对齐”团队,致力于解决超智能AI对齐问题,引发行业关注。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8100-30619418.html
要点解析:
-
复旦大学浩清教授代表上海科学智能研究院参加联合国气候变化大会,介绍了行业内首个次季节气候大模型——伏羲次季节大模型。该模型预测时间范围达到45天,突破了中短期天气预测的限制,提升气候科学的发展需求。
-
伏羲次季节大模型采用Transformer架构,与欧洲中期天气预报中心(ECMWF)的S2S预测相媲美。显著增强了对马登-朱利安振荡(MJO)的预测能力,从30天延长到36天,超过了ECMWF S2S的预测水平。这对农业、交通、能源、金融等领域的灾害预警具有关键作用。
-
伏羲次季节大模型的突破为气候风险应对提供了重要支持,展示了AI在气候变化领域的想象空间。其高精度的次季节预测有望在可再生能源发展、电力系统建设、农业粮食安全等方面做出贡献,助力人类更好地应对气候变化挑战。
原文链接:https://www.leiphone.com/category/industrynews/s0xfCosZqnD6UdkN.html
要点解析:
-
本届 EMNLP 大会在新加坡举行,投稿数量创新高,接收率略有提升,其中长论文接收率为23.3%,短论文接收率为14%,整体接收率为21.3%。EMNLP 2023 最佳长论文通过信息流视角探究上下文学习,发现标签词在语义信息处理中充当锚点,提出了提升性能的锚点重加权方法。最佳短论文介绍一种计算成本更低的 MBR 算法,相比标准算法更高效。最佳主题论文通过即时黑客竞赛揭示大型语言模型容易受到即时黑客攻击,呼吁对这一安全威胁进行深入研究。最佳 Demo 论文提出了 PaperMage 工具包,用于处理科学文档,整合多种 NLP 和 CV 模型,为科学文献提供清晰抽象。最佳行业论文探讨了语音控制的人工智能对话系统中的个性化实体检索,提出了一种不局限于个性化索引的系统,提高了实体检索任务的准确性。
-
EMNLP 2023 颁发了多个奖项,包括最佳长论文、最佳短论文、最佳主题论文、最佳 Demo 论文和最佳行业论文。其中,最佳长论文从信息流的角度研究上下文学习,发现标签词在语义信息处理中充当锚点,提出了提升性能的方法。最佳短论文介绍了一种计算成本更低的 MBR 算法,相比标准算法更高效。最佳主题论文通过即时黑客竞赛揭示大型语言模型容易受到即时黑客攻击,呼吁对这一安全威胁进行深入研究。
-
EMNLP 2023 还颁发了最佳 Demo 论文,PaperMage 工具包处理科学文档,整合多种 NLP 和 CV 模型,为科学文献提供清晰抽象。最佳行业论文探讨语音控制的人工智能对话系统中的个性化实体检索,提出了一种不局限于个性化索引的系统,提高了实体检索任务的准确性。这些研究推动了自然语言处理领域的前沿,为未来研究方向提供了有益的启示。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-16
要点解析:
-
今年开春,APUS创始人李涛提到,全公司全力投入人工智能(AI)领域。他强调了适应中国AI发展的关键要素,包括强健算力、全球知识与高质量数据、敏捷进化的算法、价值观对齐、健康产业生态与价值创造。李涛认为,AI时代将引发技术、思想与价值观的冲突,大模型可能塑造未来社会阶层,并主张每个国家、文明、阶层都应有自己的智能体,以约束大模型的潜在风险。
-
在OpenAI发布GPT-4 Tubor战略后,李涛分析指出,该战略意味着OpenAI构建了庞大的“AI帝国”,具备技术垄断、数据垄断和流量入口垄断。他认为这引发了思想、技术路线和价值观的冲突,可能对现有社会机制构成挑战。他提出全球经济体需拥有自己的大模型,避免技术垄断和文化冲突。
-
李涛强调,开源大模型并不足以解决问题,因为大模型的目标是让所有人使用,而且技术垄断的风险巨大。他主张每个国家需拥有自己的大模型,并通过Agent或框架来约束大模型,以维护文化和价值观的多样性。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8610-30619377.html
要点解析:
-
为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以被替代。康奈尔大学和苹果的最新研究提出了一种替代方案,使用可扩展性更强的状态空间模型(SSM)主干,命名为Diffusion State Space Model(DIFFUSSM)。DIFFUSSM在处理高分辨率图像时,能够媲美或超越传统扩散模型的效果,同时大幅减少计算复杂度。
-
传统模型中的注意力机制在处理长文本和高分辨率图像时存在计算复杂度问题。DIFFUSSM通过采用门控双向SSM,避免了全局分块化或多尺度层,有效提高了图像生成效率。沙漏架构的引入进一步增强了模型的处理细节能力,使DIFFUSSM在各种分辨率下都表现出色,验证了其在图像生成领域的潜力。
-
DIFFUSSM的实验证明其在类别条件图像生成方面表现优越,超越了传统扩散模型。在无分类器指导的情况下,DIFFUSSM在FID和sFID上均取得了一致的改进,同时减少了训练步骤和总Gflops。在使用无分类器指导时,DIFFUSSM在空间失真方面表现更为鲁棒,达到了最佳sFID分数。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-14
要点解析:
-
2023年12月8日,FBEC2023未来商业生态链接大会充满活力地在深圳举办。主题为“合力共生·韧者行远”的大会以科技与互联网前沿领域为焦点,深入探讨了AI、元宇宙、XR、游戏、电竞、数字经济等议题。大会呈现了行业前瞻洞察,聚焦时代与商业热点,展示了新科技、新商业、新模式的未来价值。
-
主会场B的2023全球VR/AR产业与空间计算论坛引人注目,ARknovv联合创始人阮郑福分享了有关“AR+AI,消费级AR眼镜发展的关键力量”的见解。他强调了AI在AR行业的探索和机遇,尤其在内容生态重构和交互变革方面的关键作用。阮郑福指出,AI为AR带来了新的增长点,引领交互方式从机器走向更贴近人的未来。
-
阮郑福详细介绍了ARknovv A1,强调其作为可戴出门的真AR眼镜,通过AI与AR的深度融合,解决了AR行业目前面临的刚需应用场景、内容生态不足以及交互方式的问题。他展望了AR的未来,认为2026年左右将迎来AR爆发的重要时刻,带领观众探索科技之冰川。
原文链接:http://www.fromgeek.com/media/617163.html
要点解析:
-
微软计划在明年6月发布Windows 12,这一消息引起了广泛关注。新系统将以AI为核心,构建全新体验,包括灵动个性化UI和利用AI语音助手完成操作与设置。AI将深度融入系统,解决用户常见问题,如缩放率调整和自动调整音频设备。
-
Windows 12的推出与Windows 11的市场表现不佳有关。Windows 11占比仅为26.66%,Windows 10依然高达68%。微软通过免费升级服务力推Windows 11,但用户对其吸引力有限。Windows 12的设计以AI为核心,力图带来更流畅、智能的PC体验,尤其在与新一代AI处理器的配合下,将成为用户更新的主要原因。
-
除了系统升级,Windows 12还将伴随微软筹备的AI版Office套件上市,进一步推动PC厂商迎来潜在的换机潮。尽管存在一些对微软软件初代体验的担忧,但Windows 12的发布仍为PC领域注入了新的盼头,期待着创新功能的出现。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30619400.html
要点解析:
-
Soul最新推出的自研语言大模型SoulX成为Soul社交平台的核心工具,广泛应用于智能对话、AI辅助聊天、虚拟陪伴等场景。该模型基于海量数据训练,具备prompt驱动、条件可控生成、上下文理解、多模态理解等能力,保证了对话自然流畅,覆盖百种细粒度风险类别,构建了安全体系。
-
SoulX的正式发布标志着Soul在社交和AIGC领域的布局加速。Soul自2016年上线以来,通过创新的平台服务,不断提供沉浸、自在的游戏化社交体验。数据显示,Soul已拥有近3000万月活用户,其中Z世代用户占比超过78%。SoulX的推出将进一步丰富社交体验,持续探索大模型与垂类社交场景的深度融合。
-
在Soul上,用户可以通过AI苟蛋进行智能聊天,结合多模态能力,实现个性化沟通和文本式游戏互动。此外,SoulX还推出了AI聊天助理,辅助用户社交破冰,建立社交链接。Soul将继续推进AIGC在社交场景的深度落地,通过SoulX贯穿全链路,提升社交关系和内容链路的体验,加速多场景的体验优化和AI产品的落地。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-3
要点解析:
-
卡西欧近日在纽约公园大道432号总部举行的《The New York Auction:NINE》秋季拍卖中推出的G-Shock G-D001手表以400,050美元成交,全数捐赠慈善机构。手表设计独特,表链穿透式,表圈碎片从表壳一侧垂落,表耳处蜂巢状网状结构渗出,与表链连接。
-
卡西欧代表表示,他们利用AI模型处理手表跌落时的撞击数据,优化结构强度、材料特性和加工方法,生成最佳的3D模型。AI参与设计,与手动修改相结合,产生创意、原创形式、设计敏感度与功能性兼具的外部零件。
-
手表内部装有六频道无线电,可利用无线电波自动设定时间,由表盘周围的环形镓太阳能板供电。这一设计展示了卡西欧在40多年的G-SHOCK开发中的创新和技术突破。
原文链接:https://www.ithome.com/0/738/490.htm
要点解析:
-
11月24日,Yi-34B-Chat微调模型在AlpacaEval基准上以94.08%的胜率超越LLaMA2 Chat 70B和Claude 2,成为仅次于GPT-4的大语言模型,LMSYS ORG排行中与GPT-3.5性能持平。
-
在SuperCLUE中文大模型排行榜上,Yi-34B-Chat取得31.82%的胜率,晋升为“卓越领导者”,展现出在中文能力方面的强大表现。
-
零一万物团队通过创新的对齐策略和轻量化指令微调方案,以及关注数据量和质量,指令多样性与难度,风格一致性等方面的优化,成功提升了Yi-34B-Chat模型的性能,为大语言模型生态发展做出了贡献。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-15
要点解析:
-
荣耀终端计划推出自研的70亿参数端侧AI大模型和全新云服务,以深度融合MagicOS。已申请商标“荣耀魔方大模型”和“MAGIC 大模型”。
-
荣耀端侧AI大模型可达2-10B+,云端大模型可达10-100B+。荣耀Magic 6 Pro支持100W快充,已通过3C认证,将搭载卫星通信技术。
-
荣耀攻克卫星通信技术难题,计划在Magic 6系列手机中应用,提供体积最小、信号最稳、最省电的手机卫星通信体验。OPPO Find X7系列也将搭载同类技术。
原文链接:https://www.ithome.com/0/738/478.htm
要点解析:
-
3D生成领域的重要性在于通过文本提示实现高质量的3D人体外观和几何形状,具有虚拟试穿和沉浸式远程呈现等应用。传统方法繁琐,而新的HumanGaussian模型采用了结构感知的SDS和退火的负文本引导,以生成多样而逼真的高质量3D人体模型。
-
最近的研究将文本驱动的3D人体生成与模型如SMPL-X结合,通过显式的人体结构引导和梯度规范化,提高了效率和质量。HumanGaussian引入了结构感知的SDS和负文本引导,有效应对了之前方法中的不稳定性和视觉质量问题,实现了细粒度的人体生成。
-
HumanGaussian模型的核心方法包括结构感知的SDS,通过SMPL-X初始化3D高斯中心位置,并引入退火的负文本引导以提升对齐效果。与其他模型相比,HumanGaussian在渲染真实人体外观、连贯身体结构、视图一致性和细节捕捉等方面取得卓越性能,为文生3D领域带来了有效而快速的解决方案。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-7
要点解析:
-
图像超分辨率技术的发展旨在提高图像清晰度和真实性。然而,现有方法存在泛化和理解能力不足的问题。清华大学等机构最近提出了CoSeR模型,结合图像外观和语言理解,从低清图像中提取认知特征,实现了认知超分辨率,使模型能够理解低分辨率图像。
-
CoSeR模型采用类似于人脑系统二的思维方式,首先建立全面的图像认知,包括场景和物体特征,然后通过认知特征生成高质量参考图像。提出的"All-in-Attention"模块实现多源信息融合,提升超分效果。在多个测试集上,CoSeR相较于其他方法表现更佳,展现了在真实场景下的优越性能。
-
CoSeR的架构包括认知编码器、Stable Diffusion模型和"All-in-Attention"模块。CoSeR通过认知特征理解低清图像内容,生成参考图像,并在模型中注入多个条件,从而提升图像超分辨率的保真度和效果。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-4
要点解析:
-
爆料人Benit Bruhner Pro透露,三星One UI 6.1引入大量新功能,灵感源自谷歌Pixel系列。新功能包括基于用户输入生成AI壁纸,类似Pixel 8系列。AI助力图片编辑,可移动物体、扩展照片范围。
-
三星笔记应用迎来AI功能,自动格式化文本为易读项目符号列表,类似谷歌录音机应用。新增实时通话翻译功能,方便与海外人士交流,实现通话过程中实时语言翻译。全新语音聚焦功能消除背景噪音,提供清晰通话体验。
-
One UI 6.1带来多项改进,包括天气和人像锁屏效果、增强电池保护功能、更流畅的动画效果。预计随Galaxy S24系列一同发布,并逐步推送给其他三星手机。
原文链接:https://www.ithome.com/0/738/442.htm
要点解析:
-
Gemini AI包括三个版本:Gemini Nano、Gemini Pro和Gemini Ultra,适用于不同的用例。Gemini Pro目前可在Google Bard聊天机器人中免费使用,而Gemini Ultra是企业级版本,需付费。Gemini还提供API,非商业用户免费,商业用户需购买许可证。
-
Gemini Nano优化在移动设备和边缘服务器上运行,免费提供给Google Pixel 8系列用户。Gemini Pro在Google云服务器上运行,通过Bard聊天机器人免费使用,未来将在Google云平台中提供给企业用户。Gemini Ultra是最先进的版本,2024年才上线,可能通过Bard Advanced提供,具体定价未知。
-
免费的Gemini Pro提供广泛的AI功能,为用户提供了探索和实验的机会,但需注意限制和未来可能的付费模式。
原文链接:https://openaimaster.com/?p=28349
要点解析:
-
Meta公司以生成式AI为研发重点,最新推出Relightable Gaussian Codec Avatars方法,实现逼真、光线可调节的虚拟头像。该方法基于可学习辐射传输和3D高斯,捕获亚毫米级细节,包括皮肤、头发和眼睛等复杂材质。
-
该研究采用全新的可重新照明外观模型,以及可驱动化身技术,通过Gaussian Splatting技术渲染复杂的几何细节。独创的显式眼睛模型实现对眼部反射的注视控制,提高了眼睛反射的保真度。Relightable Gaussian Codec Avatars展现了在生成虚拟头像方面的卓越能力。
-
实验结果显示,该方法能够高保真地重建虚拟人物的表情、视图和光照,包括点光源和高分辨率环境图。在几何和外观表征的比较中,Relightable Gaussian Codec Avatars明显优于其他模型,尤其在建模皮肤细节和发丝方面表现卓越。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-5
要点解析:
-
MyMap.AI是一款强大的AI产品,专注于将文本想法转化为视觉内容,如思维导图和演示文稿。通过简单的聊天界面操作,适用于学生、教师、专业人士,以及任何需要快速转化想法为视觉内容的用户。提供多种工具,包括思维导图生成器、AI文章生成器、视觉头脑风暴工具等。用户可以根据兴趣制作自己的视觉内容。
-
使用流程简单,用户通过聊天界面输入想法,MyMap.AI将其转化为思维导图和演示文稿。通过实际案例,展示了从历史探索到竞争分析再到头脑风暴的全流程。产品设计注重简洁易用,黑色背景营造出探索太空的氛围。
-
MyMap.AI的创始人Victor在极短时间内取得了成功,通过Reddit、ProductHunt等渠道自发推广,吸引了大量用户。产品的成功源于创始人的审美品味、独特设计风格,以及对产品的不懈打磨。详细的创业经历和心得可以在“硬地骇客”播客中了解。
原文链接:https://juejin.cn/post/7311006602195091466
要点解析:
-
大模型技术的发展带来了模型治理的重要性。研究者在微调大语言模型时面临挑战,提高目标任务性能可能降低通用能力。智源研究院提出LM-Cocktail模型治理策略,通过融合多个模型和加权权重,实现低成本、高效利用模型资源的性能提升。
-
LM-Cocktail策略将不同模型在目标任务上的重要性计算出加权权重,融合模型优势,既提高目标任务性能又保持通用能力。这一创新方法适用于各种结构的模型,包括大语言模型和语义向量模型,同时省去了微调步骤,适用于缺乏标签数据或计算资源的情况。
-
实验结果表明,LM-Cocktail在目标任务上提高准确度的同时保持通用能力。通过计算融合比例,可以在其他任务上进一步提升性能,解决了传统微调方法导致通用能力下降的问题。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-13
要点解析:
-
MoE大模型是开源社区最新关注的焦点,Mistral发布的7B×8E MoE性能堪比LLaMA2 70B。该模型采用专家混合(MoE)架构,通过动态路由优化计算,每个专家处理特定任务,提高效率和性能。MoE的关键组件包括专家层、路由器和稀疏门控专家混合层。在Transformer中,MoE替代前馈层,实现更高效的计算和结果优化。MoE的优势在于处理复杂数据集、添加可学习参数、稀疏矩阵计算和并行计算,为大型语言模型提供关键技术支持。
-
MoE模型在大数据集中拥有显著优势,将任务分解为专家处理,有效利用每个专家的特长。稀疏门控专家混合层采用高效的门控机制,实现动态选择专家处理输入,提高计算效率。MoE与Transformer结合,每个输入通过MoE层动态路由到专家模型,专注于特定任务,降低推理成本。MoE不仅减少训练时间,还能在保持计算成本低的情况下扩展模型,为大型语言模型的发展提供重要支持。
-
Mistral的开源MoE模型引起了广泛关注,与谷歌等开源MoE相比,展示了其在大模型性能上的竞争力。MoE模型的架构设计考虑到灵活组合的专家级、张量级、流水线级和数据并行,解决了可训练参数众多的挑战。面对硬件挑战,NVIDIA的DGX GH200为MoE模型提供了强大支持,解决了跨节点通信瓶颈。MoE模型在指令微调、评估和硬件支持等方面面临挑战和机遇,展现了在大语言模型领域的广阔前景。
要点解析:
-
由厦门大学等机构提出的APE视觉感知基础模型具有强大的通用性,采用DETR框架构建,可执行广泛的语义理解任务。APE通过任务泛化,数据多样性和有效的描述提示三个方面提升实用性。它在训练过程中融合了来自不同数据源的视觉和文本信息,同时采用独特的查询提示和交互机制,使其在图像检测、分割和视觉定位等任务上表现出色。
-
APE模型采用独特的独立提示和句子级嵌入机制,以降低计算复杂度。其采用门控交互机制实现文本和视觉特征的融合,有效避免了过拟合问题。通过Region-sentence Alignment,APE实现了一次性检测和分割图像中的所有前背景区域,具备强大的物体识别和分割能力。同时,通过前景和背景粒度的统一对抗挑战,为模型训练提供了更一致的数据输入。
-
在大规模实验中,APE模型在160种测试集上取得了当前SOTA或竞争性的结果,而且无需微调即可应用于不同任务。其性能优势在各个检测、分割和指向性检测数据集上得到验证,展示了在视觉基础模型领域的显著进展。
要点解析:
-
Marker是一款强大的PDF转Markdown工具,类似高智能的抄写员。它通过六个阶段完成转换:准备、OCR、布局识别、列的检测和排序、公式/代码处理、文本清理与优化。使用PyMuPDF、Tesseract、LayoutLMv3、Nougat和T5等工具,Marker能将各种文档转化为格式整洁的Markdown文件,展示出色的性能。
-
通过LayoutLMv3,Marker识别文档元素,如表格、图表、公式等,并确定文档中列的顺序。Nougat处理公式图像转换成LaTeX代码,而T5负责文本后处理,清除噪声字符、整理内容。Marker在准确性、速度和内存使用方面均表现优异,是数字原生PDF和高品质扫描文档的理想选择。
-
尽管与商业解决方案相比,如Amazon Textract或Azure Document AI,Marker在处理一些特殊文档上可能遇到挑战,但作为开源文档AI的贡献者,它为自由开源软件领域做出了重要贡献,展现出强大的处理能力和潜力。
原文链接:https://juejin.cn/post/7311159008484048905
要点解析:
-
12月10日,NeurIPS国际顶会开幕,蚂蚁集团在研讨会上开源全链路因果学习系统OpenASCE,突破因果发现、效应估计和归因,支持大规模分布式因果学习。OpenASCE能处理亿级样本数据,广泛应用于信贷风控、营销优化和推荐场景,显著提升精度和效率。
-
OpenASCE根植于蚂蚁集团多年实践,支持分布式贝叶斯网络结构搜索和连续优化的因果发现,实现了业界独特的分布式因果提升树。蚂蚁集团通过开源超过20个工业级因果学习算法,成功降低了因果技术的工业应用门槛,广泛应用于内部,如信贷风控、营销和推荐领域。
-
技术开源是蚂蚁集团的重要战略,其在人工智能、数据库、云计算、隐私计算、安全可信等领域拥有自主可控的关键开源技术。开源影响力在国内排名前三,为支付宝提供核心技术支持。总体而言,蚂蚁集团在NeurIPS上展示了在因果学习和技术开源方面的卓越实力。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-17
要点解析:
-
印第安纳大学的研究人员提出了一高精度的全卷积神经网络,PepNet,用于从头肽测序。该模型在人类和非人类生物体的MS/MS数据中表现出色,尤其在与其他算法比较时具有显著优势。PepNet的运行速度也相较快,适用于大规模蛋白质组数据分析。
-
PepNet的性能在肽级和位置级精度方面明显优于当前性能最佳的从头测序算法,如PointNovo和DeepNovo。该模型通过训练使用300万个高能碰撞解离MS/MS谱图,对数据库搜索引擎未识别的光谱进行测序,为蛋白质组学中的肽识别提供了有效的补充。
-
该研究认为,PepNet的高精度肽测序能力将促进从头肽测序在蛋白质组学数据分析中的应用,提高效率,受益于生命科学研究。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-8
要点解析:
-
亚马逊上海人工智能研究院推出的BSChecker是一款细粒度大模型幻觉检测工具,解决了大模型生成幻觉的难题。该工具采用三元组粒度的幻觉检测框架,细致地验证大模型输出文本的真实性,避免了重复信息和偏见的问题。BSChecker还提供基准测试排行榜,覆盖15个主流大模型的幻觉检测结果,为用户提供不同任务场景的选择。
-
BSChecker的技术亮点包括更细的粒度,将大模型输出文本分解成知识三元组,并采用三元标签模式进行幻觉检测。这种方法不仅验证单个知识的真实性,还更准确地表达输出文本与参考文本之间的关系。工具根据输入大模型的上下文数量和质量划分了三种场景,进一步拓展了覆盖范围,使其适用于不同的任务和应用场景。
-
通过人工评估和自动排行榜,BSChecker展示了对大模型的细粒度幻觉检测的高效性。排名结果显示商业闭源大模型在真实性方面表现更好,而GPT系列大模型的真实性稳步提高。工具还可自动化幻觉检测框架,通过模型的性能表现和人工标注结果的高一致性,为用户提供有效的幻觉检测工具。
原文链接:https://www.jiqizhixin.com/articles/2023-12-11-10
要点解析:
-
本文介绍如何建立自己的AI团队,无需依赖OpenAI和LM studio。从设置llama-cpp-python到探索本地LLMs的强大功能,解锁AutoGen的全部潜力,不再依赖OpenAI API。
-
学习目标包括评估比较不同AI库和工具、使用llama-cpp-python作为OpenAI API的替代品以及应用AutoGen进行算法导师团队和金融图生成的实际用例。
-
AutoGen是一个统一的多代理对话框架,作为使用基础模型的高层抽象。文章还介绍了几个替代OpenAI API的库/工具,如llama-cpp-python、oobabooga、LM studio和fastchat。
要点解析:
-
Rizzle推出实时数据层exar.live,支持以增强现实环境渲染比赛。这项技术使得类似体育赛事的实时数据流式处理成为可能,极大地缩短了完成这类体验所需的时间和资金。
-
GTA VI预告泄露,官方发布需等到2025。尽管官方预告令人印象深刻,但在2025年之前,由于AI驱动的提升技术的迅猛发展,游戏画面可能会更加出色。期待Nvidia DLSS的创造性应用,未来18个月将会有怎样的进展呢?
-
AI工具推荐:Taplio可用于在LinkedIn上建立个人品牌,tldraw将草图转化为工作网站,Magnific.ai增强图像质量,Leonardo LiveCanvas实时AI设计工具,Pika.art实现文本到视频的更高控制。
原文链接:https://insidemyhead.ai/p/spatial-sports-gta-vi-google-gemini