本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计123336 字,简读后为10058字,阅读时间为25分钟,为您提高阅读效率为1232%
- OpenAI 工程师自曝开发 ChatGPT 仅用时 8 天 | RTE 开发者日报 Vol.108 🚀📰
- 去哪儿 & 华为云全面合作签约,深入云计算、AI、数据服务等领域 🌐💻
- 十余篇微软论文在 NeurIPS 2023 上受关注,做精彩演讲 📄👏
- 微软宣布为DirectX机器学习框架DirectML明年添加NPU支持,适配英特尔酷睿 Ultra 等 AI 芯片 🎮💻
- AI 视频 | NeverEnds AI 视频生成领域的又一匹黑马!AI 视频太卷了~ 🤖🎥
- GitHub Copilot:让开发编程变得像说话一样简单 💻🤝
- DARPA的无声交流项目 🤐🔬
- 数智上海 2023 峰会“数智说”算力新基建论坛圆满举办 🌐🏛️
- 第四范式、南洋理工联合研究成果入围国际顶会 SIGMOD 2024 🏆🔍
- ChatGPT构建离不开PyTorch,LeCun言论引热议,模型厂商不开放权重原来为此 🔥💬
要点解析:
-
在AI领域,开源引发了激烈讨论。开源支持创新,但模型权重安全也备受关切。著名科学家Yann LeCun和其他专家围绕开源的必要性展开论述,强调开源对于行业创新和发展的价值。
-
对比开源和封闭模型,文章深度探讨模型权重的重要性。权重作为神经网络学习和预测的关键机制,受到公司重视,特别是在防止技术被不良方使用方面。一些公司如Anthropic和OpenAI采取措施确保模型权重的安全,响应政府要求报告模型权重情况。
-
一份报告指出AI模型权重泄露的潜在威胁,包括物理访问、凭证破坏和供应链攻击等40种攻击向量。开源模型权重的风险引起争议,一些专家支持开放透明,而另一些担忧可能带来的安全隐患。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-15
要点解析:
-
GPT-4植入Office全家桶,实现PPT、Excel文档秒生成,开创新工作方式。
-
AI助手GitHub Copilot在代码管理、版本diff方面展现强大作用,提升开发效率。
-
Copilot集成开发环境,智能生成代码片段,加速开发者工作流程,成为划时代产品。
原文链接:https://juejin.cn/post/7313387525821104167
要点解析:
-
微软加强安卓版 Edge 浏览器视频摘要功能,推出“视频摘要快速模式”。用户可快速了解YouTube等视频平台上的重要内容。近期,Edge的Canary版引入视频摘要功能,通过Copilot获取视频信息。用户反馈生成的摘要模糊,微软通过“视频摘要快速模式”提升响应速度,并能提供更长的视频信息。
-
用户可在安卓版Edge浏览器的Canary版中启用“视频摘要快速模式”。更新至最新版本后,访问edge://flags,启用该功能,重新启动浏览器。在支持的视频网站(如YouTube)播放视频,点击Copilot图标,选择“生成视频摘要”即可。
-
微软致力解决Edge生成摘要模糊问题,通过该新功能加速响应速度,提供更详细的视频信息,提升用户体验。
原文链接:https://www.ithome.com/0/739/979.htm
要点解析:
-
Cami AI是一款利用人工智能和机器学习改善客户体验的平台。评估其安全性的关键因素之一是了解其数据隐私和安全政策。Cami AI采用行业标准的加密协议保护数据传输和静态数据,实现对敏感客户信息的加密,以防止未经授权的访问。此外,平台强调严格的访问控制,仅在必要的情况下向授权用户提供客户数据,并要求员工经过背景调查和签署保密协议。Cami AI还宣称其数据中心通过了SOC 2认证,这是由美国注册会计师协会发布的经过审核的安全标准,证明了其数据安全的制度化政策。除了SOC 2合规性外,Cami AI定期进行内部和外部安全审计,以识别和解决基础设施、平台、代码和内部政策的任何漏洞。
-
此外,除了隐私和安全之外,评估Cami AI安全性的其他因素包括其服务条款、与WhatsApp的集成、人工智能模型的风险以及人工智能与人类互动可能发生的错误。用户应仔细审查和理解服务条款,注意WhatsApp与Cami AI之间的数据流,以及Cami AI是否公开并解决人工智能系统固有的风险。对于人工智能与人类互动可能产生的错误,Cami AI应清晰传达人工智能的局限性,以便用户了解在哪些方面仍然需要人类判断。
-
总体而言,基于公开信息,Cami AI似乎采用了标准的安全最佳实践,如加密和访问控制,以保护客户数据。然而,对其安全性的明确评估需要更深入地了解审计、人工智能风险、人工监督保障等问题。在没有这种更深入的理解的情况下,组织应对Cami AI进行全面的风险评估,以确定其当前的安全和责任机制是否适用于其客户数据的部署。评估声明是重要的,但真实世界的表现才是建立对新技术(如基于人工智能的客户平台)信任的关键。
原文链接:https://openaimaster.com/?p=29099
要点解析:
-
Moemate AI是Webaverse推出的虚拟AI助手,提供实时屏幕阅读、任务自动化、编码辅助、自然对话等功能。然而,其对用户屏幕和活动的访问引发了隐私和数据安全的重要问题。
-
Moemate AI的关键能力包括实时屏幕阅读、任务自动化、编码辅助、自然对话、个性化和娱乐功能。尽管提供了个性化的AI助手来增强数字生活的多个方面,但随之而来的是隐私的妥协。
-
尽管Webaverse声称与第三方分享的数据已匿名化以进行改进,但由于Moemate AI分析屏幕、记录聊天并收集用户偏好,个人数据的去向成为一个重要问题。用户在隐私风险与收益之间需要做出权衡,决定生产力提升和增加乐趣是否抵消了数据分享的风险。
原文链接:https://openaimaster.com/?p=29110
要点解析:
-
美国国防高级研究计划局(DARPA)推出的Silent Talk计划旨在开发一种革命性的脑机接口,使用户能够仅通过思维进行沟通。通过检测“预言”脑信号并将其转化为文字,该计划旨在实现一种技术辅助的心灵感应通信。
-
该系统通过使用脑电图(EEG)研究被试在言语中的独特脑波模式。算法分析信号,寻找在言语之前立即发生的神经元激活。
-
该计划目前处于早期研究阶段,但已取得有望的结果,能够解码与个别词语相关的脑信号,如“右”和“左”。虽然对于更复杂的词汇仍然难以解释,但早期发现已超出预期。科学家还发现了一些测试对象之间脑波模式的有希望的普遍性。
原文链接:https://openaimaster.com/?p=29089
要点解析:
-
随着OpenAI将 gpt-3.5-turbo 升级到 gpt-3.5-turbo-1106,token长度增至16K,是之前的四倍。embedding方式因此更为实用,尤其是 gpt-4-1106-preview 模型长度可达128K,返回最长4096,适用于大部分场景。
-
注册FELH AI账号,进入[个人知识库]录入自定义AI问答问题,示例以《中华人民共和国婚姻法》为例,共八章27条。
-
向量化工具选择了Zilliz、QDrant、Pinecone,免费服务支持OpenAI的1536维向量约50万条数据。开发者需注意数据库备份以防服务不可用。
原文链接:https://juejin.cn/post/7313414896783507465
要点解析:
-
信息获取被视为全球组织和政府赋予人类的基本权利之一。然而,尽管至少有71个国家规定提供手语服务,大多数信息资源(如搜索引擎或新闻网站)仍然以书面语言呈现。手语是全球约7000万聋哑人士的主要交流手段,也被聋哑人的家人、朋友和同事使用。
-
尽管全球有300多种手语,美国手语(ASL)是美国主要使用的手语。对许多聋哑人来说,英语和其他书面语言实际上是次要语言。强制要求使用手语的人在英语等书面语言中获取信息,迫使他们使用一种不同、可能不流利的语言。为手语输入和输出适应文本资源引入了重大技术挑战。自动识别或翻译手语可以帮助扩大获取信息的范围,但由于缺乏高质量的数据,AI开发一直受阻。
-
为了使技术系统更易于残障人士使用,微软研究高级研究员Danielle Bragg领导着构建更好支持手语的系统的努力。该团队设计了一个新颖的手语众包平台,名为ASL Citizen,介绍了第一个社区源数据集,推动了独立手语识别的进展。该平台通过Web收集,打破了先前数据集的限制,使得手语AI的发展取得了显著进展。
原文链接:https://www.microsoft.com/en-us/research/blog/tackling-sign-language-data-inequity/
要点解析:
-
我国算力基础设施建设持续加速,为数字化转型提供坚实支撑。数智上海 2023 峰会的算力新基建论坛聚焦于这一重要议题。上海作为信息化发展的领头羊,通过坚实的算力基础设施和丰富的应用场景,致力于建设具有国际影响力的算力之都。
-
行业领袖齐聚论坛,从智算服务、智慧城市、智能算力等多个角度深入探讨上海在数字化转型中的实践。云赛智联、中国通信服务、联通(上海)、中科曙光等企业代表分享了在算力基建领域的经验与思考,强调算力服务的关键在于发展一体化算力服务,将算力持续转化为生产力。
-
峰会还关注了AI芯片行业现状与发展趋势,强调算力需求将持续增长,从人力驱动演进到算力驱动。数字化和智能化的深入推进,企业对算力服务多样化和复杂化的需求不断增加,为算力基建提出了新的挑战。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-23
要点解析:
-
微软研究AI4Science团队推出了MatterGen,一款能够实现广泛属性引导的材料设计的生成模型。传统上,材料科学的核心挑战是发现具有期望性质的材料,而MatterGen直接生成具有所需属性的新型材料,类似于DALL·E 3处理图像生成的方式。
-
MatterGen是一个专为生成新型稳定材料而设计的扩散模型。它还具有适配器模块,可进行微调以生成符合广泛约束的材料,包括化学、对称性和性质。与SOTA模型(CDVAE)相比,MatterGen生成的结构更稳定(≤ 0.1 eV/atom的训练+测试数据凸包内),独特且新颖,而且距离能量局部最小值更近17.5倍。MatterGen可以通过无分类器的引导直接生成具有所需磁性、电子、机械性能的材料。通过基于DFT的工作流程验证生成的材料。
-
此外,MatterGen还能持续生成满足目标性质的新型材料,如高体积模量,而传统的筛选方法由于数据库中材料耗尽而停滞。MatterGen可以找到超过250种体积模量>400 GPa的材料,而参考数据集中仅有2种。MatterGen还能生成给定目标化学体系的材料,在具有MLFF过滤的替代和随机结构搜索基线中表现更好,尤其是在具有挑战性的5元素系统中。最后,MatterGen解决了多性能材料设计问题,找到了低供应链风险磁体。它提出的结构具有高磁密度和低供应链风险的化学组成。
原文链接:https://www.microsoft.com/en-us/research/blog/mattergen-property-guided-materials-design/
要点解析:
-
近期,多家厂商宣布支持鸿蒙原生应用,包括小红书、微信、支付宝、米哈游、美团、携程等。这是因为华为即将推出HarmonyOS NEXT版本,不再兼容安卓APP,只支持鸿蒙APP,标志着华为系统将彻底独立自主。
-
智能手机已演变为移动互联网终端,APP至关重要。对于谷歌而言,各大厂商开发鸿蒙专版意味着鸿蒙系统正式开始替代安卓。尽管华为鸿蒙生态尚不完善,但一旦形成自己的生态,将成为真正的竞争对手,谷歌不愿见到。
-
自2019年发布鸿蒙1.0至HarmonyOS NEXT,华为花费4年多时间逐步掏空安卓,彻底打破依赖。鸿蒙的成功将取决于华为能否迅速建立起完善的生态系统,实现从掏空安卓到最终击败安卓的转变。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201715-8120-30620219.html
要点解析:
-
GPT-4植入Office全家桶,实现PPT、Excel文档秒生成,开创新工作方式。
-
AI助手GitHub Copilot在代码管理、版本diff方面展现强大作用,提升开发效率。
-
Copilot集成开发环境,智能生成代码片段,加速开发者工作流程,成为划时代产品。
原文链接:https://juejin.cn/post/7313387525821104167
要点解析:
-
近期微软研究团队发表论文,将大型语言模型(LLMs)与静态分析相结合,用于Rust语言的形式验证框架Verus的自动证明合成。研究中,GPT-4在Few-shot设置下展示了在生成Rust代码不变量、断言和其他证明结构方面的卓越逻辑能力。研究人员开发了基于GPT-4的原型,通过迭代查询GPT-4并与轻量级静态分析结合,将验证任务分解为多个较小的任务。在20个矢量操作程序上的评估表明,该原型显著减少了编写入门级证明代码的人力投入。
-
微软研究人员提出了重新思考网络测量的论文,强调用户提供了丰富的、尚未充分利用的隐式和显式信号,可以补充和扩展传统测量方法的覆盖范围。隐式反馈通过用户操作间接推断网络性能和用户体验的质量。研究人员分析了捕获隐式反馈的示例场景,包括通过用户在大规模会议服务中静音/取消静音麦克风或打开/关闭摄像头等操作。这些技术补充了现有的测量方法,开启了一系列研究方向,涵盖从重新思考测量工具到设计以用户为中心的网络系统和应用。
-
在技术更新方面,研究人员介绍了基于Holoportation™通信技术的实时3D远程医疗系统,用于促进与复杂重建患者的会诊。该系统在2022年11月的一个概念验证临床中应用于加纳,涉及英国Canniesburn整形外科单位和加纳Korle Bu Teaching医院的国家整形外科和烧伤中心。通过对4名加纳患者的追踪,以及13名参与者(4名患者、4名加纳临床医生、5名英国临床医生)的反馈,研究显示这一创新技术在低中等收入国家有潜力通过提高手术计划、与患者进行明智的讨论、专家对复杂病例的共识以及促进与远在千里之外的专业人员的交流来增强海外手术访问。
原文链接:https://www.microsoft.com/en-us/research/blog/research-focus-week-of-december-4-2023/
要点解析:
-
英特尔发布酷睿Ultra移动处理器和第五代至强可扩展处理器,同时首次展示Gaudi3加速器,用于深度学习和大规模生成AI模型。
-
英特尔CEO帕特・基辛格表示,Gaudi3 AI加速器将于明年发布上市,采用台积电5nm制程,性能优越,预计挑战英伟达H200。
-
2025年前,英特尔计划将Falcon Shores GPU和Gaudi整合为一款产品,展示其在AI硬件领域的长远规划。
原文链接:https://www.ithome.com/0/739/989.htm
要点解析:
-
华尔街见闻和中欧国际工商学院主办的第六届[Alpha峰会]于上海成功举办,吸引了全球金融、经济、科技领域的专家学者。峰会探讨了2024年全球宏观经济、各大类资产和投资热点,重点关注财政和货币政策前景,以及A股、港股、美股、中美债市等资产的未来走势。
-
各位嘉宾就不同领域发表看法,如美股可能处于泡沫中,A股已经达到“周期性底部”,地产调整接近尾声,明年中国GDP增长有望达到5%等观点。他们还提到了新兴市场、外部环境、金价、油价、人民币汇率等因素对投资的影响。
-
随着专家们对各类资产展望的深入分析,峰会强调了财经政策、利率走势、新旧动能转换等方面的不确定性,为投资者提供了更清晰的投资方向。
原文链接:https://awtmt.com/articles/3704465
要点解析:
-
英特尔通过“极客归来”活动展示了处理器技术的升级,如Gaudi 3芯片,采用4制程工艺,推动至强处理器在2023年迎来两代升级。至强处理器在软件平台双兼容下,实现了快速升级获得AI能力的机会,每个内核具备AI加速功能,成功运行高达200亿参数的模型推理。
-
AI在艺术领域的应用引起关注,以生成式AI技术创作的齐白石风格的风景画展现了技术与艺术的结合。AI能够帮助艺术家实现构想,如在音乐演唱会的舞美生成和独立游戏《Proxi》的创作。生成式AI为艺术创作提供了关键的价值,节约了创作者的时间,解放了创作的枷锁。
-
英特尔的“AI Everywhere”产品展示了端侧AI的多种用例,虽然对一般用户不太直观,但对技术爱好者意味着硬件支撑梦想的可能性。帕特·基辛格的热情彰显了对技术演进的本能追求,同时AI为艺术家和创作者提供了更多专注于创作的机会,实现理想。
原文链接:http://www.fromgeek.com/telecom/618537.html
要点解析:
-
新泽西州州长Phil Murphy和普林斯顿大学校长Christopher Eisgruber今日宣布,将与新泽西经济发展局合作,建立一个新的人工智能中心,汇聚人工智能研究人员、行业领袖和初创公司。该中心旨在推进研发、提供加速器空间、推动道德人工智能的使用,并促进职业发展,包括为超过61,000名州政府雇员提供人工智能技能培训。
-
普林斯顿大学人工智能中心的消息紧随新泽西州于十月启动的州人工智能任务 force,并在十一月宣布推动州政府员工负责任使用人工智能的新政策之后。Murphy称这是一个“三脚凳”方法,一个脚是经济发展,第二个是围绕人工智能的影响,包括监管责任,第三个是围绕培训州政府工作人员和改善向州居民提供政府服务的追求。
-
Eisgruber表示,人工智能中心正值“关键时刻”,将帮助新泽西在就业和研究方面成为人工智能领域的领导者。他解释说,这将是一个更大的倡议,希望使新泽西和这个特定的中心成为该领域的公认领导者。中心的计划在推出后将会是灵活的,但在人工智能快速发展的世界中,时间至关重要。
原文链接:https://venturebeat.com/ai/new-jersey-governor-and-princeton-president-tout-plans-for-ai-hub/
要点解析:
-
字节跳动使用OpenAI技术开发语言模型,引起封禁争议。公司回应强调遵守OpenAI服务条款,解释早期探索中的实验性项目,并加强对模型使用的内部规定和检查。
-
小米董事长雷军表示,小米汽车研发投入超过100亿,强调挑战可控。他分享了首辆车研发投入和团队规模,并表达对项目的必胜信念。
-
OpenAI工程师透露ChatGPT仅用8天开发完成。团队在一年前报名演示研究预览,用Next.js和大模型构建ChatGPT,意外引发全球AI风暴。Google DeepMind也使用AI解决数学难题。
原文链接:https://juejin.cn/post/7313738877588602920
要点解析:
-
一些ChatGPT用户在周末报告了一些引人猜测的回复,暗示它正在使用新的AI模型"GPT-4.5-turbo"。
-
GPT是OpenAI的核心,是一个基于海量数据训练的大型语言模型,用于指导ChatGPT对问题的回答。最新版本GPT-4于三月发布,被宣称在多个基准测试中具有与人类相媲美的性能。
-
有用户报告ChatGPT性能突然提升,是否因为新的GPT-4.5或对GPT-4的改进,仍是未知之数。OpenAI的CEO Sam Altman对GPT-4.5的泄露进行了否认。
原文链接:https://www.businessinsider.com/openai-chatgpt-gpt4-gpt5-llm-chatbot-hallucination-2023-12
要点解析:
-
人工智能迎来大模型时代,英伟达在生成式AI领域崭露头角。其GPU成为全球最求之物,市值一度超过1万亿美元,仅次于科技巨头苹果、微软、谷歌和亚马逊。英伟达数据中心业务蓬勃发展,营收增长迅猛,今年第三财季数据中心收入达145亿美元,同比增长279%。
-
相比之下,英特尔面临业绩低迷和PC市场下滑的困境。在数据中心和人工智能领域,英特尔与英伟达及AMD竞争激烈,营收下降8%,市值1946亿美元。英特尔通过推出第五代至强可扩展处理器等一系列AI产品,试图加速在人工智能市场的竞争,但市值差距依然巨大。
-
生成式AI的浪潮推动英伟达成为大赢家,市值高企,提供全方位的AI解决方案。随着企业加速向智能化升级,英伟达展现出强大的竞争力,将AI技术广泛运用于各行各业,引领着人工智能的未来。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30620207.html
要点解析:
-
百度在2023年稳步增长,AI技术实力显著,但业绩中规中矩。其智能云和大模型成为关键发展方向,尤其在面向企业客户和开发者方面取得重要进展。然而,百度的电商业务表现谨慎,搜索业务面临挑战,用户规模逐渐下滑。总体而言,百度正在全速冲刺进入AI时代,但业务转型面临一系列挑战。
-
百度AI技术产品化成为核心战略,文心一言大模型在C端取得成功,但商业化效果尚未明显。百度智能云千帆大模型平台服务企业客户超过1.7万家,成为产业化落地标杆。然而,挑战在于如何将强大的技术转化为营收。百度智能云和飞桨全面打通大模型,与高校和研究机构合作,致力于培养更多AI技术学习者。
-
百度在2023年进行了战略纵深调整,将最优资源倾斜给AI业务,特别是智能云和大模型。自动驾驶让出C位,业务重心围绕AI调整。百度在电商领域谨慎投入,对搜索业务的冲击需通过AI化搜索来抵御。总体而言,百度正全力冲刺AI时代,但AI产品化仍是关键挑战。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30620210.html
要点解析:
-
微软赞助第37届神经信息处理系统大会(NeurIPS 2023),汇聚了机器学习、神经科学、统计学、优化、计算机视觉、自然语言处理等领域的专家。微软在NeurIPS 2023上有100多篇被接受的论文和18个研讨会。
-
微软的研究人员在NeurIPS 2023的口头报告中提出了《桥接离散和反向传播:直通和更多》一文,介绍了ReinMax,该方法扩展了反向传播的能力,用于估计包含离散变量采样的模型的梯度。实验证明,ReinMax在性能上持续显著优于现有技术,并揭示了“直通”方法实际上是一种对于一般多项式情况的可行一阶逼近。此外,微软还主导了基于人类反馈学习的MineRL BASALT竞赛,以及对GPT模型的全面评估。
-
《PDE-Refiner: 实现具有神经PDE求解器的准确长期回滚》提出了PDE-Refiner,通过多步细化过程实现对所有频率成分的准确建模,解决了神经PDE解算器在长时间预测中的不稳定性问题。该模型在复杂流体动力学等挑战性基准测试中表现出色,提高了数据效率,并能够准确估计模型的预测不确定性。
要点解析:
-
LobeChat是一个开源的高性能聊天机器人框架,支持语音合成、多模态和可扩展的插件系统。它允许用户在本地部署私人ChatGPT,提供更美观、高效和有趣的AI体验。项目通过支持语音技术、扩展插件和主题模式等特性,增强了使用openai的能力。
-
该项目提供Vercel自托管版本和Docker镜像,用户可以在几分钟内构建自己的聊天机器人,无需专业知识。通过Vercel部署,用户可以轻松绑定自定义域名,而Docker部署则适用于在私有设备上运行LobeChat服务。
-
LobeChat的特点包括GPT视觉认知、TTS和STT语音会话、Function Calling插件系统、助手市场、PWA渐进式Web应用、移动设备适配和主题模式选择。它汇聚了精心设计的助手,提供无缝体验,并在设备环境下适配移动设备。
原文链接:https://juejin.cn/post/7313242116771250202
要点解析:
-
美国印第安纳大学团队近日成功构建了一混合生物计算机,将实验室培养的人脑组织与传统电子电路相结合,形成名为Brainoware的系统。该系统以78%的准确率完成语音识别任务,成为人工智能领域的创新。研究旨在架起人工智能和类器官之间的桥梁,通过大脑类器官内的生物神经网络进行计算,拓展人工智能的可能性。
-
Brainoware利用大脑类器官(组织束)模仿人体细胞,其中干细胞分化为神经元。研究人员将类器官与数千电极连接,实现脑组织与电路的互联。通过将输入信息转换为电脉冲模式,机器学习算法解码反应,该系统在语音识别上表现卓越,准确率达到78%。
-
该技术有望应用于人工智能系统,或为神经科学研究提供改进大脑模型的基础。虽然面临活细胞计算的挑战,但该研究为拓展大脑模型的能力、模拟神经系统疾病提供了新思路。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-16
要点解析:
-
第4届全国人工智能大赛AI+视频质量评价赛道冠军由火山引擎多媒体实验室的"Patch-based Multi-level Swin Transformer for High Resolution Video Quality Assessment"算法摘得。该算法在复赛和决赛中始终保持技术领先,成为行业的标杆。全国人工智能大赛自2019年创办以来,已发展成具有国际视野和广泛影响的赛事,本届大赛设立的AI+视频质量评价赛道成为全球首个专注于4K超高清视频压缩质量评价的人工智能赛道。这一赛道的要求旨在挖掘准确性高、鲁棒性强的人工智能评价算法,以提供卓越的视频传输和分发质量,为用户提供卓越的观看体验。
-
随着超高清视频的兴起,火山引擎多媒体实验室的团队在面对传统视频质量评价算法在超高清PGC视频场景下表现不佳的问题时,提出了一种创新的算法。该算法名为"Patch-based Multi-level Swin Transformer for High Resolution Video Quality Assessment",通过图像块输入策略感知局部质量变化,采用帧级强监督训练策略来充分扩充训练数据,并引入多层级特征融合策略以提升质量感知能力。该算法不仅表现优越,且在计算代价极低的情况下完成对超高清PGC视频的质量评价,最终在1624支队伍中脱颖而出,荣获冠军。
-
火山引擎多媒体实验室是字节跳动旗下的研究团队,专注于多媒体领域的前沿技术。他们的创新算法和解决方案已广泛应用在抖音、西瓜视频等产品的多媒体业务中,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,赢得了数项国际级技术赛事冠军、行业创新奖和最佳论文奖。
原文链接:https://juejin.cn/post/7313507274869588031
要点解析:
-
字节跳动的大语言模型项目[种子计划]因使用 OpenAI 技术而被曝光,违反了 OpenAI 服务条款,导致账号禁用。该项目在早期阶段秘密使用 GPT 技术,但几个月前被要求停止。字节跳动否认不当行为,称已移除 GPT 生成的数据,而微软则强调 AI 解决方案的访问必须经过批准。
-
OpenAI 表示字节跳动账户已暂停使用,要求他们符合政策或终止账户。字节跳动回应强调遵守使用条款,并与 OpenAI 沟通澄清。公司自今年初在实验性项目中使用 GPT API,但在4月停止,并多次强调对规范的遵守。
-
生成式AI领域进步迅速,字节跳动通过大模型平台和自研模型展示技术实力。然而,随着技术发展,安全和隐私等问题引发关切。字节跳动对大模型的营销相对低调,但其[豆包]产品在 AI 对话领域的推进仍然备受关注。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-18
要点解析:
-
近日,第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果被SIGMOD 2024录取。研究主题为乱序数据流中实现主动误差补偿的流式窗口连接,涉及流窗口连接(SWJ)操作在金融、欺诈检测和传感器网络等领域的实时应用。
-
SWJ面临无序数据流挑战,传统处理涉及缓冲数据以提供全面窗口内数据视图,但延迟成本较高。研究团队提出主动误差补偿(PECJ)方法,通过预测未来无序数据提高Join准确性,创新性地在不增加延迟的情况下提升准确度。
-
第四范式在高时效性、高准确性要求场景中发现数据流时效性问题,如金融反欺诈。传统方法舍时效保准确或保时效舍准确,而PECJ通过变分推断方法在保持系统延时不大幅增加的情况下,利用预测数据提升系统判断准确性。在基准测试平台中,PECJ将错误率从47%降至1%。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-21
要点解析:
-
NeverEnds是一款在AI视频生成领域崭露头角的工具,具备高质量和创造性。使用Discord或官网两种方式体验,生成文生视频需输入提示词、负向提示词、视频比例、时长,而生成图生视频需上传图片并输入比例。官网方式比Discord多样化,包含风格选择、HD开启等选项。
-
该工具在前几期介绍的AI视频工具中脱颖而出,展现了强大的文生成和图生成能力。无论是在Discord还是官网体验,用户都能享受到创意十足的视频生成过程,满足不同需求。
-
NeverEnds的黑马地位在AI视频工具中备受瞩目,其简单易用的特点使得用户能够快速上手,生成高质量有趣的视频内容。
原文链接:https://juejin.cn/post/7313742254144684068
要点解析:
-
微软宣布,明年初将为DirectML机器学习框架添加NPU支持,以适配内置NPU的芯片,包括英特尔酷睿Ultra等。
-
DirectML框架专注于机器学习,可直接访问GPU进行深度学习,提供帮助于图片降噪、游戏预渲染、光线追踪等AI参与计算的场景。
-
支持NPU后,开发者可通过ONNX Runtime等API,利用芯片内置的NPU运行AI模型,改善模型运行效能。明年初,DirectML将直接支持酷睿Ultra芯片,成为Windows平台首款支持DirectML的NPU。
原文链接:https://www.ithome.com/0/740/014.htm
要点解析:
-
字节跳动的大语言模型项目[种子计划]因使用 OpenAI 技术而被曝光,违反了 OpenAI 服务条款,导致账号禁用。该项目在早期阶段秘密使用 GPT 技术,但几个月前被要求停止。字节跳动否认不当行为,称已移除 GPT 生成的数据,而微软则强调 AI 解决方案的访问必须经过批准。
-
OpenAI 表示字节跳动账户已暂停使用,要求他们符合政策或终止账户。字节跳动回应强调遵守使用条款,并与 OpenAI 沟通澄清。公司自今年初在实验性项目中使用 GPT API,但在4月停止,并多次强调对规范的遵守。
-
生成式AI领域进步迅速,字节跳动通过大模型平台和自研模型展示技术实力。然而,随着技术发展,安全和隐私等问题引发关切。字节跳动对大模型的营销相对低调,但其[豆包]产品在 AI 对话领域的推进仍然备受关注。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-18
要点解析:
-
HeyCami AI在WhatsApp上的整合为用户提供了便利和可访问性。作为全球用户超过20亿的最广泛使用的消息平台之一,WhatsApp为用户提供了与HeyCami AI交互的熟悉环境。通过直接将AI机器人集成到WhatsApp中,HeyCami AI成为庞大现有用户群体智能手机上的一个可用功能。不论是在Android还是iOS设备上,已经在积极使用WhatsApp的智能手机用户可以简单地启用HeyCami AI并立即开始使用,无需切换应用程序或学习新界面。
-
HeyCami AI通过WhatsApp的直观界面可访问,但在引擎盖下带有一些先进的人工智能技术。这包括集成GPT-4、Midjourney和Whisper等模型,以实现创新功能。GPT-4使HeyCami AI能够理解自然语言,进行微妙的对话,并生成类似人类的文本响应。Midjourney为机器人在创建原始图像和插图方面的艺术能力做出贡献。最后,Whisper提供卓越的语音识别和音频转录能力。将所有这些功能结合到一个机器人中,为用户提供了一个多才多艺的AI助手,可以在其WhatsApp聊天中将文本转化为图像,将长语音笔记转化为文本,提出对话中的想法等等。
-
HeyCami AI通过WhatsApp的设置过程简单而直接。用户可以访问HeyCami AI的网站并导航到WhatsApp集成页面。点击“在WhatsApp上发送消息”按钮会提示应用程序打开与HeyCami AI帐户的聊天。在友好的欢迎消息之后,HeyCami AI发送简单的逐步说明以链接帐户。这涉及与HeyCami AI共享用户的WhatsApp号码以完成集成。一旦设置完成,HeyCami AI将出现在用户的WhatsApp中,方便访问开始聊天或使用其许多AI功能。定期通过WhatsApp直接部署的改进和更新也确保了平稳、无问题的体验。
原文链接:https://openaimaster.com/?p=29107
要点解析:
-
英特尔发布酷睿Ultra移动处理器和第五代至强可扩展处理器,同时首次展示Gaudi3加速器,用于深度学习和大规模生成AI模型。
-
英特尔CEO帕特・基辛格表示,Gaudi3 AI加速器将于明年发布上市,采用台积电5nm制程,性能优越,预计挑战英伟达H200。
-
2025年前,英特尔计划将Falcon Shores GPU和Gaudi整合为一款产品,展示其在AI硬件领域的长远规划。
原文链接:https://www.ithome.com/0/739/989.htm
要点解析:
-
随着OpenAI将 gpt-3.5-turbo 升级到 gpt-3.5-turbo-1106,token长度增至16K,是之前的四倍。embedding方式因此更为实用,尤其是 gpt-4-1106-preview 模型长度可达128K,返回最长4096,适用于大部分场景。
-
注册FELH AI账号,进入[个人知识库]录入自定义AI问答问题,示例以《中华人民共和国婚姻法》为例,共八章27条。
-
向量化工具选择了Zilliz、QDrant、Pinecone,免费服务支持OpenAI的1536维向量约50万条数据。开发者需注意数据库备份以防服务不可用。
原文链接:https://juejin.cn/post/7313414896783507465
要点解析:
-
随着ChatGPT、GPT-4等大型语言模型的崛起,prompt工程变得愈发重要。OpenAI最近发布了提示工程指南,提供六项策略以优化GPT-4等LLM的输出。首要策略是清晰指导,用户需详细说明期望,减少模型猜测,例如要求专业级写作。
-
第二项策略是提供参考文本,以减少模型的错误输出。用户可指示模型使用或引用参考文本,提高回答的准确性。第三策略建议将复杂任务分解为简单子任务,类似软件工程的模块化设计,提高模型处理复杂问题的效率。
-
策略四主张给模型时间思考,通过引导模型推理过程,隐藏思维链,防止过早得出结论。第五策略建议使用外部工具弥补模型不足,如文本检索系统或代码解释器。最后,策略六强调系统测试变化,确保提示修改在更广泛的示例上表现良好。
原文链接:https://www.jiqizhixin.com/articles/2023-12-18-17
要点解析:
-
基于前沿模型的引人注目能力,包括抽象、概括和跨多个领域的组合能力。即使经验丰富的AI研究人员也对使用简单的零提示来引导模型的能力印象深刻。除了基本的开箱即用提示之外,我们还在探索新的提示策略,如我们在Medprompt工作中展示的,以唤起专家的力量。
-
今天,我们分享了有关Medprompt和其他引导前沿模型方法的信息,这包括在GitHub上的promptbase,这是一个资源集合。我们的目标是为工程师和客户提供信息和工具,以唤起基础模型的最佳性能。我们将首先包含能够使用我们在此处提供的提示策略复制我们结果的脚本。在接下来的几周内,我们将添加更复杂的通用工具和信息。
-
作为前沿模型能力的一个例子,并且展示如何通过引导GPT-4达到最新技术(SoTA)结果,我们将回顾Google选择用于评估Gemini Ultra的基准上的最新结果。我们的端到端探索,提示设计和性能计算仅花了几天时间。