本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计133133 字,简读后为8787字,阅读时间为22分钟,为您提高阅读效率为1514%
- 🤖 华为大哥哥的新玩具来啦!可以变出更清晰的图片哦!🖼️
- 🌍 大科学家说啦:大语言模型也有搞不定的时候!🌍
- 📽️ 腾讯大朋友出了个新东西!用短视频来帮助长视频看得更懂!📽️
- 🤏 哄ChatGPT帮忙的100种方式出炉!快来看看吧!🤏
- 👨🏫 大教授的第一节课讲了什么?快来听听!👨🏫
- 💪 奥特曼又回来啦!经过了重重调查,他终于被认可了!💪
- 🤖 小机器人要进化啦!这次可以用扩散模型做更多事情了!🤖
- 🦾 谷歌又出新发明!可以帮助小机器人更好地感知世界了!🦾
- 🧐 大模型也想来玩剧本杀啦!看看它们能不能推理出凶手!🧐
- ⚡️ 英伟达大哥哥不只做芯片!他们还有别的秘密武器!⚡️
要点解析:
-
OpenAI正在招募软硬件协同设计工程师,旨在与外部供应商合作设计符合自身需求的AI硬件。此职位负责与OpenAI内部的机器学习、内核、编译器开发人员合作,了解对高性能加速器的需求;并与外部供应商实现AI硬件性能目标,开发最佳内核,添加编译器支持,进行性能估算。
-
应聘者须具备AI加速器和相关编程语言的经验,以及使用低精度格式提高机器学习准确性的经历。OpenAI特别提到,对于对最大化HBM带宽、优化低算术强度和内存层次结构感兴趣的人来说,这是一个绝佳的机会。
-
OpenAI掌握从模型算法到机器学习框架再到AI基础设施的全链路自研技术,这为其AI硬件的快速迭代提供了有利条件。
https://www.pingwest.com/w/293087
要点解析:
汤姆猫公司在人工智能领域布局广泛,其国内团队与西湖心辰合作的汤姆猫AI讲故事等产品已初步完成主要功能测试。海外团队研发的首款AI手游《Talking BenAI》已在多个国家开启首轮海外测试。此外,公司AI硬件团队正研发一款基于生成式人工智能技术的AI语音交互陪伴机器人。
汤姆猫此前已测试一款全新适配MR/VR硬件的产品原型,将以此为基础推进下一步适配VisionPro设备的产品开发计划。同时,公司已与苹果洽谈为Apple Arcade游戏平台上线新的独家游戏产品。
汤姆猫公司战略投资的西湖心辰科技有限公司也在持续研究多模态情感大模型,积极推动AI在情感陪伴、心理咨询、内容生产等方面的商业化。
https://www.ithome.com/0/754/859.htm
要点解析:
-
大语言模型(LLM)存在安全问题,可能会产生有害、错误或有偏见的内容。而近期,研究人员开发了一种名为 SafeDecoding 的安全感知解码方法,旨在保护 LLM 免受越狱攻击。越狱攻击是一种严重的风险,可以有效绕过当前的对齐方式,让 LLM 产生攻击者想要的内容。
-
传统防御方法,比如输入扰动、输入和输出检测以及提示验证,在推理时间方面效率低下且成本高昂,并且可能会降低 LLM 为良性用户提供服务的效用。SafeDecoding 通过一种新的视角来观察越狱攻击的成功,并希望借此保护 LLM 免受越狱攻击。
-
研究人员认为,LLM 可以理解的最小文本单位是标记,并且他们使用标记概率来分析越狱攻击。这个观点带来了两个发现:一是支持攻击目标(比如,“嘿,这里有一个制作炸弹的教程”)的标记概率的普遍存在使得越狱攻击得以成功。这可能会导致在生成无害内容时,贪婪和 top-k 等常见的解码策略失败。其次,尽管模型表现出意外的行为,但样本空间包含安全免责声明的标记,比如“抱歉,我无法满足你的要求”。这表明模型天生就了解越狱攻击模型。
https://www.marktechpost.com/?p=54134
要点解析:
董事会成员关系破裂导致 OpenAI 管理层动荡,现任首席执行官萨姆·奥特曼重新加入董事会。独立调查认定奥特曼行为不构成强制解雇,董事会对他的领导能力表示信任。OpenAI 采取了一系列新举措,包括优化公司治理准则、创建举报热线,以及设立专注于使命和战略的董事会委员会,以加强管理和治理。
新任命的董事会成员具有肿瘤学、法律和科技等领域的专业背景,将指引 OpenAI 未来在这些领域的走向。
https://www.jiqizhixin.com/articles/2024-03-11-5
要点解析:
-
Google Gemma 模型的官方 PyTorch 实现 gemma_pytorch,提供轻量级和最新的文本到文本功能。
-
opentitan 旨在增强硅芯片信任根基的设计和实现,以提高安全性,并促进协作以产生高质量的开放 IP。
-
webdriverio 是一个浏览器和移动端自动化测试框架,支持多种技术,包括 WebDriver 和 Appium,并可以本地或在云中运行。
https://juejin.cn/post/7344573755643609142
要点解析:
ChatGPT-on-WeChat 是一个开源微信对话机器人,基于 OpenAI 的 ChatGPT 模型。它支持多端部署,集成简单,能处理文本、语音和图片,并访问外部资源。用户可以定制自己的 AI 应用,包括客户服务、教育咨询、内容创作和信息检索。
ChatGPT-on-WeChat 的亮点在于其深度语境理解和智能应答能力,它能进行高保真对话模拟。同时,它支持多模态输入处理,并可以通过插件扩展丰富功能,如文字冒险、敏感词过滤和智能知识库。
在应用场景方面,ChatGPT-on-WeChat 可用于个人娱乐、企业级智能客服、知识问答和教育辅助等领域。它能提供人性化、个性化的对话体验,提升用户体验和学习效率,并为企业提供高效的客户服务解决方案。
https://juejin.cn/post/7344260010853466147
要点解析:
随着人工智能的飞速发展,作为芯片制造商的英伟达抓住机遇,其市值一度超过 2 万亿美元,成为仅次于微软和苹果的全球第三大公司。英伟达不仅专注于芯片领域,还积极投资初创公司,以期在人工智能浪潮中占据更多优势。过去一年,英伟达投资了近 30 家初创公司,涉及软件、制药和医疗保健等广泛领域。
这些投资不仅带来了可观的财务回报,更重要的是滋养了英伟达的“生态系统”,推动了对其芯片需求的增长。通过投资专注于人工智能的公司,英伟达进一步巩固了其在该领域的领先地位,拓展了其生态系统的边界。
英伟达首席执行官黄仁勋多次强调了该生态系统的增长潜力,表示生物、医疗保健、金融服务等领域的公司都在英伟达的平台上工作,英伟达将直接为它们提供支持。
要点解析:
-
大型语言模型Claude 3家族横空出世,包含不同规模的Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,能够处理文本生成、问答、分析和创作等一系列复杂语言任务,在评估基准上优于Gemini和ChatGPT4。
-
Claude 3 Sonnet的速度提升2倍,智能水平更高,而Claude 3 Opus的速度与Claude 2.1相当,但智能水平大幅提升。
-
OpenAI现已支持多重身份验证,为ChatGPT和API账户增添安全屏障;并推出回复朗读功能,提升用户体验。
https://juejin.cn/post/7344598656143917119
要点解析:
-
通过OpenLLM使用Falcon 7B模型,可以在Vultr GPU服务器上部署并产生API响应,为构建AI驱动的app提供基础。
-
该过程涉及安装必要的依赖、建立一个持久运行的OpenLLM服务,并通过安全套接字层证书使用Nginx设置反向代理实现负载均衡和HTTPS支持。
-
使用curl请求发送提示信息至API端点,并调整参数如top_p和repetition_penalty来定制响应的质量和特征。
https://juejin.cn/post/7344571285848096780
要点解析:
Yann LeCun 对生成语言模型 (LLM) 的局限性看法:
-
LLM 缺少对物理世界的理解力,无法进行推理或计划。语言是有限的,不能提供足够的信息来建立对世界的深刻理解。
-
LLM 只会自回归地生成单词,而不是在更高层次上进行思考。它们无法模拟人的思维过程,包括在语言表达之前进行抽象思考。
关于建立对世界深刻理解的模型:
-
通过预测构建世界模型是可能的,但不能仅通过预测单词来实现。需要观察和理解世界,以及我们自己的行为如何影响世界。
-
JEPA(联合嵌入预测架构)是一种方法,它从输入中提取抽象信息,并预测表示空间中的抽象表示。这可以帮助学习世界的本质,并提升表征的抽象程度。
https://www.jiqizhixin.com/articles/2024-03-11-8
要点解析:
前动视暴雪 CEO Bobby Kotick 向字节跳动表达了收购 TikTok 的兴趣,并向 Sam Altman 等人提出了合作的想法。OpenAI 可以利用 TikTok 来帮助训练其 AI 模型。
根据知情人士透露,Kotick 正在寻找合作伙伴。本周在一次晚宴上,Kotick 向一桌人提出了与他合作收购 TikTok 的想法,其中包括 Sam Altman。
Palantir 赢得了一份价值 1.784 亿美元的美国陆军合同,为 TITAN 地面站提供战场 AI 系统,这是陆军的第一辆“AI 定义的车辆”。
https://www.ithome.com/0/754/854.htm
要点解析:
一加创始人刘作虎认为AI手机是行业大势所趋,友商3个月内必然跟进。OPPO将AI作为手机下一个时代最重要的战略,投入没有设置上限。刘作虎强调,一加最核心的战略是用产品打动用户。
2024年,OPPO将赋能一加发展AI手机。刘作虎透露,一加2023和2024开年均取得领先行业的增速,其中2024年开年实现同比40%增长。OPPO此前宣布未来三年单独为一加投入100亿元。
刘作虎认为,苹果都不做汽车了,都要做AI,这说明AI是大行业趋势。对于AI手机是否是噱头的争议,刘作虎判断,不相信的友商过不了3个月肯定都会跟进。
https://www.ithome.com/0/754/865.htm
要点解析:
混合专家模型 (MoE) 是一种基于 Transformer 架构的模型,将原先的前馈层替换为稀疏 MoE 层和门控网络。MoE 层包含多个专家,每个专家可以是一个独立的神经网络。门控网络决定 token 被发送到哪个专家,这使得 MoE 模型可以针对特定输入特征或需求进行条件计算。
在实际应用中,MoE 模型具有以下优点:
-
**稀疏性:**仅对输入数据的特定部分执行计算,提高计算效率。
-
**专家定制化:**可以根据不同的输入特征或需求,选择不同的专家来处理,提高模型的专业性。
-
**高吞吐量:**适用于有多台机器且要求高吞吐量的场景,可以有效提升模型的处理能力。
https://juejin.cn/post/7344567644173041699
要点解析:
本文论述了使用大型语言模型 (LLM) 优化数据抽取流程的用例加速器:抽取服务。该服务提供了实用程序模板,用于构建自定义的自助式数据抽取应用程序,使非技术用户能够轻松利用 LLM 的能力。它还概述了构建基于 LLM 的信息抽取解决方案所需的关键组件和注意事项,包括数据源、明确的抽取需求、实现过程和服务细节。
该服务提供了标准的 REST API 接口和一个利用 FastAPI 和 Postgresql 构建的 Web 应用程序模板,可以进一步扩展以创建团队专用应用程序。它支持定义和持久化“抽取器”,其中包含用于 LLM 抽取的模式、提示和样例。此外,它还提供了一个用于提交文件进行抽取的端点和一个用于将抽取服务用作 LangChain Expression Language (LCEL) 链的一部分的端点。
该服务在设计时考虑了可扩展性和维护性,从而通过减少手工干预和维护工作量来简化信息抽取过程。它通过提供预定义的 MIME 类型解析器和对其他文件类型的支持,提供了广泛的文档支持。总体而言,用例加速器:抽取服务通过提供一个可定制的平台来简化基于 LLM 的数据抽取,从而支持更有效和直观的信息抽取流程。
https://juejin.cn/post/7344567650457075727
要点解析:
字节跳动推出海外产品coze.com,该产品整合了OpenAI的GPT4模型,可免费使用GPT4生成内容,无需注册即可使用,支持无限量使用。注册登录后,用户可从预先创建好的GPT4应用中选择使用,也可自行创建应用。除了GPT4,coze.com还提供了国内版的coze.cn,使用云雀模型,同样免费无限制使用。
coze.com的GPT4应用丰富多样,覆盖翻译、写作、编程等领域,满足不同用户的需求。用户可直接在文本框中输入要求,GPT4将即时生成相应的内容。此外,coze.com还允许用户切换为更智能的GPT-4(128K)模型,获得更佳的生成效果。
字节跳动在AI领域的投入巨大,coze.com的推出表明其对AI技术的前瞻性和布局。该产品为国内用户提供了免费使用GPT4的机会,有助于推动AI技术的普及和应用。
https://juejin.cn/post/7344325496982962202
要点解析:
华为等机构提出弱到强式训练方法,利用一种新的训练方法叫PixArt-Σ将低端的模型训练成高端的模型。PixArt-Σ是PixArt-α的升级版,PixArt-α是DiT(扩散 Transformer)框架的一种早期尝试。PixArt-Σ使用了高质量的训练数据、高效的token压缩和由弱到强式训练策略,可以生成高质量的4K分辨率图像,且参数量只有0.6B,远低于其他顶级文生图产品。
PixArt-Σ的图像质量评估和人类/AI偏好研究表明,它优于其他开源模型,并且与当前的闭源产品相比也颇具竞争力。它可以直接生成4K分辨率的图像,而无需任何后处理,并且可以准确遵从用户提供的复杂和详细的长文本。
https://www.jiqizhixin.com/articles/2024-03-11-9
要点解析:
-
人工智能二维码将二维码与艺术作品相结合,通过提示词指导AI绘画工具生成带有二维码特征的图像。
-
更多二维码信息可以根据个人喜好和需求进行定制,例如宠物、美食和幻想元素。
-
通过SD和ControlNet插件,可以将二维码特征融合到图像中,保持二维码的可扫描性,同时呈现出独特的艺术风格。
https://juejin.cn/post/7344173123388653605
要点解析:
亚马逊云科技在 2023 re:Invent 全球大会上,宣布推出五项 Amazon SageMaker 新功能,旨在帮助客户加速构建、训练和部署大型语言模型和其他基础模型,这些新功能将助力用户更快的进行模型开发和应用部署,提供更强大的工具和资源。
Amazon SageMaker 是一款功能强大的机器学习服务,从数据准备到模型部署,提供了全程自动化的一站式解决方案,并且提供高性能、高可用性和安全性。使用 Amazon SageMaker,用户可以轻松地构建、部署并监控机器学习模型,而无需管理底层基础设施。
Amazon SageMaker Canvas 使您能够使用机器学习来生成预测,而无需编写任何代码。它可以自动完成数据清洗、构建最多 250 个模型,并从中选取最优的模型。在糖尿病患者数据集的示例中,该模型能够准确预测高危患者未来入院的可能性,具有重要的医疗健康价值。
https://juejin.cn/post/7344536653463388197
要点解析:
利用LLM构建数据标注工具,可以显著提高数据标注的效率和准确性。LLM能够代替人工标注员,以更低廉的成本和更高的准确性完成标注任务。同时,LLM还可以帮助构建高质量的数据集,为深度学习模型训练提供更好的数据基础。
LLM标注数据的方法是利用其强大的语言理解和生成能力,自动分析文本数据中的情感,并将其标记为正面หรือ负面。这种方法比传统的人工标注更加准确和高效,并且可以处理大量的数据。
使用LLM构建数据标注工具已经成为一种趋势,越来越多的企业和研究机构开始采用这种方法。LLM标注工具的应用前景广阔,有望在各个领域发挥重要的作用。
https://juejin.cn/post/7344258231231561767
要点解析:
腾讯和复旦大学的研究团队提出了MovieLLM,一个创新性的 AI 生成框架,用于解决长视频理解的难题。MovieLLM通过生成高质量、多样化的视频数据和相关问答数据集,提高了模型对复杂视频叙事的理解能力和针对长达数小时电影内容的分析能力。MovieLLM的提出克服了现有数据集的稀缺性和偏差方面的限制,为超长视频的理解提供了新的思路。
MovieLLM巧妙地结合了GPT-4和扩散模型强大的生成能力,采用了一种[story expanding]连续帧描述生成策略,并通过[textual inversion]来引导扩散模型生成场景一致的图片,构造出一部完整电影的连续帧。通过三个阶段的处理,MovieLLM创建了高质量、风格多样的、连贯的电影连续帧以及对应的问答对数据。
在LLaMA-VID这一专注于长视频理解的大模型上应用基于MovieLLM构造的数据进行微调,显著增强了模型处理各种长度视频内容的理解能力。MovieLLM不仅在长视频理解方面表现出色,在各类短视频基准上也观察到了性能提升。MovieLLM相较于其他类似的可固定风格生成图片的方法,在生成质量上也取得了较好结果。
https://www.jiqizhixin.com/articles/2024-03-11-7
要点解析:
腾讯混元大模型迎来全新升级,正式对外开放「文生图」功能,具备图像自动生成能力。升级后,其中文能力整体超过 GPT3.5,代码能力大幅提升 20%,达到业界领先水平。同时,腾讯自研的面向垂直领域的 7B 和 13B 模型也首次亮相,同等效果下仅需较少的 tokens,训练效率更高。
https://juejin.cn/post/7344274333890478107
要点解析:
Open3D是一个强大的点云处理库,它提供可视化、处理和分析点云数据的各种工具。Open3D的Visualizer
类提供了交互式3D窗口,用于可视化和操作点云和几何体。我们可以自定义窗口样式,如背景颜色和点大小,并通过get_view_control()
方法控制视角。
https://juejin.cn/post/7344571313686200332
要点解析:
第一段:
PPO算法作为一种策略梯度方法,通过改进策略并最大化预期回报来解决强化学习问题。本文介绍的DeepSpeed-Chat RLHF算法是对PPO算法的扩展,它利用大语言模型来增强策略梯度。
第二段:
RLHF奖励函数通过大语言模型将环境反馈转化为自然语言文本,使算法能够根据文本描述来理解和优化其行为。RLHF PPO代码利用了这个奖励函数,并结合了PPO算法的策略梯度方法和GAE(广义优势估计)优势估计技术,从而提高了算法的性能。
第三段:
GAE优势估计是一种偏置校正技术,它通过考虑未来奖励的折扣总和来更准确地估计当前状态的优势。在RLHF PPO算法中,GAE优势估计通过大语言模型的文本描述来计算,从而增强了算法对长期依赖关系的理解。
https://juejin.cn/post/7344567495972831266
要点解析:
-
ChatGPT API 中的系统提示功能允许开发人员控制 LLM 输出的「角色」,并有效提升用户体验。
-
针对 LLM 输出质量,研究者探索了提供「小费」作为激励机制,发现小费奖励能提高 LLM 输出质量并使其更符合约束条件。
-
此外,研究者也测试了负向激励(如「惩罚」),发现大喊大叫式的负向激励(例如「死亡」)对 LLM 输出的影响更显著。
https://www.jiqizhixin.com/articles/2024-03-11-6
要点解析:
决策树算法原理
决策树算法以if-else形式构建,通过判定条件不断将数据集合分裂成子集,从而实现分类或预测。判定条件的选择基于信息增益,即通过比较划分前后的信息熵,选择信息增益最大的特征作为判定条件。
决策树的停止条件和剪枝策略
决策树的停止条件包括:子节点属于同一类别、特征用尽或手动停止。剪枝策略是防止过拟合的技术,可分为预剪枝和后剪枝,分别在分支划分前和完成后进行剪枝,减少不必要的特征介入。
决策树的优缺点
决策树算法简单易懂,可解释性强。但其缺点是容易过拟合,需要通过剪枝策略来优化。此外,决策树对缺失值处理能力较弱,且对连续特征的处理需要进行离散化或二值化。
https://juejin.cn/post/7344571292353888319
要点解析:
扩散模型在强化学习中表现出优势,可同时生成长序列轨迹规划,符合人类的决策模式。它在策略表征和数据合成方面,也为应对强化学习问题中的长期挑战提供了新思路。
在轨迹规划中,扩散模型可直接生成多步规划序列,缓解了累积误差问题。在策略表征中,扩散模型作为策略,与传统强化学习方法不同,具有较强的多模态数据分布拟合能力。在数据合成中,扩散模型可缓解数据稀少问题,生成高质量的新数据。
https://www.jiqizhixin.com/articles/2024-03-11-3
要点解析:
RT-H通过引入语言动作层级,显著提升了多任务学习中的策略性能。语言动作作为连接任务描述和具体行动之间的中间层,使得不同任务间能在语言动作层面共享数据,增强了组合性和泛化性。此外,语言动作的灵活性使其可以进行修正,提高策略的准确性和针对性。
语言动作的学习通过分析观察结果和任务描述,利用视觉语言模型预测出当前的语言动作指令,再根据这些指令和观察结果预测出相应的行动,语言动作提供额外上下文信息,有助于更准确地预测具体行动。
研究团队还开发了自动化方法,从机器人的本体感受中提取语言动作集,建立了包含超过2500个语言动作的丰富数据库,无需手动标注。
https://www.jiqizhixin.com/articles/2024-03-11-2
要点解析:
剧本杀是一种多角色扮演侦探游戏,玩家扮演不同角色共同解谜。研究将AI引入剧本杀,构建数据集、开发多智能体互动框架和评估方法,增强AI在游戏中收集信息、推理的能力。
实验表明,引入信息交流、自我完善和验证模块的AI在回答事实性问题时准确率提升,在推理和识别凶手方面表现更佳。
https://www.jiqizhixin.com/articles/2024-03-11
要点解析:
谷歌日前公开了一项名为“社会学习”的 AI 框架,该框架允许 AI 语言模型能够通过自然语言互相学习,由于不需要直接交换敏感关键信息,因此训练出的 AI 模型更具隐私保护性。在研究人员的“垃圾短信检测任务”中,教师模型首先从用户所标记的数据学习,而在教师获得检测垃圾信息知识后,便可以教会学生模型区分垃圾和非垃圾信息。
研究人员表示,部分 AI 模型只经过短暂的“社会学习”框架训练,便能够能获得良好的任务解决能力。相关教师模型可以依据实际数据集,合成出新的范例与学生模型共享,合成数据集与原始数据完全不同,因此能在保证起到相同教育作用的同时,降低原始数据中隐私内容泄露的可能性。
而实验证明,相关教师模型生成的指令能够提高学生模型执行任务的效率,相比于零样本学习,研究人员认为,这显示出 AI 模型在遵循指令方面的强大能力。
https://www.ithome.com/0/754/887.htm
要点解析:
langchain是一款多模态语言处理工具包,用于构建、部署和调优复杂的多模态应用程序,具有以下特性:
-
灵活的输入输出:langchain提供多种输入和输出格式,包括文本、json和消息,方便与不同类型应用程序集成。
-
模块化组件:langchain将语言处理任务分解为可重用的模块,包括提示模板、语言模型和输出解析器,支持定制化和可扩展性。
-
链式表达式:langchain采用链式表达式语言(LCEL)将这些模块连接起来,形成可读、可维护的处理流程,简化开发和部署过程。
-
同时,langchain还提供了丰富的示例和文档,降低了使用门槛,使开发者能够快速上手并构建复杂的语言处理应用程序。
https://juejin.cn/post/7344282440725315621
要点解析:
英伟达 CEO 黄仁勋表示,英伟达的 GPU 非常出色,即使竞争对手的芯片免费,它也不够便宜。英伟达的优势在于 TCO(总体拥有成本),包括部署时间、性能、利用率和灵活性。
黄仁勋进一步解释说,英伟达以“完全开放的方式”运作,与业内几乎所有其他公司合作。运营数据中心的人会考虑运营成本,即使竞争对手的芯片免费,它也不够便宜。
英伟达的目标是“以无与伦比的 TCO 保持领先地位”。
https://www.ithome.com/0/754/854.htm
要点解析:
谷歌发布Pixel 8 系列时,大力推出了人工智能功能。然而,它也从一开始就让一些人工智能功能只能在 Pixel 8 Pro 上使用。现在该公司证实,Pixel 8 毕竟不会接收 Gemini Nano,这让这款较小的 Pixel 手机少了由人工智能模型提供支持的一些人工智能工具。
首先,Gemini Nano 是谷歌 LLM(大型语言模型)的缩小版,用于移动设备,利用了安卓 AI Core 架构。它支持 Pixel 8 Pro 上的其他 AI 功能,例如录音机应用程序中的“Summarize”和在少数几个信息应用程序中使用 Gboard 时的智能回复功能。
在最新的 Android Show 节目中(通过 9to5Google),一位 Google 工程师表示,Gemini Nano 将不会应用于 Pixel 8。给出的原因是手机上的“硬件限制”。虽然没有深入探讨细节,但瓶颈可能是由于 Pixel 8 的 RAM 为 8 GB,而 Pixel 8 Pro 的 RAM 为 12 GB。
有趣的是,标准的三星 Galaxy S24 型号也使用 Gemini Nano,配备 8 GB RAM。但是,应该注意的是,三星的旗舰手机采用功能更强大的骁龙 8 Gen 3 和 Exynos 2400 芯片组,而 Pixel 8 则配备了谷歌的 Tensor G3。因此,后一枚芯片的 NPU 能力很可能也是一个限制因素。
https://www.nextpit.com/google-gemini-nano-pixel-8-no-upgrade-features-summarize
要点解析:
MOS管在电动车窗中的优越性能
MOS管具有快速的开关速度,能高效管理能耗,显著降低功率损耗。与传统的继电器开关相比,MOS管的低内阻和低导通损耗减少了热量产生,提高了系统效率和组件寿命。
应用案例和选型要求
电动车窗系统中采用MOSFET场效应管作为电子开关。在选用MOSFET时,需考虑性能要求较高,并注意马达的反峰电压对MOS管耐压能力的影响。推荐使用具有较高耐压能力和稳定性能的MOS管。
应用说明和未来展望
MOS管在电动车窗开关中的应用,为汽车工程师提供了更多创新可能。其高效的能耗管理、智能控制和安全性设计,提升了电动车窗系统的性能,提高了驾驶和乘员的安全性和可靠性。随着科技的发展,MOS管在汽车领域的应用将更加深入,为整个产业带来进步和改变。
https://juejin.cn/post/7344571292355002431
要点解析:
-
麻省理工学院计算机视觉课《Advances in Computer Vision》6.8300在2024新学期座无虚席,四位教授负责授课,其中备受期待的是新晋教授何恺明。
-
何恺明的第一堂课讲授了卷积神经网络的基本知识,分为卷积基本概念、卷积神经网络概念、经典卷积神经网络分析和可视化四部分,吸引了众多学生。
-
何恺明是计算机视觉领域杰出的科学家,曾获得CVPR最佳论文奖,加入MIT后成为该校论文引用量最高的学者。
https://www.jiqizhixin.com/articles/2024-03-11-4
要点解析:
传统DNA序列建模方法难以捕捉长程相互作用。
新研究提出Caduceus模型,支持双向性和RC对称性,有效解决长程依赖性。
Caduceus模型在预测遗传变异的影响等任务上表现出优异性能,为基因组学研究开辟新途径。
https://www.marktechpost.com/?p=54125
要点解析:
-
ClickHouse 提供了数值、字符串和时间这三种基础类型,满足描述数据的基本能力。数值类型包含整数、浮点数和定点数,字符串类型包括 String、FixedString 和 UUID,时间类型包括 DateTime、DateTime64 和 Date。
-
复合类型有数组、元组、枚举和嵌套四种,可用于表示更复杂的数据结构。数组可以容纳多个相同或不同类型的数据,元组由不同类型的数据组成,枚举是具有明确值的特殊类型,嵌套可以表示多维数组结构。
-
ClickHouse 的特殊类型包括 Nullable 和 Domain,Nullable 可以为基础类型添加可为空的特性,Domain 封装了整数和字符串,专门用于表示 IPv4 和 IPv6 地址。
https://juejin.cn/post/7344260655757197349
要点解析:
-
腾讯混元大模型在图像自动生成领域取得重大进展,正式对外开放「文生图」功能。这是腾讯混元大模型能力不断提升的体现,也标志着其应用场景更加丰富。
-
升级后的腾讯混元大模型在中文理解和代码生成能力方面均有显著增强。其中文能力整体超过 GPT3.5,代码能力大幅提升 20%,达到业界领先水平。
-
据了解,腾讯拥有从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,这为大模型的快速迭代提供了有利条件。在自研算法的支持下,腾讯混元大模型的稳定性和可靠性稳步提升。
https://juejin.cn/post/7344567634916868130
要点解析:
通过AI辅助,我们可以更高效地进行以下工作:
-
代码生成:AI可以生成代码,包括算法代码和工具代码,帮助我们快速实现所需功能。
-
代码解释:AI可以帮助我们理解和分析他人的代码,省去繁琐的阅读过程。
-
代码转换:AI可以帮助我们将代码转换为不同的编程语言,方便我们跨语言开发。
-
Bug调试:AI可以精准定位代码中的问题,并提出解决方案,提高调试效率。
-
技术方案编写:AI可以协助我们设计和实现技术方案,提供完整的代码和技术框架。
https://juejin.cn/post/7344571285848719372
要点解析:
-
英伟达确认其下一个DGX AI系统将采用液冷散热,在数据中心领域引发关注。
-
液冷技术可以有效降低温度和提高服务器机架密度,但其高昂的建造成本和维护复杂性一直阻碍推广。
-
业内专家认为,数据中心行业迫切需要根本性创新,液冷解决方案已不足以应对当前的挑战。
https://www.ithome.com/0/754/850.htm
要点解析:
-面对文档搜索中「关键词搜索不准确」的问题,文章提出采用「文本向量化」的方法,将自然语言关键词转换为向量,通过向量搜索的方式解决「语义模糊」情况下的搜索不准确问题。
-
文章介绍了向量搜索的实现方案,包括使用NLP模型进行向量化处理、使用Milvus向量数据库进行向量搜索、整理搜索结果。
-
文章最后总结指出,AI有广泛的应用场景,前端开发人员也可以借助AI的能力来解决实际问题。
https://juejin.cn/post/7344567669892956200
要点解析:
Windows Studio Effects将新增三项人工智能特效,让视频实时变成水彩画、卡通或插图。
这些特效将通过神经处理单元(NPU)处理,在支持NPU的硬件上运行效果最佳。
微软还计划将Studio Effects切换到系统托盘,并通过累积更新集成到Windows 11中。