Skip to content

Latest commit

 

History

History
438 lines (223 loc) · 35.9 KB

20240217.md

File metadata and controls

438 lines (223 loc) · 35.9 KB

目的

本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。

看点

原文共计109886 字,简读后为8705字,阅读时间为22分钟,为您提高阅读效率为1250%

影响力最大的文章标题,增加Emoji表情后:

  • 😎 超酷的视频生成器!OpenAI推出的Sora,带你开启视频制作新时代 ✨
  • 🌟 AI的逆袭之路!从被质疑到恢弘亮相,揭秘AI技术是如何突破重围的 💡
  • 💥 超越OpenAI!Nomic AI推出最强开源文本嵌入模型,称霸各种基准测试 🏆
  • 🧤 新一代智能助手登场!谷歌Gemini亲身体验,创意无限、点子多多 💡
  • 📊 AI社交媒体风靡全球!最新数据揭秘AI在社交网络的渗透率 🌐
  • 🌍 世界尽在掌握!OpenAI的新AI神奇亮相,虚拟世界由你创造 🎮
  • 📷 电脑视觉更上一层楼!精准对焦技术为AI赋能,开启智能新时代 🧠
  • 🎓 DIY知识宝库!手把手用AI工具打造个人知识库,知识触手可及 📚
  • 🎬 视频遮挡不再愁!Meta的AI修复利器,让画面更完整清晰 🤖️
  • 👑 AI领军者非OpenAI莫属!创始人亲解独家秘诀,制霸业界 🏆

💻 文字变视频!ChatGPT创造者再出大招,开启文本与视频的全新互动 🎥

要点解析:

  1. OpenAI公布其文本生成视频模型Sora,该模型可以生成时长60秒的视频,拥有较好的视觉质量,且符合用户提供的文字提示。Sora模型具备理解语言和物理世界的能力,可生成复杂场景、多角色、特定的动作、准确的细节。

  2. Sora模型还能够在生成的视频中创建多个镜头,保证角色和视觉风格的一致性。该软件是继OpenAI于2022年发布的ChatGPT聊天机器人之后推出的又一文本生成工具,引发了人们对生成式AI技术的关注。

  3. 目前,Sora模型仍存在一些不足之处,如在模拟复杂场景物理方面可能存在困难,以及对于因果关系的理解可能不够准确。OpenAI正在采取安全措施,在Sora模型对外发布之前,将先建立误导性内容检测工具,并与红队合作进行对抗性测试。

https://www.ndtv.com/world-news/sora-all-about-chatgpt-creator-openais-new-tool-that-turns-text-into-video-5073402#publisher=newsstand

🚀 OpenAI估值再飙升!完成交易抬升至800亿美元,10个月内暴涨近两倍 🤑

要点解析:

OpenAI 的估值在不到 10 个月的时间里增长了近两倍,达到 800 亿美元或更高,成为全球最有价值的科技初创企业之一。该交易是机构向少数几家专门从事生成式 AI 的公司注资的又一个例证,这一轮融资热潮是在去年 OpenAI 发布在线聊天机器人 ChatGPT 之后开启的。

这笔交易发生在 OpenAI 的关键时刻,此前它经历了一年的争议,包括首席执行官被解雇的混乱事件。为了解决去年的动荡,OpenAI 聘请了一家律师事务所对董事会的行为和首席执行官的领导能力进行审查。

投资者急于向这类公司投入资金,自去年年初微软向 OpenAI 投资 100 亿美元以来,其竞争对手 Anthropic、Cohere 和 Inflection AI 也筹集了大量资金。

https://m.cnbeta.com.tw/view/1418625.htm

💥 超越OpenAI!Nomic AI推出史上最强开源文本嵌入模型,称霸各种基准测试 🏆

要点解析:

  • 最新开放的文本嵌入模型 nomicembed-text-v1 突破限制,处理文本长度达 8192 个标记,在短文和长文背景评估中均优于前辈模型,在开放权重、开放数据和 137M 参数设计的 Apache-2 许可下,该模型确保了可访问性和透明性。

  • nomicembed-text-v1采用经过精心调整的BERT架构,结合旋转位置嵌入、SwiGLU激活和Flash Attention等创新,提升了在长序列文本处理中的性能和效率。在GLUE、MTEB和专门的长背景评估等基准测试中,nomicembed-text-v1 表现出色,特别是在处理长文本的长背景评估中。

  • 模型开发强调端到端的可审计性和可复制性,为人工智能社区的透明性和开放性树立了新标准。通过释放模型权重、代码库和精心挑选的训练数据集,由 nomicembed-text-v1 背后的团队邀请持续不断的创新和审查。

https://www.marktechpost.com/?p=52586

💰 OpenAI员工解禁套现,估值飙升至800亿美元,AI巨头再添辉煌一笔 💰

要点解析:

  • 在不到10个月的时间里,OpenAI的估值飙升至800亿美元,其推出的在线聊天机器人ChatGPT引发了AI融资热潮。为了满足业务扩张需求,OpenAI允许员工出售公司股份以筹集运营资金。

  • OpenAI持续进行产品升级,发布了新工具Sora,可根据文字生成逼真AI视频,并计划为ChatGPT添加更深的内存功能。此外,公司还试图收购芯片制造商,以提高获取昂贵AI芯片的机会。

  • OpenAI的估值激增,使其成为全球最有价值的科技初创企业之一,这笔股票出售交易既为员工提供了流动性,也有助于公司吸引顶尖人才,进一步推动其AGI研发。

https://m.cnbeta.com.tw/view/1418697.htm

📱 苹果AI蓄势待发!爆料称将推AI编程工具,WWDC备受期待 💻

要点解析:

  • 苹果公司准备在 XCode 的下一次大更新中加入 AI 功能,对标微软的 Cop 副,后者依托于 OpenAI 的 GPT 大模型。

  • 程序员们早在 2021 年就已经开始使用 AI 辅助编程,包括基于提供的代码进行代码补全、撰写测试代码、提供错误修复、代码优化和撰写注释等功能。

  • 据悉,苹果公司负责软件的副总裁克雷格·费德里吉已要求团队在今年的操作系统升级中“尽可能多地加入 AI 功能”。

https://m.cnbeta.com.tw/view/1418675.htm

👾 文生视频时代开启!OpenAI发布Sora,让你的想象力自由翱翔 🎨

要点解析:

  • OpenAI 旗下的文生视频模型 Sora 横空出世,在图像自动生成领域迈出重要一步。Sora 文献显示,该模型将视觉数据转化为统一表示形式,利用扩散模型生成视频图像。

  • Sora 表现出模拟物理世界的能力,可模拟场景中的三维空间、人物动作和物体状态,但在基本物理互动等方面仍有局限。

  • Sora 模型具有广泛的应用潜力,例如音乐视频制作、影视动漫制作、游戏开发,可能对相关产业产生颠覆性影响。

https://juejin.cn/post/7334714350900494375

🌟 AI周报重磅来袭!OpenAI多项成果齐发,模拟世界、海量上下文、开源新星惊艳亮相 🌐

要点解析:

  • OpenAI 发布的「文生图」Sora可以用视频片段生成逼真的视频,甚至模拟物理世界,刷新了文本视频生成领域的水平。Sora将视觉转换器和扩散模型相结合,数据处理上采用将视频片段嵌入潜在空间的方法,并在多种分辨率下进行训练,最高可达1920x1080p。

  • 谷歌推出的Gemini 1.5 Pro性能接近Gemini 1.0 Ultra,但单位参数效率更高,且扩展了混合专家系统,文本长度达到了惊人的千万级别。Gemini 1.5 Pro有望依靠其强大的上下文处理能力对大型语言模型的使用方式产生重大影响,成为企业级应用的利器。

  • 另一个值得关注的模型是Mistral-Next,它即将发布,初步测试表明它是一款可靠的模型。它可能是Perplexity公司推出的基于API的 GPT4 竞争对手,值得期待其进一步的表现。

https://awtmt.com/articles/3708458

💰 孙正义大手笔!筹措1000亿美元成立AI芯片企业,布局未来科技 🤖️

要点解析:

  • 软银计划筹集 1000 亿美元成立一家芯片公司,代号为“伊邪那岐”,目标是与英伟达竞争,提供人工智能服务所需的半导体。该项目将与芯片设计公司 Arm Holdings Plc 互补,打造一家具有影响力的人工智能芯片企业。

  • 该项目如果成功,将成为人工智能领域最大的投资之一,超过微软对 OpenAI 的 100 亿美元投资。孙正义以日本创造与生命之神“伊邪那岐”命名该项目,部分原因是该名称包含“通用人工智能”(AGI)的英文首字母缩写。

  • 孙正义认为有机会创建一家与“科技七巨头”同级别的重磅公司,并探索使用 Arm 芯片设计的方式。Arm 首席执行官 Rene Haas 正在为孙正义提供咨询,帮助其实现人工智能抱负。

https://m.cnbeta.com.tw/view/1418627.htm

💬 周鸿祎评Sora模型:中美AI差距或将进一步拉大,引发业界思考 🧐

要点解析:

  • OpenAI发布的Sora模型可根据文本提示生成60秒视频,周鸿祎认为这意味着AGI将从10年缩短到1年实现。

  • Sora将大语言模型优势与Diffusion结合起来,实现了对现实世界的理解和模拟,这是未来发展的方向,有望对机器人具身智能和自动驾驶等领域带来重大影响。

  • 同时,周鸿祎指出中美AI差距仍在加大,OpenAI可能还藏有秘密武器,中国大模型发展水平虽然接近GPT-3.5,但与4.0还有差距。

https://m.cnbeta.com.tw/view/1418645.htm

🤝 健康+AI!Virtua Health携手care.ai,开启虚拟医疗新时代 🏥

要点解析:

  • Virtua Health 合作 care.ai,利用其智能护理平台和环境传感器提升患者护理,辅助护理人员,并通过人工智能辅助虚拟护理模式,赋能护理团队。率先实现这项合作的是新泽西州卡姆登的 Virtua Our Lady of Lourdes 医院。

  • care.ai 的解决方案将无缝集成到 Virtua Our Lady of Lourdes 医院,最终覆盖 Virtua Health 的所有急症护理环境。2023 年 12 月,该医院在一家医疗外科病房启动了虚拟护士试点计划,让床边和远程护士能够协同提供患者护理。

  • 规模更大的合作旨在优化患者护理,改善患者和提供者的体验,并提升现场和虚拟护理团队的临床医生能力。医生、护士和工作人员将通过同一综合平台,从而简化广泛的患者护理任务,从常规入院、出院活动到记录、预防跌倒,以及临床医生安全。通过减轻现场护士的行政负担,人工智能智能护理平台能够让他们腾出更多的时间和精力专注于仅靠他们才能提供的关键实践操作护理。

https://aithority.com/?p=564185

🌐 AI投资资讯焕新升级!Uptrends平台重磅归来,为你提供一手行业动态 📈

要点解析:

  • Uptrends.ai投资新闻平台近日宣布重新推出,并全面升级产品,新增了包括电子邮件提醒、个性化功能和AI摘要等10多个集成工具。此次更新是继2023年中期首次亮相后的最大产品升级。Uptrends的AI旨在为散户和其他需要"追踪趋势"的人服务,通过监测数千家上市公司并分析数百万篇新闻、新闻稿和社交媒体帖子来提炼市场情绪和趋势。

  • 升级后的Uptrends v3版本增加了电子邮件新闻提醒、个性化AI摘要和可自定义提醒设置,同时对界面进行了全面升级,使其在不同设备和网络浏览器上更加兼容。更为重要的是,该版本首次向大众引入了强大的新AI技术,包括用于快速检测和总结新闻事件的语言模型。

  • 通过AI算法,Uptrends v3会根据用户的兴趣(股票、行业或主题)向他们发送实时电子邮件提醒,让用户可以第一时间了解市场动态,这种便捷的服务可以让用户在无需不断浏览在线新闻的情况下也能实时掌握市场动态。此外,升级后的Uptrends v3还提供了热门股票列表,该工具会根据过去一周、一个月或一个季度的在线讨论热度对股票进行排名,这可以帮助用户发现股票的趋势。

https://aithority.com/?p=564179

💻 Reddit携手AI,内容授权再升级,社区互动更丰富 👍

要点解析:

Reddit已与一家大型人工智能科技公司签署协议,允许其在Reddit的内容基础上训练人工智能大模型。此举可能成为未来类似性质合同的典范,有助于Reddit在人工智能浪潮中获利,推动其整体估值和IPO规模。

人工智能公司一直在与内容提供商达成训练数据许可协议,以获得海量社交媒体数据来训练自己的AI应用软件。OpenAI已与阿克塞尔·施普林格公司达成了一项价值数千万美元的人工智能数据训练合同,并与CNN、福克斯公司和时代周刊等新闻出版商进行谈判,以获得他们的数据训练许可。

随着ChatGPT和谷歌Bard等生成式人工智能工具的问世,全球迈入AI时代,人工智能程序开始使用大型语言模型在海量的网络内容上训练人工智能系统。

https://m.cnbeta.com.tw/view/1418681.htm

🎬 视频遮挡不再愁!Meta的AI修复利器,让画面更完整清晰 🤖️

要点解析:

  • Meta 推出的预测模型架构 PA 及其衍生模型 I-PA/V-PA 主打“预测性”,号称能以类人方式高效预测生成图像/视频中被遮挡部分。

  • 研究人员使用遮挡过的特定数据集训练 I-PA/V-PA 模型,让其专注于影片的高层次概念,从而更有效地预测未来动作或事件,达到对世界的更深层次理解。

  • V-PA 采用“Frozen Evaluations”设计,模型核心部分在预训练后不再改变,仅需在之上添加小型专门层即可适应新任务,具有更高普适性。

https://www.ithome.com/0/750/617.htm

💥 OpenAI再下一城!又一个行业迎来自动化浪潮,引发业界热议 🤖️

要点解析:

  • OpenAI 最新发布的文生视频模型 Sora 备受瞩目,它采用扩散模型和Transformer神经网络,解决了视频生成中对现实世界的理解和物理现象的模拟难题,突破了传统 AI 工具的局限。

  • Sora 的优势在于借助 OpenAI 成熟的 GPT 模型理解用户的意图,并将其转化为更准确的视频内容。其生成视频具有复杂性、精美性和长度,但仍存在一定的缺陷和局限性。

  • Sora 的出现标志着 AI 在理解现实世界能力上的提升,有望对影视、视频制作行业产生颠覆性影响,并成为构建通用人工智能的重要一环。

https://m.cnbeta.com.tw/view/1418635.htm

💰 OpenAI估值再创新高!新交易推动,有望突破800亿美元大关 🤑

要点解析:

  • OpenAI已完成交易,估值接近或超过800亿美元,较10个月前翻了近三倍。

  • 本次交易采取“要约收购”形式,员工可套现其公司股份,而非通过传统一轮融资筹集运营资金。

  • OpenAI目前是全球最有价值科技初创公司之一,仅次于字节跳动、SpaceX,上月估值达到500亿美元。

https://www.ithome.com/0/750/601.htm

🌍 世界尽在掌握!OpenAI的新AI神奇亮相,虚拟世界由你创造 🎮

要点解析:

OpenAI发布了名为Sora的文本转视频生成模型,可以生成令人印象深刻的真实感视频,并具备理解3D世界和模拟物理世界的能力。Sora是一种扩散变换器模型,通过观看大量视频数据,学习不同物体之间的运动关系和空间布局,能生成动态的视频内容。它能从提示中生成全新的视频,还能扩展现有片段或将AI生成的图像变成视频,展现了视频生成模型在游戏和模拟等领域的发展前景。

不过,Sora目前仍有局限性,还不完全理解因果关系,有时会生成不符合物理规则的物体运动或场景变化。OpenAI计划谨慎发布Sora,由专门团队评估潜在风险,以避免不当使用造成的危害。

https://futurism.com/?p=311862

💎 AI协作新利器!Geotab推出Ace,为行业打造首个完全整合的AI副驾驶 🚗

要点解析:

作为全球领先的互联交通解决方案提供商,Geotab在年度Geotab Connect活动中推出了人工智能协助手Geotab Ace,这是MyGeotab平台中的一项开创性功能,简化了车队管理,通过直观的对话提供量身 定制的见解,优化了用户体验。

Geotab Ace每天提炼十亿个数据点,简化了见解,同时普及和简化了信息访问。2023年,Geotab与客户合作开展了Project G,这是一个生成式AI测试,收集了有关挑战和高级价值功能的实时反馈和输入。

该方法在MyGeotab平台中集成了一个无缝AI协助手。直接集成使车队能够显著减少获取见解的时间,访问针对其特定需求量身 定制的数据反映,并提高做出数据驱动决策的能。

Geotab Ace可以访问大量数据,包括安全分析、维护、路程数据、区域活动、纯ंत्री车统计数据、例外事件、GPS跟踪信息等。这使它能够针对各种复杂问题提供细致入的答案,同时记住过去的交互信息,以改进未来的回复。它还能够根据车队在MyGeotab中的配置方式,针对您的业务提供个性化的答案。该工具还充分解释了其对问题的理解,并将查询转换为易于理解的自然语言。

https://aithority.com/?p=564180

🎥 Sora技术大解密!OpenAI视频生成模型,让想象力自由翱翔 🌈

要点解析:

  • 10月26日,腾讯混元大模型迎来全新升级,并正式对外开放「文生图」功能,展示了其在图像自动生成领域的领先能力。升级后的腾讯混元大模型的中文能力整体超过GPT-3.5,代码能力大幅提升20%,达到业界领先水平。腾讯自研的面向垂直领域的7B和13B模型也首次亮相,同等效果下仅需较少的tokens,训练效率更高。

  • 腾讯混元大模型因通用型和实用性,应用场景丰富多样。目前,超过180个腾讯内部业务已接入腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。最近,QQ浏览器还基于腾讯混元推出了「PDF阅读助手」,具备智能摘要、智能问答和多轮提问等功能。

  • 腾讯拥有从模型算法到机器学习框架再到AI基础设施的全链路自研技术,这为大模型的快速迭代提供了有利条件。自首次公开亮相以来,腾讯混元大模型进入了加速升级的轨道。在自研算法的支持下,模型稳定性和可靠性稳步提升。

https://juejin.cn/post/7335661961902997530

🌟 Sora的逆袭之路!从被质疑到惊艳亮相,揭秘AI技术是如何突破重围的 💡

要点解析:

  • Sora基于Diffusion Transformer(DiT)模型构建,将transformer主干与扩散模型相结合,模型简洁可扩展,在处理输入数据时更灵活,在每Flop的实际运行时间上比UNet快得多,扩展法则不仅适用于图像,也适用于视频。

  • Sora的训练数据可能是其成功的关键,猜测可能是来自游戏引擎、电影、纪录片等高质量数据集。

  • Sora可以生成非常长的视频,通过联合帧预测实现自回归采样,但如何在时间上保持质量和一致性是一个挑战,可能需要非常长的上下文条件化或通过扩大规模减少问题。

https://juejin.cn/post/7336140397709180938

🤖️ 超酷的视频生成神器!OpenAI推出的Sora,带你开启视频制作新时代 ✨

要点解析:

OpenAI推出Sora,一个创新的文本到视频模型,展示了视频生成领域的突破性进展。Sora可以从静态噪声生成清晰、连贯的视频叙述,还可以扩展现有视频,使其更长,或将静止图像变成动态场景。

Sora的核心能力在于其生成视频的能力,它可以从类似静态噪声的起点开始,经过多次步骤转化为清晰、连贯的视觉叙述。这一转换过程不仅仅是创造视频,Sora可以扩展现有的视频,使它们更长,或将静态图像变成动态场景。该模型的架构建立在类似于GPT转换器的基础上,使它能够以以前在视频生成中未曾见过的规模提升性能。

Sora超越简单视频生成的能力。该模型可以以惊人的细节动画化图像,快速增长视频,甚至填充缺失帧。它应用了首次在DALL·E 3中引入的重新设置标题技术,可以生成更紧密地遵循用户指令的视频,提供无与伦比的保真度和对创作意图的遵守。

https://www.marktechpost.com/?p=52597

🧤 新一代智能助手登场!谷歌Gemini亲身体验,创意十足点子多多 💡

要点解析:

  • 谷歌已将 Google Assistant 更换为基于 AI 的新工具 Gemini,至少对于那些有胆量下载新应用的美国用户而言。我在 Pixel 8 Pro 上尝试了 Gemini,并将其与 OnePlus 12 上旧的 Google Assistant 进行了并排测试。体验正在迅速变化,昨天无法工作的功能可能会在明天突然开始工作。总体而言,除了延续我所依赖的功能外,Gemini 正在尝试与 Assistant 有所不同。

  • 与旧版 Google Assistant 相比,Gemini 具有许多独特的差异。例如,Gemini 展示了它可以处理的详细信息粒度。在生成一只太空刺猬时,谷歌用动词、描述和最终图像中需要避免的事项来编写了 36 个单词的提示。

  • Gemini 的潜力仍然很大,可以与其他 Google 应用程序互动。它可以与 Google Assistant 配合使用,因为将 Google Assistant 作为其众多工具之一,以及地图、搜索,甚至其他工具。您可以将聊天会话直接保存到 Google 文档,或直接导出到 Gmail 邮件中。

https://www.marktechpost.com/?p=52586

📝 评估指标大揭秘(二):F1分数和AUC,为你量化模型性能 📊

要点解析:

本篇文章主要介绍了两种机器学习模型的常用评价标准:F1 分数和 AUC 曲线。F1 分数对精确率和召回率做了加权平均,更能反映模型在实际中的表现。 AUC 曲线展现了模型在所有阈值下的分类能力,其面积即 AUC 值代表了模型的整体性能。掌握好这两种评价标准,有助于深入理解机器学习模型的优劣和适用性。-

对于二分类模型,F1 分数和 AUC 曲线都是重要的评价标准。F1 分数兼顾了精确率和召回率,AUC 曲线反映了模型在所有阈值下的分类能力。结合使用这两种标准,可以全面了解模型的性能。-

在选择模型阈值时,可以采用等距最近点法,即选择 ROC 曲线上离左上角(FPR=0,TPR=1)最近的点所に対応的阈值,以平衡真阳性率和假阳性率。

https://juejin.cn/post/7335760933073960987

🗺️ 室内导航新突破!深度学习赋能,图像处理、时序数据、多模态融合,让室内空间更智能 🤖️

要点解析:

  • 深度学习技术在室内导航与定位领域具有广阔的应用前景,它可以利用图像、传感器等数据,实时定位用户位置,并智能规划最优路径,大幅提升导航的准确性和效率.

  • 基于深度学习的室内导航系统可以通过训练神经网络,理解室内环境中的复杂特征,从而实现精准的定位和智能路径规划.这种技术在大型商场、医院、机场等拥有复杂结构的室内空间中尤为重要.

  • 深度学习模型还可以融合多种数据源,例如图像、WiFi信号强度、传感器数据等,提高位置预测的准确性和鲁棒性.这使得基于深度学习的室内导航系统能够适应复杂多变的室内环境,为用户提供更可靠、个性化的导航体验.

https://juejin.cn/post/7335430755059695656

📚 AI自学新成就!微软、谷歌强强联手,研发出V-STaR,通过学习错误大幅提升解题准确率 🤖️

要点解析:

  • V-STaR方法在自学习中,不仅利用正确答案,还利用错误答案训练一个验证器,该验证器使用DPO训练,在推理时从多个候选答案中选择最佳答案。

  • V-STaR在数学推理任务上比现有方法提高了4%到17%的测试准确率,在代码生成任务提高4%到12%。

  • 使用V-STaR微调的7B模型在GSM8K数据集上的表现超过了基础LLaMA2 70B模型(8-shot),在HumanEval数据集上几乎与CodeLLaMA 34B模型(zero-shot)相当。

https://juejin.cn/post/7334311273339797519

🌟 小而强大!小语言模型异军突起,NLP领域新星冉冉升起 💫

要点解析:

随着语言模型的不断发展,大模型虽然功能强大,但计算资源和能源消耗巨大,并且可能存在数据集偏见导致输出错误或不准的情况。于是小语言模型(SLM)应运而生,作为大语言模型(LLM)的精简版,SLM拥有更少参数,训练时间更短,运行成本更低,更易于在小设备上实施,可根据具体应用进行微调,并可根据安全性和 privacy 要求进行自定义,减小了恶意攻击风险。像Phi-2等一些SLM展现了最先进的性能,甚至超过了体积更大的LLM。

SLM 的主要优势在于其规模小巧、敏捷性高、成本低廉和易于实施,使其成为预算有限的小型企业和组织的理想选择。值得注意的 SLM 包括 DistilBERT、Orca 2、Gpt-J 和 Gpt-NeoX。

总体而言,小语言模型的兴起标志着语言模型发展的一种新范式,从昂贵且资源密集的大语言模型转向更简化、更易于访问的小语言模型,这使得更多企业和组织可以采用和利用生成式 AI 来满足其特定需求。

https://juejin.cn/post/7335430755060367400

🎨 AI绘图小能手!网页平台轻松搞定模型训练和推理,艺术创作更便捷 💻

要点解析:

  • 阿里巴巴团队开源了一个名为 SCEPTER Studio 的万能图片生成工作台,它允许用户在 Web 界面上完成模型训练和微调,并管理相关数据,而无需编写任何代码。

  • SCEPTER 目前支持 Stable Diffusion 模型的训练和微调,并提供了多种微调方法,包括全量微调、LoRA 和 SCEPTER 团队自研的 SCEdit 框架。

  • SCEPTER 还集成了一个咒语书和一些现成的微调模型,并提供了文生图、可控图像合成等下游任务的支持。

http://www.qbitai.com/?p=121599

📷 电脑视觉更上一层楼!精准对焦技术为AI赋能,开启智能新时代 🧠

要点解析:

基于计算机视觉的很多应用,如增强现实和自动驾驶汽车,估计物体与摄像头之间的距离是一项至关重要的任务。基于焦深/失焦的深度估计是一种利用图像中的模糊作为线索来完成这一过程的技术。基于焦深/失焦的深度估计通常需要拍摄同一场景的一系列具有不同焦距的图像叠加,这一技术被称为“焦距堆叠”。

在过去十多年里,科学家们提出了许多不同的基于焦深/失焦的深度估计方法,其中大多数可以分为两类。第一类包括基于模型的方法,它使用数学和光学模型根据锐度或模糊度估计场景深度。然而,这种方法的主要问题在于,对于纹理较少的表面,它无法奏效,因为在整个焦距堆叠中,这些表面的外观几乎相同。

第二类方法是基于学习的方法,它可以被训练来有效执行基于焦深/失焦的深度估计,即使对于没有纹理的表面也是如此。然而,如果输入焦距堆叠中使用的摄像机设置与训练数据集中使用的设置不同,这些方法就会失效。

为了克服这些限制,来自日本的一个研究团队提出了一种基于焦深/失焦的创新深度估计方法,同时解决了上述问题。他们的研究发表在《国际计算机视觉杂志》上,由日本奈良科学技术大学(NAIST)的Yasuhiro Mukaigawa和Yuki Fujimura领导。

提出的技术被称为“基于焦距堆叠的深度深度”(DDFS),它将基于模型的深度估计与一个学习框架相结合,从而获得这两个世界的最佳效果。DDFS的灵感来自立体视觉中使用的一种策略,包括根据输入焦距堆叠、摄像机设置和透镜失焦模型建立一个“代价体积”。简单地说,代价体积表示一组深度假设——每个像素的潜在深度值——以及一个基于焦距堆叠中图像之间一致性计算出的相关代价值。Mukaigawa解释说:“代价体积对失焦图像和场景深度施加了约束,作为一种中间表示,它可以在训练和测试时使用不同的摄像机设置进行深度估计。”

DDFS方法还采用了编码器-解码器网络,这是一种常用的机器学习架构。该网络以渐进的方式从粗到细地估计场景深度,在每个阶段使用“代价聚合”自适应地学习图像中的局部结构。

研究人员将DDFS的性能与其他最先进的基于焦深/失焦的深度估计方法进行了比较。值得注意的是,在多个图像数据集的多个指标上,所提出的方法优于大多数方法。研究团队使用自己的相机拍摄的焦距堆叠的额外实验进一步证明了DDFS的潜力,使其即使在输入堆叠中只有少数输入图像的情况下也很有用,这与其他技术不同。

总体而言,DDFS可以作为需要深度估计的应用(包括机器人技术、自动驾驶汽车、3D图像重建、虚拟和增强现实以及监控)的一种有前途的方法。Mukaigawa总结说:“我们这种具有摄像机设置不变性的方法可以帮助扩展基于学习的深度估计技术的适用性。”

我们希望这项研究能够为更强大的计算机视觉系统铺平道路。

https://www.sciencedaily.com/releases/2024/02/240209134440.htm

🎓 DIY知识宝库!手把手教你用AI工具打造个人博客,知识触手可及 📚

要点解析:

  • 本文介绍了如何利用 [扣子/coze] 这个 AI Bot 开发平台来构建一个基于个人博客内容的知识库。[扣子/coze] 提供了插件、数据源、持久化和工作流等功能,能帮助开发者快速搭建 AI 应用。

  • 通过配置插件(搜索关键词)和工作流(过滤数据),可以实现从博客中提取与查询相关的关键词内容。并将这些内容导入 [扣子/coze] 的知识库,通过知识库的自动更新功能,不断收集最新数据,增强 Bot 的回答准确性。

  • 使用自然语言编写提示词,设定 Bot 的人设和回复逻辑,并结合插件、工作流和知识库,实现 Bot 提取、总结、分析博客内容的能力。通过优化提示词并预览调试,可以不断调整和完善 Bot 的表现。

https://juejin.cn/post/7335226083616227378

👴 老当益壮!65岁编程语言COBOL坚守岗位,而AI想要取而代之,仍需时日 🤖️

要点解析:

COBOL是一种有60多年历史的编程语言,尽管存在更好的现代化编程语言,但它在当前的商业世界中仍然至关重要。COBOL支持的系统每天处理超过3万亿美元的商业交易,并在95%的ATM和80%的信用卡刷卡交易中发挥着作用。然而,精通COBOL的程序员严重短缺,其笨重的系统也难以支持现代业务活动。

IBM最近发布了生成式AI编程助手“watsonx”,旨在通过将COBOL代码转换为Java语言来缓解COBOL程序员短缺的问题。人工智能生成仍然是一项早期技术,需要时间来完善,但它有可能成为解决COBOL困境的关键。

尽管人工智能生成有可能解决COBOL的困境,但IBM尚未提供案例研究来证明其有效性。专家建议采取观望态度,看看这项技术在实际应用中的表现如何。

https://www.ithome.com/0/750/559.htm

🌟 GitHub一周热点速递!第10期重磅来袭,不容错过的一手科技资讯 💻

要点解析:

  • 苹果开源项目Pkl是配置即代码语言,用于表达配置,支持多种输出格式,提供更好的验证支持。

  • StableCascade是StabilityAI发布的新文生图模型,基于Wuerstchen架构,视觉和评估效果好,推理更快,模型包含三个阶段:A、B和C。

  • 苹果开源人工智能模型ML-MGIE基于多模态大语言模型,可以处理各种编辑场景的像素级操作,进行跨模态理解和图像编辑指导。

https://juejin.cn/post/7335653891943694372

商标纠纷再起!美国专利商标局拒绝OpenAI注册GPT商标,保护竞争公平 ⚖️

要点解析:

美国专利商标局驳回OpenAI注册GPT商标的申请,认为GPT过于笼统,会妨碍竞争对手描述产品。OpenAI辩称GPT不是描述性词语,但专利局表示,尽管消费者不了解GPT含义,但技术领域人士知道它代表通用人工智能软件,并不仅仅是OpenAI的产品。这意味着其他公司可能无法使用GPT商标,因为该术语已成为人工智能的代名词。

OpenAI曾于2023年5月首次提交注册GPT商标,但遭到驳回。目前OpenAI可能会再次尝试注册。

https://www.landiannews.com/?p=102363

🗣️ 马斯克犀利点评OpenAI视频模型,接地气又一针见血,点出关键痛点 💡

要点解析:

  • 本期主线任务回归正常难度水平。

  • 题目为华为专业评级考试原题,给定正整数n,求其惩罚数(所有满足一定条件的数的平方和)。

  • 解答方法有暴力递归和打表两种,暴力递归时间复杂度为O(n logn^2),空间复杂度为O(logn^2),打表法时间复杂度为O(1),空间复杂度为O(C),其中C为预处理的范围。

https://juejin.cn/post/7335458600149581876

📉 美股下跌,英伟达财报备受期待,能否成为市场转折点? 📈

要点解析:

本周公布的CPI和PPI数据显示美国通胀未如预期持续降温,美联储降息时间预期从5月延后至6月。随着财报季接近尾声,美企表现稳健,推动市场情绪。但美联储很快降息希望落空,市场转向关注下周AI总龙头英伟达的财报,其业绩好坏将影响美股未来数月前景。

英伟达作为AI热潮的风向标,其财报将决定炒作狂潮能否继续。市场对英伟达业绩高度关注,并押注其超越预期。不过,如果英伟达仅仅达到预期,股价至少会下跌10%。

https://awtmt.com/articles/3708444

👑 AI领军者非OpenAI莫属!创始人亲解背后的秘诀,制霸业界 🏆

要点解析:

OpenAI 推出了文本转视频模型 Sora,它能根据文本提示生成长达一分钟的高保真视频。Sora 的目的是教会 AI 理解和模拟动态的物理世界,以帮助人们解决涉及现实世界交互的问题。

Sora 的能力令人印象深刻,它可以创建从 19 世纪加州淘金热到类似梦工厂制作的 3D 动画在内的各种高保真视频。用户只需提供简单的文本提示即可。

OpenAI CEO Sam Altman 在社交媒体上宣布 Sora 时,邀请用户提供视频提示,以展示 Sora 的功能。众多用户涌入,要求制作各种创意视频,包括猴子在公园里下棋、金毛猎犬在山上播客,以及威尔·史密斯吃意大利面等。

https://www.businessinsider.com/sam-altman-openai-video-text-model-creator-sora-leading-google-2024-2