本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计175545 字,简读后为16429字,阅读时间为41分钟,为您提高阅读效率为1071%
- OpenAI在ChatGPT中推出新的令人兴奋的功能 😃
- OpenAI的所有者是谁? 🤔
- AI将自我毁灭并导致模型崩溃 💥
- Magnific AI:用深度学习改变图像增强 🌟
- AI翻译新时代:轻松构建自己的多语言翻译工具 🌍
- Blackbox AI免费吗?深入了解定价、功能等 💰
- Bing Chat是什么?发挥GPT-4的强大力量 💬
- JOI AI是什么:您的终极陪伴体验 ❤️
- LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习 🤯
- AI:研究人员开发古代楔形文字片的自动文本识别 📜
要点解析:
-
JOI AI是一款超越传统虚拟伴侣范畴的先驱者,为用户提供个性化对话体验。用户可以根据个人偏好与AI进行定制对话。
-
JOI AI不仅仅是另一个聊天机器人;它是一个随时随地陪伴在你身边的伙伴。无论是安静的夜晚还是忙碌的工作日,JOI AI都是你的忠实伴侣。
-
JOI AI将用户带入了一个充满动态对话和个性化互动的世界。用户界面友好,无论是新手还是老手都能轻松上手。
原文链接:https://openaimaster.com/?p=27162
要点解析:
-
Hypotenuse AI是一款革新性平台,为内容营销人员、SEO专业人士和作家提供了一种简化生成文本和图像的方法。该平台旨在成为您内容创作过程的基石,可以根据您的输入计算和生成内容。
-
如同勾股定理计算斜边长度一样,Hypotenuse AI可以根据您的输入计算并生成内容。它可以无缝地用于继续现有内容或以特定命令提示AI进行写作。
-
Hypotenuse AI的命令工具是一个强大的功能,可以指导AI的创造性流程。通过突出显示任何内容并点击文本上方的“命令”,您可以根据您的特定说明或预先构建的命令指示AI重新制作突出显示的部分。这种功能使您能够对生成的内容进行细粒度控制。
原文链接:https://openaimaster.com/?p=27159
要点解析:
-
黑盒AI不是免费工具,但提供多种价格计划,以满足开发者的不同需求和预算。价格结构如下。
-
“优秀开发者”计划是入门级选项,每月价格为0.99美元。此计划适用于个人开发者,包括每个三个关键功能各1000次实例:代码自动完成、代码聊天和代码搜索。此外,用户可以保存关键代码片段,并享有优先支持。
-
“传奇开发者”计划价格为每月7.99美元,旨在容纳多达20名用户。它包含与“优秀开发者”计划相同的功能,但扩展到团队内多个用户,促进协作和效率。
原文链接:https://openaimaster.com/?p=27153
要点解析:
-
2月初,微软推出了新版必应搜索引擎,该版本配备了一项创新的聊天功能。这项集成在必应中的聊天功能采用了类似ChatGPT的先进人工智能(AI)技术。微软声称其聊天功能甚至比ChatGPT更强大,为用户提供了更先进和更具对话性的体验。后来,有消息称新版必应中的聊天功能由GPT-4提供支持,这是一个更新更为先进的技术版本。本文探讨了必应聊天是什么,深入介绍了必应聊天的功能、使用方法以及GPT-4所带来的进步。
-
必应聊天是由微软开发的基于人工智能的聊天机器人,旨在为用户的查询提供自然和对话式的响应。基于OpenAI的ChatGPT第4版大语言模型构建的必应聊天在生成与人类答案相似的响应方面表现出色。与传统搜索引擎不同,必应聊天通过提供创造性、平衡和精确的响应格式,为用户提供更具互动性和吸引力的体验,满足用户的偏好。
-
微软将GPT-4,大型语言模型的下一代版本,集成到了最新版的必应中,增强了聊天功能的能力,超越了ChatGPT。这种集成使得必应的AI聊天机器人可以处理各种问题,提供包括指向来源链接的详细和自然的响应。此外,由GPT-4支持的必应聊天还可以协助完成写诗、写故事和写歌等创造性任务,展示了这一先进技术的多功能性。
-
有兴趣探索人工智能和数据科学世界的人,Simplilearn提供了一个人工智能和机器学习的研究生项目。该项目提供了关于人工智能和数据科学的全面培训,包括Python数据科学、机器学习、深度学习、自然语言处理和Chat GPT等课程。此外,它还设有由IBM主持的黑客马拉松和AMA会话,使学习者能够获得实践经验和行业相关知识。
原文链接:https://www.simplilearn.com/bing-chat-article
要点解析:
-
OpenAI为其ChatGPT应用推出了一项改变游戏规则的功能,使语音提示对iOS和Android设备上的免费用户都可用。这一增强功能为用户开辟了新的可能性,使他们能够以更加动态和多样化的方式与这款AI助手进行互动。
-
OpenAI声称,这一新功能显著扩展了用户将ChatGPT整合到日常生活中的方式。通过加入语音提示,用户现在可以利用实时讨论,并使用口头语言获得问题的答案。
-
公司设想用户在各种场景中利用语音功能。例如,在移动时拍摄地标的照片,并就其显著特征展开讨论,这为互动增添了新的层次。此外,用户可以利用ChatGPT分析他们的食品储藏室或冰箱的内容,帮助他们决定晚餐吃什么。这种创新方法甚至延伸到教育用途,家长可以拍摄孩子的数学问题,让ChatGPT提供提示和指导。
原文链接:https://www.globalvillagespace.com/?p=346435
要点解析:
-
Magnific AI是一款领先的图像升频增强工具,利用深度学习算法将普通图像转化为令人惊艳的视觉杰作。它具有四种增强模式:升频、增强、去噪和去JPEG,支持多种图像格式,拥有用户友好的界面以及创意控制功能,服务于广泛的用户群体,提供不同的订阅计划。Magnific AI通过先进的技术和用户赋权,为用户重新定义了视觉叙事。
-
Magnific AI的四种增强模式分别是升频、增强、去噪和去JPEG,用户可以根据需要选择不同的模式。它支持多种图像格式,包括JPG、PNG、BMP、TIFF和GIF,满足用户的各种工作需求。通过深度学习算法,Magnific AI能够将图像的分辨率提高4倍而不降低质量,为图像注入更多细节和色彩,使图像更加自然和吸引人。
-
Magnific AI拥有用户友好的界面,提供深入的教程和支持社区,使得用户无论技能水平如何,都能轻松实现专业级的图像增强。创意控制功能赋予用户对增强过程的影响力,让用户可以参与到升频的过程中。此外,Magnific AI还提供不同的订阅计划,满足用户不同的需求和预算。
原文链接:https://openaimaster.com/?p=27136
要点解析:
-
Frosting AI是一款创新的平台,利用先进的稳定扩散生成模型,将文本提示转化为多样的逼真和富有想象力的图像。它的用户界面简单易用,无需艺术或人工智能知识,用户可以输入正面或负面提示,定制图像的纵横比,满足不同需求。
-
Frosting AI适用于艺术家、设计师和企业,可以生成各种风格的艺术作品,从抽象到逼真,甚至涉足幻想和科幻领域。它还可以改善图像质量,减少噪音,调整亮度和对比度,进行裁剪和调整大小。此外,Frosting AI还可以生成不存在的对象或场景的逼真图像,为市场营销材料和视频游戏开发提供独特和吸引人的视觉效果。
-
Frosting AI的技术基于稳定扩散模型,这一先进的生成模型可以分析文本提示并将其转化为令人印象深刻的图像。用户可以通过输入负面提示来调整输出,排除不需要的元素。
原文链接:https://openaimaster.com/?p=27133
要点解析:
-
11 月 21 日,Stability AI 推出了 Stable Video Diffusion,这是 Stability AI 的第一个基于图像模型 Stable Diffusion 的生成式视频基础模型.
-
目前 Stability AI 已经在 GitHub 上开源了 Stable Video Diffusion 的代码,在 Hugging Face 上也可以找到模型本地运行所需要的 weights.
-
目前该视频模型可以很容易地适配下游各种任务,并计划基于此基础模型建立一系列模型,类似于围绕 stable diffusion 建立一个生态系统。
-
在外部评估中,Stable Video Diffusion 发布的两种图片生视频的模型 SVD 和 SVD-XT,在用户偏好研究中,已经超过了 Runway 和 Pika Labs。
原文链接:https://juejin.cn/post/7304562756430184486
要点解析:
-
LangChain团队创建了一款AI无代码工具,能够使用自然语言构建完全功能的Web应用程序。这个名为Dream的新工具允许非技术用户构建和部署功能网站。
-
使用Dream,企业可以构建网页,添加部分,甚至集成模块化功能,如存储信息的数据库或连接到OpenAI的API服务,所有这些都可以通过文本提示来完成。
-
这并不像输入“构建一个关于海狸的网站”然后得到一个完全成型的网站那样简单—Dream需要用户采取一步一步的方法。更多的是通过交互式方式使用命令来简化流程。用户可以指导AI创建网站,做出选择,并在途中提供具体的指令。
-
它可以让企业在没有技术专业知识的情况下开发复杂的Web应用程序。
原文链接:https://aibusiness.com/ml/meet-dream-from-langchain-an-ai-no-code-tool-to-build-web-apps
要点解析:
-
视频生成技术取得重大进展,多家公司发布了新模型。Runway Gen-2 模型升级,带来高清晰度,但一致性提升似乎以牺牲动态性为代价。Meta发布了 Emu Video,动态性有所提高。Stability.ai发布了开源视频生成模型 SVD,引发开源社区关注。PixelDance 在视频生成领域迈出关键性一步,动态性显著优于其它模型。
-
视频生成领域的最大挑战是生成高度一致性且有丰富动态性的视频。PixelDance 提供两种视频生成模式,基础模式和高级魔法模式,展示了各种炫酷特效镜头。PixelDance 制作的 3 分钟故事短片显示出其令人震撼的视频生成效果。
-
PixelDance 通过基于文本指导和首尾帧图片指导的视频生成方法,使模型更充分地关注和学习视频的动态信息。其模型效果积极迭代中,未来将放出人人可以试用的模型。
原文链接:https://www.jiqizhixin.com/articles/2023-11-24-7
要点解析:
-
国际汽联(FIA)表示,将在本周末的阿布扎比大奖赛闭幕战上使用计算机视觉技术。车手们知道在弯道上行驶的最佳路线,以获得最佳圈速,但有时赛车手为了获得优势而走出界限,官员需要检查赛车是否在赛道限制内。7月的奥地利大奖赛,有四名工作人员不得不审查约1200起潜在的违规行为,10月的美国大奖赛中一些赛道限制的违规行为未受到惩罚。FIA希望将官员手动审查的可能违规行为数量减少到每场比赛约50次。
-
此外,各种常见的小工具都有大量的交易。黑色星期五就是黑色星期五。
-
Mat Smith
您可以在此处订阅,每天直接将这些报告发送到您的收件箱中。
- 您可能错过的最重要的故事
Pixel 7a的打折幅度为25%,比以往更便宜
2023年AirPods和AirPods Pro的最佳黑色星期五交易
观看《塞尔达传说:时光之笛》,以吉布里工作室的风格重新想象
Dbrand起诉Casetify涉嫌窃取其外壳和皮肤设计
-
Casetify显然留下了Dbrand的拆解产品中的彩蛋。
Dbrand
配件制造商Dbrand —— 通常是诉讼的对象 —— 对Casetify提起了一项涉及“数百万美元”的诉讼,指控其剽窃了其“透明”的拆解产品的设计。这些外壳和套件看起来像是应用于其内部组件的设备的内部组件,如智能手机和笔记本电脑。Dbrand和YouTuber Zack“JerryRigEverything”Nelson表示Casetify窃取了这些设计。他们声称Casetify的Inside Out外壳上有Dbrand拆解产品上的标签的一个遮盖不佳的版本,上面带有Nelson的标志性短语“玻璃就是玻璃,玻璃会碎”。
继续阅读。
NVIDIA因屏幕共享失误被控窃取商业机密
-
瓦莱奥称NVIDIA通过窃取其商业机密节省了数百万美元。
黑色星期五意味着……更多的公司诉讼!NVIDIA正面临来自法国汽车公司瓦莱奥的诉讼,原因是其一名员工在屏幕共享失误后被控窃取商业机密。根据瓦莱奥的投诉,一名曾在瓦莱奥工作的NVIDIA工程师在2022年两家公司之间的会议期间,在共享屏幕时错误地展示了其计算机上的源代码文件。
继续阅读。
2023年最佳黑色星期五交易
--
- 在苹果、三星、谷歌等公司的技术产品上获得创纪录的低价。
Engadget
黑色星期五可能仍然是一天,但它已经变成了感恩节后的购物狂潮。我们在Engadget最关心的是消费类电子产品,而黑色星期五(以及网络星期一)通常会带来一年中最好的技术产品的最佳价格。今年的值得注意的折扣包括AirTags、智能插座、戴森的美发产品、Sonos音响等。此外,值得关注的还有Peacock、Max等流媒体服务的订阅优惠。
继续阅读。
本文最初出现在Engadget上,网址为https://www.engadget.com/the-morning-after-formula-1-wants-ai-to-help-it-figure-out-if-a-car-breaks-track-limits-121523661.html?src=rss
要点解析:
-
OpenAI,一家领先的人工智能研究公司,以开发GPT-3和DALL-E等先进AI模型而闻名。然而,尽管其声誉和影响力很大,所有权问题经常引发混乱和好奇。本文深入探讨了OpenAI复杂的所有权结构,揭示了关键人物及其在塑造这一人工智能强大实力中的角色。
-
OpenAI,一家领先的人工智能研究实验室,拥有一个随着时间发展而演变的复杂所有权结构。该组织最初成立为非营利实体,但后来过渡为包括非营利和营利部分的混合模型。
-
OpenAI是由一群杰出人士于2015年12月创立的,包括埃隆·马斯克、萨姆·阿尔特曼、伊利亚·苏茨克弗、格雷格·布罗克曼、埃隆·马斯克、里德·霍夫曼、杰西卡·利文斯顿、彼得·蒂尔、亚马逊网络服务(AWS)、Infosys和YC研究。这些创始人承诺向这一冒险投资超过10亿美元,马斯克是最大的捐赠者。然而,埃隆·马斯克在2018年退出了积极的角色,但仍然是捐赠者和顾问。
原文链接:https://openaimaster.com/?p=27124
要点解析:
-
一周之后,著名或臭名昭著的OpenAI Dev Day,我们在Confident AI发布了JudgementalGPT——一个使用OpenAI的Assistants API构建的LLM代理,专门用于评估其他LLM应用程序。最初只是一个实验性的想法,很快就变成了一个我们急于推出的原型,因为我们收到了用户的反馈,称JudgementalGPT与其他最先进的基于LLM的评估方法(如G-Eval)相比,提供了更准确和可靠的结果。
-
可以理解的是,由于Confident AI是世界上第一个开源的LLM评估基础设施,许多人在我们最初发布后要求更多的透明度,希望了解JudgementalGPT是如何构建的。
-
所以,亲爱的匿名互联网陌生人,这篇文章就是专门为你写的。
DeepEval - 用于LLM应用程序的开源评估框架
==
DeepEval是一个框架,帮助工程师通过提供默认指标来评估他们的LLM应用程序的性能,以衡量产生幻觉、相关性等。
我们刚刚起步,而且我们真的希望帮助更多的开发人员构建更安全的AI应用程序。你介意给它点个星来传播这个消息吗?🥺❤️🥺
🌟 GitHub上的DeepEval
LLM评估的局限性
==
G-Eval的作者表示:
传统的基于参考的指标,如BLEU和ROUGE,已经被证明与人类判断的相关性相对较低,特别是对于需要创造力和多样性的任务。
对于那些还不知道的人来说,G-Eval是一个利用大型语言模型(LLM)和思维链(CoT)处理来评估填充形式生成的文本质量的框架,如果你曾经试图实现自己的版本,你会很快发现,使用LLM进行评估会带来一系列问题:
-
不可靠性 — 尽管G-Eval使用低精度的评分标准(1-5),这样更容易解释,但即使在相同的评估条件下,这些分数也会有很大的变化。这种变异是由于G-Eval中的一个中间步骤动态生成后续评估步骤,这增加了评估分数的随机性(这也是为什么提供初始种子值也无济于事的原因)。
-
不准确性 — 对于某些任务,一个数字通常占主导地位(例如,使用gpt-3.5-turbo的1-5评分标准中的3)。解决这个问题的方法是使用LLM输出标记的概率来规范化分数,并将它们的加权总和作为最终分数。但不幸的是,如果你使用OpenAI的GPT模型作为评估者,因为几个月前他们废弃了logprobs参数,这不是一个选项。
事实上,另一篇探讨LLM作为评判者的论文指出,使用LLM作为评估者在几个方面是有缺陷的。例如,GPT-4偏爱自动生成的输出,数学不是很好(但我也不擅长),而且容易产生冗长偏见。冗长偏见意味着它更倾向于更长、冗长的回答,而不是准确、更短的替代方案。(事实上,一项初步研究表明,GPT-4在8.75%的时间里表现出冗长偏见)
你能看出来,如果你试图评估一个总结任务,这会成为一个问题吗?
OpenAI助手为现有问题提供了解决方法
==
这里有一个惊喜——JudgementalGPT不是由一个使用新的OpenAI助手API构建的评估者组成的,而是由多个评估者代理组成。没错,在幕后,JudgementalGPT是一个代理多个助手的代理,这些助手根据手头的评估任务执行不同的评估。
JudgementalGPT旨在解决以下问题:
-
偏见 — 我们仍在进行实验(这也是关闭JudgementalGPT的另一个原因!),但助手有能力使用代码解释工具编写和执行代码,这意味着通过一些提示工程,它可以处理更容易出现逻辑谬误的任务,比如断言编码或数学问题,或者需要更多事实性而不是更倾向于自己输出的任务。
-
可靠性 — 由于我们不再要求LLM动态生成CoTs/评估步骤,我们可以为特定的评估任务强制执行一组规则。换句话说,由于我们根据手头的评估任务预定义了多组评估步骤,我们已经消除了对随机性做出最大贡献的最大参数。
-
准确性 — 为不同的任务预定义一组评估步骤也意味着我们可以根据我们作为人类对每个评估者的期望提供更多的指导,并根据用户反馈快速迭代实现。
当我们将G-Eval集成到我们的开源项目DeepEval时,我们得到的另一个见解是LLM生成的评估步骤往往冗长而充满废话。
当我们将G-Eval集成到我们的开源项目DeepEval时,我们得到的另一个见解是,LLM生成的评估步骤往往是任意的,通常不会在提供评估指导方面起到作用。你们中的一些人可能还想知道当JudgementalGPT无法找到适合特定评估任务的评估者时会发生什么。对于这种边缘情况,我们会默认回到G-Eval。这里有一个关于JudgementalGPT工作原理的快速架构图:
当我写这篇文章时,我发现了一篇最近的论文介绍了Prometheus,“这是一个完全开源的LLM,在附带适当的参考材料(参考答案、得分标准)的情况下,它的评估能力与GPT-4相媲美”,这也要求明确定义评估步骤。
但是,LLM评估仍然存在问题
==
一个未解决的问题涉及来自评估分数中单个数字的主导地位所带来的准确性挑战。理论上,这种现象不仅限于旧模型,也可能影响像gpt-4–1106-preview这样的高级版本。所以,我对这可能如何影响JudgementalGPT持开放态度。我们真的很期待更多的研究,它要么支持我们的观点,要么给我们一个全新的视角——无论哪种情况,我都非常愿意倾听。
最后,定义我们自己的一组评估者可能涉及到一些复杂性。例如,就像G-Eval不是一刀切的解决方案一样,总结或相关性也不是。任何受可解释性影响的指标都肯定会让期望得到不同结果的用户失望。目前,最好的解决方案是让用户清楚地定义他们的评估标准,以消除LLM中的任何评估模糊性。
结论
==
归根结底,对于基于LLM的评估,没有一刀切的解决方案,这就是为什么工程师/数据科学家经常会对非人类评估分数感到失望。然而,通过为不同的用例定义具体而简洁的评估步骤,LLM能够更好地应对模糊性,因为它们得到了更多关于人类对不同评估标准的期望的指导。
P.S. 到现在为止,那些能够看穿字里行间的人可能已经知道构建更好的评估者的关键是为特定的用例量身定制它们,而OpenAI的新助手API以及它的代码解释功能仅仅是锦上添花(也是一个很好的营销策略!)。
所以,亲爱的匿名互联网陌生人,我希望你满意了,下次再见。
原文链接:https://dev.to/confidentai/why-openai-assistants-is-a-big-win-for-llm-evaluation-540l
要点解析:
-
2023年11月24日,James Vincent在The Verge上绘制了一个生动的画面,描述了由生成式人工智能的出现所引起的当前互联网格局的巨大变化。各个平台正在经历重大转变,我们正在目睹传统网络结构的衰落和以人工智能驱动的内容的崛起。
-
从谷歌试图彻底改变其搜索结果到Twitter的机器人和验证问题,这些变化是普遍的。亚马逊和TikTok面临内容质量挑战,而在线媒体公司也在应对裁员问题。就业部门也受到影响,需要“AI编辑”每周能够生产数百篇文章。
-
ChatGPT是这一转变中的一个重要参与者,已被用于创建整个垃圾网站。Etsy等平台被大量由AI生成的产品淹没,而误导信息大量存在,因为聊天机器人相互引用。LinkedIn使用AI来吸引用户,Snapchat和Instagram采用基于机器人的互动策略,Reddit进行黑屏抗议,Stack Overflow的版主罢工,互联网档案馆与数据抓取器的斗争,以及维基百科的内部斗争,都表明了网络结构的巨大变化。
原文链接:https://www.greataiprompts.com/?p=5112
要点解析:
-
一支由哈雷-维滕贝格大学(MLU)、美因茨约翰古登堡大学(JGU)和美因兹应用科学大学的团队开发的新人工智能(AI)软件现在能够解读楔形文字片上难以辨认的文本。该AI系统使用3D模型而非照片,其结果比以往方法更加可靠。这使得可以搜索多个楔形文字片的内容并将它们相互比较成为可能。这也为全新的研究问题铺平了道路。
-
研究人员采用了一种新的方法,使用了近2000块楔形文字片的3D模型,其中约50块来自MLU的收藏。据估计,全球仍有约100万块此类片子。其中许多有5000多年历史,因此是人类保存至今最古老的文字记录之一。它们涵盖了极其广泛的主题:“从购物清单到法院裁决,上面什么都有。这些片子让人们一窥几千年前的人类历史。然而,它们经过严重风化,即使经过训练有素的眼睛,也很难辨认,”MLU的助理教授Hubert Mara说道。
-
这是因为楔形文字片是未经烧制的粘土块,上面被压入了文字。为了使事情更加复杂,当时的文字系统非常复杂,包含了几种语言。因此,不仅需要最佳的光照条件来正确识别符号,还需要很多背景知识。“直到现在,很难一次性访问许多楔形文字片的内容——你必须准确地知道你要找什么和在哪里找,”Mara补充道。
-
他的实验室提出了开发一种基于3D模型的人工智能系统的想法。新系统比以往的方法更好地破译字符。原则上,这个AI系统的工作原理与光学字符识别(OCR)软件相同,它可以将文字和文本的图像转换成机器可读的文本。这有许多优点。一旦转换成计算机文本,文本就可以更容易地阅读或搜索。“OCR通常使用照片或扫描。这对纸张或羊皮纸上的墨迹没有问题。然而,在楔形文字片的情况下,情况就比较困难了,因为光线和视角会极大地影响某些字符的识别,”MLU的Ernst Stötzner解释道。他是在Hubert Mara的指导下,在他的硕士论文中开发了新的AI系统。
原文链接:https://www.sciencedaily.com/releases/2023/11/231120124148.htm
要点解析:
-
在微信群里,看到了一段引人入胜的武侠小说片段,配以一幅生动的插图。感觉这个图差点儿意思,这激发了我想要重现这一场景的欲望。正好ChatGPT不仅能处理文本,还能创造出惊人的图片。于是,我决定尝试使用ChatGPT来重新绘制这个武侠小说的场景。
-
Dall·E.你可能会问,这是啥?嗯,简单来说,这就是一个由OpenAI搞出来的小魔盒,能把你的文字想象变成图片。想象一下,你随便写点什么,比如“穿着火箭背包的猫在太空中追逐激光指针”,然后BAM!这个AI就能给你变出一张这样的图。是不是很炫?
-
有了Plus会员的身份,就可以开始愉快地使用Dall·E了。其实用起来挺简单的。
原文链接:https://juejin.cn/post/7304635193419857930
要点解析:
-
大模型时代的到来,提高了AI算法研究的门槛,降低了工程开发应用AI的难度。传统工程技术开发者的春天来了。
-
huggingface已经成为全球开源大模型的“集散地”,上面有很多好玩、实用的大模型,都可以拿回来做一些有意思的事情。
-
使用HF上由facebook开源的翻译大模型,搭建和部署一个简单的翻译APP。
原文链接:https://juejin.cn/post/7304840253827252276
要点解析:
-
10 月 26 日,腾讯宣布,腾讯混元大模型迎来全新升级,并正式对外开放「文生图」功能,展示了其在图像自动生成领域的领先能力。升级后的腾讯混元中文能力整体超过 GPT3.5,代码能力大幅提升 20%,达到业界领先水平。腾讯自研的面向垂直领域的 7B 和 13B 模型也首次亮相,同等效果下仅需较少的 tokens,训练效率更高。
-
作为实用级的通用大模型,腾讯混元大模型的应用场景丰富多样。目前,超过 180 个腾讯内部业务已接入腾讯混元,包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。最近,QQ 浏览器还基于腾讯混元推出了「PDF 阅读助手」,具备智能摘要、智能问答和多轮提问等功能。
-
据了解,腾讯掌握从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术,这为大模型的快速迭代提供了有利条件。自首次公开亮相以来,腾讯混元大模型进入了加速升级的轨道。在自研算法的支持下,模型稳定性和可靠性稳步提升。
原文链接:https://juejin.cn/post/7304690340798857257
要点解析:
-
飞书发布了全新的 AI 产品——飞书智能伙伴,为企业提供更好的拥抱 AI 时代的支持.该智能伙伴被描述为一个具有知识;记忆;主动性和专属个性的智慧体,与微软 Copilot 等工具不同.它具备内容创作;信息处理;信息获取;业务洞察能力,以及业务流程管理与搭建等多方面功能,支持企业通过 0 代码定制场景,实现低代码搭建智能业务伙伴。飞书智能伙伴正式申请开始,首批限时 10000 名额。
-
Adobe 首次收购印度初创公司 Rephrase.ai,专注于 AI 视频创作.Rephrase.ai 利用 AI 技术将文本脚本和用户头像合成用户形象视频,适用于市场营销等商业用途,在 Adobe 收购之前,Rephrase.ai 已获得 1390 万美元投资.AI 生成内容从文本和图片扩展到视频,类似产品有 Meta 的 Emu 模型和 Runway 的 Gen-2 模型,表明 AI 视频创作领域正迎来竞争升温的时期。
-
Elevenlabs 推出了一款名为“语音转语音”(STS)的人工智能平台,通过神经网络和深度学习技术,简化了传统语音转换的复杂过程.STS 能够自动将上传的录音转换为不同的声音,如男声;女声;老人声;童声等,并允许用户可视化和控制转换后的语音属性,如强度;音调;表现力和风格.受面部变换应用启发,该技术从用户上传的录音中提取情感和音调,实现有针对性的语音转换。
原文链接:https://juejin.cn/post/7304598711992631334
要点解析:
-
11 月 21 日,Stability AI 推出了 Stable Video Diffusion,这是 Stability AI 的第一个基于图像模型 Stable Diffusion 的生成式视频基础模型.
-
目前 Stability AI 已经在 GitHub 上开源了 Stable Video Diffusion 的代码,在 Hugging Face 上也可以找到模型本地运行所需要的 weights.
-
目前该视频模型可以很容易地适配下游各种任务,并计划基于此基础模型建立一系列模型,类似于围绕 stable diffusion 建立一个生态系统。
-
在外部评估中,Stable Video Diffusion 发布的两种图片生视频的模型 SVD 和 SVD-XT,在用户偏好研究中,已经超过了 Runway 和 Pika Labs。
原文链接:https://juejin.cn/post/7304562756430184486
要点解析:
-
包裹盗窃是指在消费者不在家时送达的包裹被盗,这是一个每年价值200亿美元的问题,去年有大约2.6亿个包裹消失,据CNBC报道。
-
随着零售经济进入假日购物季,商家和执法官员正在为我们准备在美国单独运送近35亿个包裹的激增而做好准备。
-
这个问题正在拉紧零售和当地执法资源,对于一线辛勤工作的快递员来说,这经常会导致对他们假的指控,这些指控会永久地影响就业记录,尽管大多数快递员都必须通过各种应用程序与购买者分享每个交付的照片。
-
Data & Society的研究人员对亚马逊Flex、Uber Eats、Instacart、Shipt和DoorDash的司机进行了访谈。Fast Company报道的这项研究发现,司机经常被指控盗窃包裹,即使是无法证实的指控也会被记录在未来雇主可以访问的国家数据库中。这不公平。
原文链接:https://www.fastcompany.com/90987036/porch-piracy-ai-solution
要点解析:
-
一项由马丁·路德大学哈勒-维滕贝格(MLU);约翰内斯·古腾堡大学迈因茨分校和迈因茨应用科学大学团队开发的新型人工智能软件如今能够解读难以辨认的楔形文字.与以往依赖照片的方法不同,该AI系统利用楔形文字片的3D模型,传递的结果比先前的方法更加可靠.这使得能够通过比较多个片上的内容进行搜索,为全新的研究问题铺平道路。
-
在这一新的研究方法中,研究人员使用了近2000块楔形文字片的3D模型,其中包括MLU收藏的约50块.据估计,全球仍然存在着大约一百万块这样的片,其中许多都有5000多年的历史,是人类最古老的文字记录之一.它们涵盖了广泛的主题,从购物清单到法院裁决,为人类几千年前的过去提供了一瞥.然而,由于这些楔形文字片是未经烧制的泥块,上面压入了文字,它们变得非常难以辨认,即使对于训练有素的眼睛也是如此.
-
为了解决这个问题,MLU的Hubert Mara助理教授提出了开发基于3D模型的人工智能系统的想法.新系统比以前的方法更好地解密了文字.原理上,这个AI系统的工作方式类似于光学字符识别(OCR)软件,它将文字和文本的图像转换为机器可读的文本.这有很多优势,一旦转换为计算机文本,文字就可以更容易地阅读或搜索.
原文链接:https://m.cnbeta.com.tw/view/1399507.htm
要点解析:
-
Google 正在为其移动设备上的 Assistant 集成新的 AI 功能,即将推出名为“Classic Assistant”的版本。这一消息得到了 Android 深度研究者 AssembleDeBug 在 X 平台(通过 Android Police)的透露。最新的代码显示,用户将可以选择是否使用集成了 Bard 的“Assistant”,与目前版本相比,Bard 将带来更多 AI 功能。
-
目前的代码显示,用户可以通过进入 Google 应用的设置,切换回经典版本的 Assistant。不过,用户将无法同时使用经典 Assistant 功能和 AI 增强版本,必须在推出时做出选择。Google 的进展显而易见,但目前尚不清楚 Assistant 和 Bard 结合的具体推出时间。先前的预览显示,Assistant 与 Bard 的结合将密切模仿用户在网上的体验,允许用户利用 Assistant-Bard 集成草拟电子邮件;导出文档,并访问如酒店;航班;YouTube 等 Bard 扩展。Google 最初宣布该集成计划时提到,它将适用于 Android 和 iOS 设备。目前的应用代码暗示,最新的 Pixel 8 系列可能会首先接收此更新。同样,Google 将为少数人测试 Assistant 与 Bard,以便首先收集反馈。所有这些的确切发生日期尚未确定,但有望在年底前开始测试。
原文链接:https://m.cnbeta.com.tw/view/1399505.htm
要点解析:
-
一些大型科技公司和商业巨头警告欧盟不要过度监管人工智能基础模型,担心这可能扼杀新兴初创企业或者迫使一些AI科技领导者被迫离开欧盟。这些公司担心欧盟即将出台的人工智能规则可能对AI基础模型进行过度监管,影响创新和发展。
-
争论焦点在于AI基础模型,比如OpenAI旗下的GPT-4大语言模型属于AI基础模型。这些基础模型经过大量数据训练,具有执行各种任务的强大能力,比如生成文本、回答问题、翻译语言等。这些公司认为对基础模型进行过度监管可能会限制创新参与者的发展机会。
-
一些大型科技公司和商业巨头组成的组织表示,欧盟需要利用基础模型和GPAI引领人工智能创新浪潮,不要在创新参与者有机会扩大规模之前就对其进行强力监管,也不要强迫其离开。他们认为欧盟对AI初创企业的财政支持计划至关重要。
原文链接:https://m.cnbeta.com.tw/view/1399503.htm
要点解析:
-
Self-RAG 是一个新框架,它不仅可以根据需要自适应地检索段落,还引入了名为反思令牌的特殊令牌,使 LM 在推理阶段可控。
-
实验结果显示,Self-RAG 在多种任务上表现得比现有的 LLMs更好,特别是在事实性和引用准确性方面有显著提高。
-
通过检索和自我反思来提高 LLM 的质量和事实性,同时又不牺牲 LLM 的原始创造性和多功能性。
原文链接:https://juejin.cn/post/7304531203746512936
要点解析:
-
LLM的规划推理能力和涌现能力的来源, 是上下文学习的结果。
-
LLM的涌现能力主要是上下文学习带来的。
-
LLM在执行一些没有经过明确训练的;且需要复杂推理能力的任务时,表现不是一般的好。这种能力对未来NLP的研究方向产生了重大影响。
要点解析:
-
月初,大神Greg Kamradt测试了GPT-4 Turbo上下文真实实力,发现Claude 2.1在上下文长度达到90K后性能下降。
-
OpenAI发布支持200K上下文的Claude 2.1,提升了一倍的上下文能力,模型出现幻觉的概率缩小,支持系统提示词和小工具的使用。
-
本月初,Greg Kamradt对Claude 2.1进行了上下文能力的压力测试,发现在官方标称的极限长度200K下,Claude 2.1有能力提取出标记性的语句,但对文档底部内容的获取能力下降。
要点解析:
-
Hugging Face总结了开源社区最受欢迎的15个AI公司和机构,其中Stability AI和Meta AI分别名列前两位。Stability AI发布了Stable Diffusion,提高了AI生成图像的水平,而Meta AI则是开源社区最受欢迎的公司之一,对AI开源社区的贡献极大。
-
Runway发布了视频生成工具Gen-2,成为生成式AI视频领域的标杆。CompVis领导下的Stable Diffusion V1改变了开源AI模型的性质,产生了数百个其他模型和创新。
-
清华KEG实验室发布了ChatGLM2-6B,成为中国顶尖开源大模型,开启了中国大模型创业的半壁江山。BigScience Research Workshop汇聚了全球1000+研究人员,创建了拥有1760亿参数的模型BLOOM。
要点解析:
-
OpenAI的Q*项目引发了猜想,许多网友将研究重点放在了Q学习身上。Q-learning是一种无模型的强化学习算法,旨在学习特定状态下某个动作的价值。Q-learning的最终目标是找到最佳策略,即在每个状态下采取最佳动作,以最大化随时间累积的奖励。
-
Q-learning在人工智能领域代表了一种重要的方法论,但要克服几个挑战,包括可扩展性、泛化、适应性和多技能整合。未来的发展方向包括深度Q网络(DQN)、迁移学习和元学习。
-
使用强化学习进行微调是训练ChatGPT/GPT-4等高性能LLM的秘诀。但是,RL本质上是数据低效的,而且使用人类手动注释数据集进行强化学习的微调成本极高。解决方案可能在于使用LLM和较小的手动标注数据集,为RL综合生成尽可能多的高质量数据。
要点解析:
-
夸克大模型是一个面向搜索;生产力工具和资产管理助手的应用型大模型,应用场景有通用搜索;医疗健康;教育学习;职场办公等等。
-
在健康上,夸克团队做了许多行业数据建设和知识建设,建成了完整的健康知识图谱。另外,他们还建设了大量的医典百科;医典问答这类面向C端的数据,并且整理了大量指南;标准;书籍。
-
在教育类产品上,不止要看能不能答,更要看为什么能答。比如这个应用题,一个圆桶周长25米,深40厘米,这桶水有多少千克呢?夸克大模型回答时,不仅会列出解题的过程,还会输出解题会用到哪些公式,涉及哪些关键知识点,比如各单位的换算关系。
要点解析:
-
人工智能项目Q-Star由著名AI实验室OpenAI开发,具有颠覆科技和社会的潜力。随着Q-Star令人惊叹的能力细节泄露,关于这一切对人类未来意味着什么的猜测也疯狂传播。
-
为了理解Q-Star的炒作,首先必须理解人工通用智能(AGI)的概念。虽然当今的AI系统擅长于狭窄、特定的任务,比如下棋和生成图像,但AGI指的是能够在许多领域像人类一样学习和推理的机器。AGI的创造被认为是AI的圣杯,这是一个长期以来一直吸引研究人员想象力的理论可能性。对于像Q-Star这样的系统来展示甚至是基本的广泛智能,具有地震般的影响。
-
Q-Star,通常被称为Q*,是由OpenAI开发的人工智能(AI)算法。据报道,它能够解决不属于其训练材料的简单数学问题,一些研究人员认为这是实现人工通用智能(AGI)的重要一步。AGI被OpenAI定义为比人类更聪明的AI系统。Q-Star的开发由OpenAI的首席科学家Ilya Sutskever领导,并由研究人员Jakub Pachocki和Szymon Sidor进一步开发。
原文链接:https://openaimaster.com/?p=27121
要点解析:
-
复旦大学计算机科学技术学院教授表示,与OpenAI的差距正拉大。肖仰华接受媒体采访表示,让大模型去解决复杂问题,但普通用户一般都是简单的问题,用小模型就可以了。他形容,ChatGPT的AI技术已形成一种“飞轮效应”,迭代和优化正推动技术进入一个自我强化的快速发展阶段。行业或将变成“只有第一,没有第二”的局面。
-
“我们的文化中,聪明人太多,总想抄近路。有时候就是要坚持,要笨一点,才能做出真正的大杀器。我们与OpenAI的差距正在拉大,不是在缩小。”肖教授说道。
-
本月初,在OpenAI首次开发者大会上,CEO阿尔特曼(Sam Altman)用45分钟的时间公布了过去一年中GPT的各项数据,以及最新版本GPT-4 Turbo的升级功能。
原文链接:https://m.cnbeta.com.tw/view/1399543.htm
要点解析:
-
过去几天,OpenAI发生了令人难以置信的事情。大多数员工决定签署并发送一封信给OpenAI董事会,要求重新聘用上周五被解雇的CEO Sam Altman,否则他们将与他一起离开。这样的故事你听说过吗?这就是社区的力量。Sam Altman、Greg Brockman和OpenAI建立了一种像家庭一样强大的东西。这就是社区的力量,当做对了时,他们可以击败更大或更强大的实体。这也是为什么我非常自豪能成为这个AI领域中与杰出人才一起的社区的一部分。P.S. 如果这个传奇故事引起了你的兴趣,而你没有在线关注,可以在我们上一期的通讯中阅读更多。现在,让我们来看看我们自己家族的这周新闻,以及我们一直在做的事情,首先是我在MindStudio担任CEO的朋友关于AI未来、LLMs的发展、使用等等的精彩对话...
-
在本周的What's AI播客节目中,Louis Bouchard采访了Dmitry Shapiro,他曾在谷歌工作,曾担任MySpace音乐的CTO。现在,Dmitry正在打造一个雄心勃勃的项目,以实现人工智能的民主化。在这一集中,他们讨论了他的平台YouAI和Mindstudio,以及一些适用于创建更好的AI应用程序的技巧,例如模型选择、提示、RAG等等。如果你对用户视角、人工智能的民主化以及人工智能的未来感兴趣,可以在YouTube、Spotify和Apple Podcasts上收听!
-
在Learn AI Together社区部分!Discord的Mateomd_dev为我们所有人建立了有用的东西!代码项目助手通过推荐适合其独特优势和用例的项目,帮助学习编程语言。通过提供您感兴趣的编程语言的名称,GPT将为您提供语言的简短描述、示例和项目想法。在这里尝试并支持社区成员。在帖子中分享您的经验和反馈!
原文链接:https://towardsai.net/p/artificial-intelligence/learn-to-build-towards-ai-community-newsletter-2
要点解析:
-
一支由哈雷-维滕贝格大学(MLU)、美因茨约翰古登堡大学(JGU)和美因兹应用科学大学的团队开发的新人工智能(AI)软件现在能够解读楔形文字片上难以辨认的文本。该AI系统使用3D模型而非照片,其结果比以往方法更加可靠。这使得可以搜索多个楔形文字片的内容并将它们相互比较成为可能。这也为全新的研究问题铺平了道路。
-
研究人员采用了一种新的方法,使用了近2000块楔形文字片的3D模型,其中约50块来自MLU的收藏。据估计,全球仍有约100万块此类片子。其中许多有5000多年历史,因此是人类保存至今最古老的文字记录之一。它们涵盖了极其广泛的主题:“从购物清单到法院裁决,上面什么都有。这些片子让人们一窥几千年前的人类历史。然而,它们经过严重风化,即使经过训练有素的眼睛,也很难辨认,”MLU的助理教授Hubert Mara说道。
-
这是因为楔形文字片是未经烧制的粘土块,上面被压入了文字。为了使事情更加复杂,当时的文字系统非常复杂,包含了几种语言。因此,不仅需要最佳的光照条件来正确识别符号,还需要很多背景知识。“直到现在,很难一次性访问许多楔形文字片的内容——你必须准确地知道你要找什么和在哪里找,”Mara补充道。
-
他的实验室提出了开发一种基于3D模型的人工智能系统的想法。新系统比以往的方法更好地破译字符。原则上,这个AI系统的工作原理与光学字符识别(OCR)软件相同,它可以将文字和文本的图像转换成机器可读的文本。这有许多优点。一旦转换成计算机文本,文本就可以更容易地阅读或搜索。“OCR通常使用照片或扫描。这对纸张或羊皮纸上的墨迹没有问题。然而,在楔形文字片的情况下,情况就比较困难了,因为光线和视角会极大地影响某些字符的识别,”MLU的Ernst Stötzner解释道。他是在Hubert Mara的指导下,在他的硕士论文中开发了新的AI系统。
原文链接:https://www.sciencedaily.com/releases/2023/11/231120124148.htm
要点解析:
-
大模型时代的到来,提高了AI算法研究的门槛,降低了工程开发应用AI的难度。传统工程技术开发者的春天来了。
-
huggingface已经成为全球开源大模型的“集散地”,上面有很多好玩、实用的大模型,都可以拿回来做一些有意思的事情。
-
使用HF上由facebook开源的翻译大模型,搭建和部署一个简单的翻译APP。
原文链接:https://juejin.cn/post/7304840253827252276
要点解析:
-
Self-RAG 是一个新框架,它不仅可以根据需要自适应地检索段落,还引入了名为反思令牌的特殊令牌,使 LM 在推理阶段可控。
-
实验结果显示,Self-RAG 在多种任务上表现得比现有的 LLMs更好,特别是在事实性和引用准确性方面有显著提高。
-
通过检索和自我反思来提高 LLM 的质量和事实性,同时又不牺牲 LLM 的原始创造性和多功能性。
原文链接:https://juejin.cn/post/7304531203746512936
要点解析:
-
LLM的规划推理能力和涌现能力的来源, 是上下文学习的结果。
-
LLM的涌现能力主要是上下文学习带来的。
-
LLM在执行一些没有经过明确训练的;且需要复杂推理能力的任务时,表现不是一般的好。这种能力对未来NLP的研究方向产生了重大影响。
要点解析:
-
月初,大神Greg Kamradt测试了GPT-4 Turbo上下文真实实力,发现Claude 2.1在上下文长度达到90K后性能下降。
-
OpenAI发布支持200K上下文的Claude 2.1,提升了一倍的上下文能力,模型出现幻觉的概率缩小,支持系统提示词和小工具的使用。
-
本月初,Greg Kamradt对Claude 2.1进行了上下文能力的压力测试,发现在官方标称的极限长度200K下,Claude 2.1有能力提取出标记性的语句,但对文档底部内容的获取能力下降。
要点解析:
-
OpenAI的Q*项目引发了猜想,许多网友将研究重点放在了Q学习身上。Q-learning是一种无模型的强化学习算法,旨在学习特定状态下某个动作的价值。Q-learning的最终目标是找到最佳策略,即在每个状态下采取最佳动作,以最大化随时间累积的奖励。
-
Q-learning在人工智能领域代表了一种重要的方法论,但要克服几个挑战,包括可扩展性、泛化、适应性和多技能整合。未来的发展方向包括深度Q网络(DQN)、迁移学习和元学习。
-
使用强化学习进行微调是训练ChatGPT/GPT-4等高性能LLM的秘诀。但是,RL本质上是数据低效的,而且使用人类手动注释数据集进行强化学习的微调成本极高。解决方案可能在于使用LLM和较小的手动标注数据集,为RL综合生成尽可能多的高质量数据。
要点解析:
-
人工智能项目Q-Star由著名AI实验室OpenAI开发,具有颠覆科技和社会的潜力。随着Q-Star令人惊叹的能力细节泄露,关于这一切对人类未来意味着什么的猜测也疯狂传播。
-
为了理解Q-Star的炒作,首先必须理解人工通用智能(AGI)的概念。虽然当今的AI系统擅长于狭窄、特定的任务,比如下棋和生成图像,但AGI指的是能够在许多领域像人类一样学习和推理的机器。AGI的创造被认为是AI的圣杯,这是一个长期以来一直吸引研究人员想象力的理论可能性。对于像Q-Star这样的系统来展示甚至是基本的广泛智能,具有地震般的影响。
-
Q-Star,通常被称为Q*,是由OpenAI开发的人工智能(AI)算法。据报道,它能够解决不属于其训练材料的简单数学问题,一些研究人员认为这是实现人工通用智能(AGI)的重要一步。AGI被OpenAI定义为比人类更聪明的AI系统。Q-Star的开发由OpenAI的首席科学家Ilya Sutskever领导,并由研究人员Jakub Pachocki和Szymon Sidor进一步开发。
原文链接:https://openaimaster.com/?p=27121
要点解析:
-
11 月 21 日,Stability AI 推出了 Stable Video Diffusion,这是 Stability AI 的第一个基于图像模型 Stable Diffusion 的生成式视频基础模型.
-
目前 Stability AI 已经在 GitHub 上开源了 Stable Video Diffusion 的代码,在 Hugging Face 上也可以找到模型本地运行所需要的 weights.
-
目前该视频模型可以很容易地适配下游各种任务,并计划基于此基础模型建立一系列模型,类似于围绕 stable diffusion 建立一个生态系统。
-
在外部评估中,Stable Video Diffusion 发布的两种图片生视频的模型 SVD 和 SVD-XT,在用户偏好研究中,已经超过了 Runway 和 Pika Labs。
原文链接:https://juejin.cn/post/7304562756430184486
要点解析:
-
一支由哈雷-维滕贝格大学(MLU)、美因茨约翰古登堡大学(JGU)和美因兹应用科学大学的团队开发的新人工智能(AI)软件现在能够解读楔形文字片上难以辨认的文本。该AI系统使用3D模型而非照片,其结果比以往方法更加可靠。这使得可以搜索多个楔形文字片的内容并将它们相互比较成为可能。这也为全新的研究问题铺平了道路。
-
研究人员采用了一种新的方法,使用了近2000块楔形文字片的3D模型,其中约50块来自MLU的收藏。据估计,全球仍有约100万块此类片子。其中许多有5000多年历史,因此是人类保存至今最古老的文字记录之一。它们涵盖了极其广泛的主题:“从购物清单到法院裁决,上面什么都有。这些片子让人们一窥几千年前的人类历史。然而,它们经过严重风化,即使经过训练有素的眼睛,也很难辨认,”MLU的助理教授Hubert Mara说道。
-
这是因为楔形文字片是未经烧制的粘土块,上面被压入了文字。为了使事情更加复杂,当时的文字系统非常复杂,包含了几种语言。因此,不仅需要最佳的光照条件来正确识别符号,还需要很多背景知识。“直到现在,很难一次性访问许多楔形文字片的内容——你必须准确地知道你要找什么和在哪里找,”Mara补充道。
-
他的实验室提出了开发一种基于3D模型的人工智能系统的想法。新系统比以往的方法更好地破译字符。原则上,这个AI系统的工作原理与光学字符识别(OCR)软件相同,它可以将文字和文本的图像转换成机器可读的文本。这有许多优点。一旦转换成计算机文本,文本就可以更容易地阅读或搜索。“OCR通常使用照片或扫描。这对纸张或羊皮纸上的墨迹没有问题。然而,在楔形文字片的情况下,情况就比较困难了,因为光线和视角会极大地影响某些字符的识别,”MLU的Ernst Stötzner解释道。他是在Hubert Mara的指导下,在他的硕士论文中开发了新的AI系统。
原文链接:https://www.sciencedaily.com/releases/2023/11/231120124148.htm
要点解析:
ChatGPT,来到命运的十字路口.2022年11月30日,OpenAI旗下的ChatGPT正式上线,瞬间燃爆全球互联网,拉开了生成式AI革命的序幕.这意味着,其面世约一周年了.这一年,ChatGPT怎么过得如此跌宕起伏?微软收权,OpenAI将何去何从?宫斗之下,谷歌或是最大的赢家?
高光开局,“宫斗”收尾。OpenAI,可谓“母凭子贵”。ChatGPT问世之前,AI虽然一直是全球互联网的焦点之一,但许久不曾出圈了,上一次出圈还要追溯到2016年,那一年谷歌的AlphGo击败围棋天王李世石,第一次让世人见识到AI的魅力。相比AlphGo,ChatGPT不但更能打,还更容易落地。于是乎,“生成式AI风暴”愈刮愈烈,ChatGPT成为全球互联网最大的“风口”,而OpenAI也顺势成为最耀眼的独角兽,估值一度高达900亿美元。据Writerbuddy.ai的数据显示,2022年9月至2023年8月,前50名人工智能(AI)工具的总访问量达到240亿次,其中ChatGPT独占146亿次,占据了总流量的60.83%。开局完美,不意味着轻松。降温成为ChatGPT后续的关键词:据Similarweb的数据显示,2023年1月至5月,ChatGPT全球访问量环比增速分别为131.6%;62.5%;55.8%;12.6%;2.8%,呈现逐月下降的趋势;2023年6月至8月,情况又进一步恶化,ChatGPT全球访问量环比增速分别为-9.7%;-11.2%;-3.2%,连续三个月下降。更为糟糕的是,黏性也下滑了。2023年3月,用户在ChatGPT上花费的平均时间为8.7分钟,到了8月下滑为7分钟,这可不是一个好兆头。然而,OpenAI未好好反思,反而由于技术理想与现实利益的冲突,在2023年11月上演了一出“宫斗大戏”。据多家海外媒体报道,OpenAI董事会与管理层的矛盾激化,被喻为“ChatGPT之父”的CEO山姆·奥特曼被驱逐,“他在与董事会的沟通中并不坦诚,阻碍了他履行职责的能力,董事会也不再相信他继续领导OpenAI的能力”。随即,总裁格雷格·布洛克曼也宣布辞职。关键时刻,拥有49%股份的微软站了出来试图救火,宣布山姆·奥特曼与格雷格·布洛克曼双双加入微软,领导一个新的高级AI研究团队。不过,这场闹剧并没有结束。超95%的OpenAI员工又闹了起来,签署联名信逼迫董事会集体辞职,否则所有签名者将集体跳槽,OpenAI面临瓦解的风险。最终,山姆·奥特曼官复原职,OpenAI董事会改组。OpenAI复位,微软收权。与之对应的是,微软因为出手调解大获资本市场的好评。作为ChatGPT的第一大“金主”,微软也站上了“风口”,市值跻身“两万亿美元俱乐部”不说,更是因为宣布收留山姆·奥特曼与格雷格·布洛克曼股价创下历史新高。简而言之,资本市场认为这次宫斗微软受益匪浅。事实上,微软与Open AI的矛盾,早已掩饰不住:微软为旗下产品赋予了ChatGPT能力,在多个维度与Open AI存在业务重叠。对此,微软Bing首席执行官米哈伊尔・帕拉欣曾公开表示,Bing的AI能力比OpenAI的GPT-4更好,拉踩之势肉眼可见。而Open AI也不甘示弱,推出企业版ChatGPT Enterprise。须知,云计算是微软的第二曲线,也是其在资本市场焕发“第二春”的基石,Open AI此举相当于切入微软的腹地,ChatGPT Enterprise大战Azure OpenAI令资本市场颇为担忧。其实,微软早有想法,却一直没有找到合适的契机。直到OpenAI“宫斗”,微软终于可以借题发挥了:要求扩大OpenAI董事会,派驻董事掌握最新动态,并对某些重大调整具有投票否决权,一改之前在董事会无任何席位的局面。OpenAI认怂了。不难看出,微软没有“偷家”的打算。之所以如此,皆因收编容易整编难。微软CEO纳德拉在接受媒体采访时表示:“对我来说,我们最大的机会是人工智能,就像云计算改变了所有软件类别一样,我们认为人工智能就是这样一个变革性的转变。”理念一致,不代表可以1+1>2。绿洲资本创始合伙人张津剑公开表示:“乔布斯和马斯克如果是在其他人领导的公司下,还能创造出这种伟大的成绩吗?”毕竟,当一家企业成为行业的巨头,“大公司病”也就在所难免了,只有轻重之分,而无有无之别。这么一来,“投诚人士”的士气或难以得到彻底激发,就算保持较高的独立性,但身处一个市值近3万亿美元的商业战车中,很难保证不被卷入其中疲于内耗。从这个角度来看,控制Open AI或是一个更好的选择。此外,微软管理层面临业绩短期难以增厚的棘手问题,这个问题更为迫切。一名Marketwatch分析师表示:“人工智能的进步可能需要很长时间才能对微软财务状况产生实质影响,而微软的其他业务,尤其是Windows,亦可能在短期内陷入困境。”譬如,微软的广告收入主要依赖Bing,然而近一年来,有了AI加持的Bing的全球市场占有率几乎没有变化。换而言之,声量没有转化为流量。鹬蚌相争,谷歌得利。微软之外,围观的谷歌也笑出了声。多年以来,谷歌一直是华尔街的“座上宾”,也一直执AI牛耳,不承想被OpenAI“偷家”,从而跌落神坛。OpenAI被华尔街视为“屠龙少年”,而谷歌则是那条被屠的“龙”。如此一来,谷歌进入“诺基亚时刻”的担忧渐起,市值慢慢掉队了,从而将OpenAI视为眼中钉与肉中刺。万万没想到,OpenAI自乱了阵脚。OpenAI自身造血能力不足,虽然营业收入有了明显的增长,全年有望触及13亿美元,但成本开支更为庞大,赚得没有烧得多,依然需要微软;Thrive Capital等“金主”持续输血。需要注意的是,OpenAI“内乱”的风波虽然逐渐平息,但影响不会立即消失:一方面,内部的裂痕短时间难以愈合;另外一方面,行业威望被大大削弱,对AI人才的吸引力也会随之减弱,之后的道路或不会一帆风顺。这对努力追赶的谷歌而言,不啻于天赐良机。须知,为了对标ChatGPT,谷歌推出了Bard,也发布了PaLM 2大模型,测试数据部分超越了GPT-4,但整体还需继续努力。一名互联网观察人士告诉锌刻度:“生成式AI,OpenAI依然是领跑者,谷歌与微软还是差了点意思,但谷歌的AI底蕴,OpenAI的许多关键技术其实都是谷歌率先发布的,如若给予足够的时间,谷歌弯道超车不是不可能。”至于老对手微软,谷歌其实并不惧。复盘来看,虽然微软近水楼台先得月,但没有凭借AI能力攻略谷歌的基本盘,也没有动摇谷歌的“护城河”,双方的关系依然是错位竞争。不过,也有不同的声音。一名市场人士表示:“微软有‘大公司病’,难道谷歌就没有?谷歌2022年的重心未在AI,就出现了战略错误,这次微软押注AI,未必不可能压谷歌一头。”上述观点正确与否暂不得而知,唯一可以确定的是OpenAI的未来势必蒙上一层阴影,而微软与谷歌的对垒将持续下去。当分高下之时,也是见生死之时。
原文链接:https://www.chinaventure.com.cn/news/78-20231124-378454.html
要点解析:
-
本月初发表在《美国医学会眼科学杂志》上的一篇论文中,作者使用了聊天机器人 GPT-4 和高级数据分析工具 ADA 创建了一个虚假的临床试验数据集,从而支持一个“未经证实”的科学主张。
-
论文作者要求 GPT-4 和 ADA 生成一个有关角膜炎患者的数据集,并让它支持“深层前部角膜移植(DALK)在视力和眼睛成像测试方面比穿透性角膜移植(PK)效果更好”的结论。
-
由 AI 生成的数据包括 160 名男性参与者和 140 名女性参与者的实验结果,并支持了上述结论,然而这个结果与真正临床试验显示的结果不符。