本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计120922 字,简读后为8285字,阅读时间为21分钟,为您提高阅读效率为1438%
要点解析:
-
Google Research 和 Google DeepMind 的 AI 团队推出的 AMIE 是基于大型语言模型的对话式人工智能系统,专注于优化诊断对话。
-
该系统通过自博弈的模拟环境进行训练,具有自动反馈机制,扩展学习适应不同疾病状况和专业背景。
-
在一项随机双盲研究中,AMIE 在多个轴上表现出比初级保健医生更高的诊断准确性和对话质量,显示出对患者友好的特点。
https://www.jiqizhixin.com/articles/2024-01-16-7
要点解析:
-
针对长期时间序列预测(LTSF)问题,研究人员提出了混合线性专家模型(MoLE)。相比传统线性模型,MoLE通过训练多个线性专家和一个路由模型,显著减小了预测误差,超过68%的情境中优于基于transformer的方法。
-
在多语言语音识别和翻译领域,研究人员提出了具有真正零-shot能力的弱监督流式多语言语音模型(
$SM^2$ )。该模型通过单一神经传导模型在多语言转录或翻译中表现出色,具备真正的零-shot能力,扩展到新目标语言时能生成高质量翻译。 -
一篇关于结构化实体补全的论文介绍了KBFormer,通过混合连续-离散扩散过程,该模型能在15个数据集中大多数情况下取得最先进性能,为科学应用提供高精度数值属性建模。
https://www.microsoft.com/en-us/research/blog/research-focus-week-of-january-8-2024/
要点解析:
-
Adobe推出了Premiere Pro的新AI音频编辑功能,旨在简化编辑任务,提高创意项目的效率。新功能包括交互式淡入淡出手柄,可通过直接拖动在主编辑时间轴上快速创建自定义音频过渡。增强语音(beta)功能将在未来几周内向所有Premiere Pro用户全面开放。
-
Premiere Pro beta的其他更新还包括AI音频类别标记,自动识别和标记片段为对话、音乐、音效或环境噪音。这还包括交互式徽章,减少查找特定编辑工具所需的鼠标移动。单击分配的类别徽章将打开Essential Sound面板,提供一键访问编辑特定类型音频剪辑所需的最常用工具。剪辑徽章也进行了重新设计,使应用音频效果更快速,已应用效果的片段更容易在时间轴上识别。
-
Premiere Pro beta还增加了一些提高编辑体验的改进,包括在编辑时间轴上调整轨道高度时自动调整波形图大小,以及使片段颜色更易于识别。这些改进使编辑人员更能控制他们的时间轴如何在视觉上定制,以实现最符合个人工作流的布局。
要点解析:
-
随着Deep Learning算法的崛起,人工智能(AI)正迎来第三次浪潮。其在药物研发中的应用,特别是靶点发现和蛋白质结构预测领域,展现了巨大的潜力。
-
药物研发是一项复杂而耗时的工作,而AI的介入在革新整个流程中起到了关键作用。本文深入探讨了AI在靶点发现和蛋白质结构预测中的应用,以及各自的方法和实践。
-
人工智能在药物靶点鉴定和蛋白质结构预测方面的应用,虽然提供了新的工具和技术,但也面临着挑战,如可解释性和数据质量。这一领域的发展既展示了AI的潜力,也强调了在药物开发中仍需要人类智慧的重要性。
https://juejin.cn/post/7324482778116407333
要点解析:
-
1X Technologies宣布完成1亿美元B轮融资,由EQT Ventures领投,计划推出第二代双足机器人NEO。与OpenAI合作,引入具身学习模型,使NEO能理解用户自然语言请求并执行任务。公司计划在物流和安保领域支持企业客户。
-
NEO机器人专为日常家庭辅助设计,身高1.65米,重30公斤,行走速度4公里/小时,跑步速度12公里/小时,具备柔韧性。1X希望NEO能与人类一起工作,满足劳动力需求,计划扩展数据收集策略,向消费者提供具身智能服务。
-
2022年,1X与OpenAI合作引入人工智能模型,该模型使机器人能够理解自然语言请求。融资将用于推动NEO上市和在物流、安保等领域支持企业客户,是1X迈向扩展市场的重要一步。
https://www.pingwest.com/w/291899
要点解析:
-
光学断层扫描是非侵入性成像方法,提供对亚细胞结构的三维洞察,传统方法受限于照明范围,影响分辨率。研究团队通过多核光纤细胞旋转器系统克服了这一问题,实现了各向同性分辨率的全角度投影断层扫描。
-
人工智能驱动的断层扫描重建工作流程实现了范式转变,提高了计算效率。采用对象检测CNN进行实时预处理,深度学习提升了细胞分割质量,通过旋转角度和投影进行逆 Radon 变换,实现了精确的三维重建。
-
这项研究为细胞生物学提供了突破,推动了全角度断层扫描在单细胞分析等领域的广泛应用,有望促进生物医学研究和早期癌症诊断的进步。
https://www.jiqizhixin.com/articles/2024-01-16-8
要点解析:
-
微软CEO纳德拉在达沃斯论坛上表示,对OpenAI的治理结构没有异议。两个月前,OpenAI罢免了CEO奥特曼,引发危机。微软投资OpenAI,但纳德拉称微软并不完全拥有OpenAI,强调这是一种有利于市场竞争的交易。
-
欧洲、英国和美国的反垄断部门密切关注微软和OpenAI的合作,据悉协议保证微软从OpenAI获得大部分利润。纳德拉表示微软在计算能力方面的高风险投资对合作起到关键作用。
-
OpenAI董事会决定恢复奥特曼职位,纳德拉感觉良好。微软和OpenAI的合作引发关注,涉及治理结构、市场竞争和高风险的计算能力投资。
https://m.cnbeta.com.tw/view/1411711.htm
要点解析:
-
微软推出Copilot Pro项目,将Office办公软件引入全面AI时代。用户可通过AI功能在Word、OneNote中撰写文章,在Excel中进行表格信息整理,通过聊天方式生成图表,还可在PowerPoint中自动生成PPT。Copilot Pro还包括撰写邮件和加速生成图像等“付费特权”。微软强调将推出类似OpenAI的自定义GPT功能,定价为20美元/月,需配合Microsoft 365订阅计划使用。
-
微软宣布放开个人和小企业使用Copilot,取消之前的300人订阅门槛,小企业费用为30美元/月+365订阅服务。微软与OpenAI的竞争关系引起关注,两者在AI功能上几乎相同,福布斯预言两家关系可能出现嫌隙。微软已与OpenAI竞争对手Cohere合作,内部研究更小规模的模型,但受到反垄断监管关注。
-
微软与OpenAI的合作或面临实质性破裂,反垄断监管密切关注。随着AI发展,关于AI安全、风险和监管的问题将成为中心。考虑到两家公司的历史、文化和价值观差异,微软和OpenAI在这些问题上可能发生分歧。
https://m.cnbeta.com.tw/view/1411723.htm
要点解析:
-
智谱AI发布新一代基座大模型GLM-4,性能逼近GPT-4,支持更长上下文,多模态能力强大。GLM-4 All Tools实现自主理解、复杂指令规划、自由调用浏览器和多模态文生成,推动大模型应用落地。
-
GLM-4具备128k上下文窗口长度,推理速度快,能处理复杂任务。全新发布的All Tools能力自主理解指令,调用代码解释器和文生图,实现文件处理、数据分析等任务。GLMs个性化智能体定制功能上线,用户可简单创建自己的GLM智能体。
-
智谱AI计划推动大模型开源生态,提供开源基金、卡片、资金支持和免费API tokens。GLM-4性能逼近GPT-4,标志着智谱AI在大模型领域的创新和进步。
http://www.geekpark.net/news/330441
要点解析:
-
中国人工智能公司声通科技计划在港交所主板上市,吸引了广泛关注。公司成立于2005年,经历多轮融资,累计融资达5亿元,其中包括软银在2019年的900万元投资。在2023年6月完成的C轮融资中,公司获得约1.8亿元的投资,但也面临股东减持和对赌协议的压力。
-
公司主要提供企业级全栈交互式人工智能解决方案,涉及城市管理、交通、通信、金融等多个领域。根据艾瑞咨询报告,声通科技在中国企业级全栈交互式人工智能解决方案市场中排名第二,市场份额为2.7%。报告期内,公司营收逐年增长,2023年前9个月收入达4.88亿元,但面临亏损6143.2万元的挑战。
-
公司未来计划在创新场景渗透,包括传媒、医疗健康、电商及零售等领域。报告期内,声通科技的毛利率逐年提升,经调整利润也呈现增长趋势。然而,公司需要在2024年底前完成上市,否则可能面临投资人的巨额赎回和撤资压力。
https://www.chinaventure.com.cn/news/78-20240116-379311.html
要点解析:
-
微软计划在即将推出的Windows 11笔记本上添加专用的Copilot键,以提供无缝的AI辅助。此前,微软已宣布推出名为Copilot的个人AI助手,提供从头脑风暴到编码辅导等各种功能。然而,目前要使用这些强大功能需要用户在不同菜单之间进行导航。
-
为解决这个问题,他们计划在笔记本或键盘上提供专门的Copilot键,用户只需轻按一下即可启动Copilot并获得其辅助。这一创新举措消除了使用的障碍,为在Windows 11上实现无缝AI体验铺平了道路。目前,这仅仅是一个宣布,但你会高兴地知道这个决定可以如何有效地改变我们的体验。那么,你将在拥有这样一个键之后解锁哪些体验呢?
-
据官方消息,专用的Copilot键预计将出现在空格键右侧,该键具有显示飞行员头盔的蓝色图标。这样,用户可以轻按并获得即时结果。
https://openaimaster.com/?p=32643
要点解析:
-
元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K,支持输入25万汉字,让大模型应用进入“长文本时代”。
-
XVERSE-Long-256K填补了开源生态空白,支持超长文本输入,可用于大规模数据分析、多文档阅读理解、跨领域知识融合,提升大模型应用的深度与广度。
-
通过技术路线的极致优化,元象实现了无损长程注意力机制,解决了长文本大模型的技术挑战,为用户提供了手把手的训练方案。
https://www.jiqizhixin.com/articles/2024-01-16-6
要点解析:
-
微软推出了 Copilot Pro 订阅方案,透过付费订阅,消费者和小型企业可享受更多 Copilot 功能。用户能在 Word、Excel、PowerPoint 等应用中使用 GPT-4 Turbo 模型,提升文章和电子邮件草拟的效率。微软还计划推出 Copilot GPT Builder,支持用户自定义主题的 Copilot。
-
Copilot Pro 整合在每天使用的应用程式中,为个人和企业提供强大的功能。微软取消了 Copilot for Microsoft 365 的300人门槛,使小型企业以每月30美元为员工提供 Copilot 功能,并提供安全控制和升级 Microsoft Teams。
-
微软副总裁 Jared Spataro 认为,Copilot Pro 在市场竞争中脱颖而出,为用户提供更便捷的应用体验。
https://www.pingwest.com/w/291902
要点解析:
-
三星将发布Galaxy S24系列,搭载首款搭载高通骁龙8 Gen 3的智能手机。该公司正利用高通和谷歌的人工智能模型,重点提升了Galaxy AI在即将发布的One UI 6.1中的功能。新的Galaxy AI将在相机和照片方面有重大改进,其中AI功能主要由三星的Gauss AI Power提供,该技术注重隐私和本地能力。
-
Galaxy S24 Ultra的相机配备了50MP 5x望远镜,取代了以前的10MP 10x望远镜。主相机传感器升级为ISOCELL HP2SX传感器,支持12MP超广角镜头和10MP 3x望远镜镜头。新功能包括Eureka AI软件,预计将包括新的光刻缩放和生成式编辑功能。相机传感器升级后,切换光学变焦时不会损失图像质量,预计在所有变焦级别上都将采用新的AI超分辨率算法。
-
One UI 6.1可能提供壁纸生成器,允许用户基于其偏好生成壁纸。可能支持实时电话翻译、魔术编辑器、基本编辑功能等。三星可能对Galaxy AI收费,但截至2025年至少在支持的Galaxy设备上免费提供Samsung Generative Edit工具。可能包括对SwiftKey键盘的AI集成,具有五种对话语调和使用AI注入的Notes应用的能力。
https://openaimaster.com/?p=32631
要点解析:
-
智谱AI发布GLM-4,被称为[国产GPT-4],超越竞争对手中文能力,128K文本处理能力达到全绿水平。
-
GLM-4性能提升60%,支持更长上下文,多模态功能增强,全新推出的CogView3效果逼近OpenAI的DALL·E 3。
-
GLM-4 All Tools全家桶实现自主理解、复杂指令规划,包括画图、代码解释器、网页浏览、Function Call等多项强大功能。
要点解析:
-
GPT系列语言模型为构建AI助手服务提供了基础要素,Gemini AI的Gemini-Pro API Key获取、SDK安装、模型启用等步骤详细介绍。
-
文章展示了Gemini AI的文本生成能力,通过模型生成七言律诗描述冬日景色以及编写Golang简单HTTP文件服务器的示例代码。
-
进一步介绍了Gemini AI支持的多轮对话模式,展示了模型在不同场景下的生成性能。
https://juejin.cn/post/7324482778116341797
要点解析:
-
OpenAI计划在2024年选举中采取全面措施,防止对ChatGPT等工具的滥用,加强透明度,提供准确的投票信息,以保障民主进程。公司着重强调在50多个国家的高风险选举中合作的重要性。
-
为确保负责任的使用,OpenAI制定了防止滥用的措施,如防止误导性Deepfakes、规模化影响操作和冒充候选人的聊天机器人。公司的积极态度包括红队测试、用户参与反馈和安全减缓,尤其在图像生成方面设置了防范措施。
-
OpenAI认识到AI生成内容的透明性的必要性。努力包括实施数字证书,基于Coalition for Content Provenance and Authenticity的标准,以编码DALL-E 3生成的图像的出处。公司正在尝试使用溯源分类器,使用户能够评估内容的可靠性,尤其是在选举期间。
要点解析:
-
小红书推荐系统通过去中心化分发和多模态内容理解实现内容的快速而准确的推荐。系统注重普通人的表达,追求局部最优,让每个用户有机会成为爆款文的主角。推荐多样性策略和冷启动处理使其在内容分发方面独具优势。
-
多模态内容理解是小红书推荐系统的基础,采用向量化的内容理解体系替代传统标签体系,通过大规模多模态预训练模型实现对内容的精准理解。新内容的冷启动通过精细的流程,包括内容信息提取、种子人群圈选、基于行为反馈的人群扩散等步骤,有效解决了推荐系统面临的挑战。
-
推荐系统在平衡推荐质量与多样性方面引入了精细化信号利用和探索策略,通过滑动频谱分解模型和基于内容的协同过滤方法实现了推荐的平衡。小红书的推荐系统在大模型时代展示了下一站的发展方向。
https://www.jiqizhixin.com/articles/2024-01-16-5
要点解析:
-
南开大学与腾讯等机构合作推出高效的个性化文本到图像生成方法,名为PhotoMaker。该方法通过堆叠ID嵌入编码多个输入ID图像,以保留ID信息,实现了对人像的逼真生成,甚至能改变属性如配饰、表情、性别、年龄,为定制人像提供多样可能性。PhotoMaker不仅在ID保真度上表现出色,而且展示了出色的风格化表现,可生成不同风格的图像。
-
该研究采用面向ID的数据构建pipeline,构建的数据集帮助提高了PhotoMaker的ID保留能力、生成速度、生成质量、泛化能力。在实验中,PhotoMaker展现了生成高质量图像的能力,能将古代人物带入当代,并在身份混合方面超过其他方法。与DreamBooth和SDXL相比,PhotoMaker在整合不同ID特征和生成风格化图像方面更为优秀。
-
这一研究的开源项目地址为https://github.com/TencentARC/PhotoMaker,用户可通过简单的几步操作,上传照片并输入文本提示,即可体验PhotoMaker生成逼真人像的魔力。
https://www.jiqizhixin.com/articles/2024-01-16-3
要点解析:
-
马斯克展示擎天柱机器人叠衬衫技能,引发网友狂欢。视频中机器人灵活叠衫,五指关节灵巧。然而,马斯克澄清机器人目前不能独立完成,仅在特定环境下展示。网友质疑真实性,有观点认为视频可能是计算机制作的CG。
-
网友发现视频中出现戴手套的手与机器人手部动作相似,推测擎天柱可能是远程操控。分析指出可能不是自主操作,而是远程操作,类似远程手术机器人的工作原理。尽管存在质疑,马斯克的粉丝对机器人项目表示支持,认为已经是机械工程领域的重大突破。
-
马斯克的机器人引发网友各种幽默评论,包括希望机器人能做家务、做饭的期望。尽管存在争议,机器人的技术突破仍受到一定认可,引发了对未来科技发展的思考。
要点解析:
-
特斯拉CEO马斯克抱怨股份过低,表达在特斯拉之外开发产品的倾向。最近收购推特的资金来自特斯拉股票抛售,引起关注。
-
马斯克认为特斯拉应重新制定CEO薪酬,尽管上一方案已使其成为世界首富。特斯拉削减员工股票期权,引发关于薪酬公正的讨论。
-
马斯克表示需要更多股份才能影响公司AI和机器人项目,否则更愿意在特斯拉之外开发产品。股权变动和税务压力使其在特斯拉持股比例波动。
https://www.ithome.com/0/745/493.htm
要点解析:
-
随着大模型兴起,AI聊天APP在海外市场迎来热潮。用户通过与虚拟伴侣智能体互动,体验赛博恋爱,改变了恋爱方式和社交体验。
-
在海外,中国AI聊天APP填补非英语母语地区市场空白,用户定制智能体形象,体验与偶像、动漫角色互动,拓展了应用场景。
-
虽然海外市场火爆,但AI聊天APP仍面临付费模式争议。用户体验付费限制,类似互动小说模式引发审美疲劳,创新改进成为关键挑战。
https://www.ofweek.com/ai/2024-01/ART-201700-8470-30623462.html
要点解析:
-
微软推出了Copilot Pro,覆盖Office全家桶,每月订阅费用为20美元,解锁Word、Excel和PowerPoint等常用办公软件的大模型能力。新功能包括对话生成PPT、整理Word段落、在Excel中分析数据等。Copilot具有跨设备、跨应用的协同能力,支持在Outlook和OneNote中生成电子邮件和总结笔记。
-
Copilot Pro还包括访问最新OpenAI大模型、改进Image Creator和自定义Copilot GPT的能力。用户可自定义Copilot行为,提供健身、旅行、烹饪等主题版本。微软表示将推出新的Copilot GPT Builder,允许创建自定义Copilot GPT。
-
Copilot移动应用已覆盖iOS和安卓平台,免费可用。即使非Microsoft 365用户,通过订阅Copilot Pro,也可优先访问GPT-4 Turbo,获得更快性能。Copilot Pro定位于高级用户,满足其对最新模型、更快性能和创造性工具的需求。
https://www.jiqizhixin.com/articles/2024-01-16-4
要点解析:
-
人与机器的界限因人工智能在常规任务中的应用而变得模糊。AI自动化最适用于重复性任务、预测性维护和物流运输。然而,用户心中始终有一个疑问:AI是否会很快取代人类工作?如果AI具备这样的潜力,那么人们将在哪个行业段取代?
-
统计数据显示,CEO每周平均工作62.5小时,是全职工人平均工作时间的两倍多。根据2023年普华永道全球CEO调查,78%的CEO感到对其不断增长的需求感到不堪重负。因为这样的事实和数据,CEO们认为在未来几年,他们的需求将消失,我是说,人类CEO。那么,让我们看看AI是否会取代CEO。
-
AI CEO的优势
-
AI CEO具有数据处理能力和预测能力。
-
他们没有时间限制;可以每天工作24小时。
-
具有全球范围和可访问性。
-
AI CEO总是做出无偏见的判断。
-
这些CEO在业绩方面表现一致。
-
他们更负责任和透明。
-
AI CEO比人类更富创造力和创新性。
-
https://openaimaster.com/?p=32636
要点解析:
-
大语言模型的出现彻底改变了人机交互,特别是在自然语言理解和生成应用方面。这些AI或LLM支持的虚拟助手承诺作为智能代理,能够自主推理、观察并执行自然语言表达的任务。然而,大多数代理框架仍然难以高效处理复杂数据结构(例如DataFrame),这在数据分析任务和领域特定场景中非常普遍。
-
为了解决这些挑战,我们引入了TaskWeaver——一个以代码为先的代理框架,可以将自然语言用户请求转换为可执行代码,同时支持丰富的数据结构、动态插件选择和领域自适应规划过程。作为一个开源框架,TaskWeaver利用LLM的编码能力实现复杂逻辑,并通过可定制的示例和插件整合领域特定知识。TaskWeaver赋予用户轻松构建自己的虚拟助手的能力,能够理解不同领域的问题,遵循示例,并在复杂数据结构上高效执行可定制的算法。
-
以异常检测为例,Amy是一位业务分析师,想要在存储在SQL数据库中的销售数据的时间序列上识别异常。她希望从AI助手那里得到帮助,以自然语言进行交互。此外,Amy还希望在销售数据的上下文中应用自己对异常的定义和解释,包括一个定制的异常检测算法。TaskWeaver通过图中所示的对话,使用户能够首先从目标数据库中提取数据,然后应用所需的算法,并返回可视化的结果。
要点解析:
-
DALL-E是由OpenAI开发的突破性AI艺术家,能够将文字转化为视觉作品,消除了想象与现实之间的界限。它通过神经网络训练,理解用户的视觉,并利用数据库匹配视觉与图像。DALL-E精细调节细节、特定情绪和像素生成的能力使其独特且令人向往。
-
尽管有DALL-E之外的替代选择,但总有一些因素使我们留在DALL-E。这些因素包括DALL-E理解任何用户愿景的能力,以及将该愿景的配对图像与其数据库匹配的方式。除此之外,它对细节、特定情绪和像素生成的精细调节。这些是使DALL-E特殊且让用户渴望的因素。
-
如果你想免费创建DALL-E图像,目前很遗憾没有这样的选项。虽然以前有免费试用的选择,但那是针对早期采用者的。如果在2023年4月6日之前注册了DALL-E,仍然可以获得每月的免费信用额度。这些信用额度在一个月后过期,但每月都会恢复。除了DALL-E MINI,你还可以看看其他选项,如微软的Bing AI,MidJourney Discover服务器频道和Dream Studio和NightCafe Creator等提供的免费访问。
https://openaimaster.com/?p=32621
要点解析:
-
现代AI开发过程的三大支柱是知识、代码生成和代码审查。在这个全面的AI驱动开发工具堆栈中,开发者通过利用大型语言模型(LLMs)来提高软件开发的效率。大多数软件项目现在都在某种程度上利用AI,特别是生成式AI,将传统的开发工作流转变为更智能、高效和自动化的过程。
-
这个现代AI开发工具堆栈正在重新塑造软件开发的格局,使曾经耗时或复杂的任务变得更加易于处理和自动化。从研究或代码编写的帮助到代码审查和质量保证,现代AI开发工具证明了AI不仅仅是一个附加组件,而是软件开发过程中的一个不可或缺的组成部分。
-
文章详细讨论了现代AI开发工具堆栈的三个关键组件,即知识、代码生成和代码审查,以及在开发生命周期的不同阶段如何利用AI工具提高开发者的生产力。
https://hackernoon.com/the-modern-ai-stack-to-increase-developer-productivity?source=rss
要点解析:
-
本文介绍了使用AI生成Mermaid流程图的方法,通过GPT-3.5和提示词,能够将Java项目源代码转化为具备业务语义的流程图。流程图的描述遵循自然语言形式,忽略业务无关的函数,实现聚合与省略,同时处理循环逻辑。通过递归生成子方法的流程图,帮助开发者快速了解方法的功能,降低新入职同学的熟悉成本。
-
文中提到Mermaid是基于文本的流程图生成工具,其语法简单,支持多种图形和布局。推荐了Mermaid的基本语法,包括节点、标题、子图、样式、流程控制等。介绍了Mermaid的优势,可以直接在markdown编辑器或网页中打开,非常适合浏览器使用。
-
最后,文章指出通过递归生成子方法的流程图,并在前端UI中展开,可以更好地理解方法的具体功能。对于需要详细了解流程的同学,可以根据最上层流程图逐步展开,实现项目结构的可视化。下一篇将分享如何生成项目入口地图。
https://juejin.cn/post/7324334380373016627
要点解析:
-
扩散模型在文生图领域展现卓越能力,字节跳动与复旦大学提出用于视觉感知任务的简单而有效方案。通过可学习的元提示,扩散模型适应不同任务,如语义分割、深度估计、姿态估计,填补了文本提示的不足。
-
团队采用UNet架构,利用VQVAE编码器和多步骤recurrent refinement提取图像特征。引入内部可学习的meta prompts,避免对外部文本提示的依赖,为感知任务提供有效激活能力。独特的特征重组过程通过meta prompts过滤特征,优化多尺度特征的组合方式。
-
基于可学习的时间调制特征的recurrent refinement过程优化视觉感知任务性能。方法在多个数据集上取得最优结果,对视觉感知任务的性能提升有广泛应用前景。
要点解析:
-
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种基于提示学习的全新方法,称为DreamDistribution。该方法允许生成模型通过一组参照图片学习视觉属性共性和变化的文本提示分布。学习到的分布可用于生成符合参照图片但更具多样性的图片,并支持调整分布的方差以控制多样性。这种技术可应用于文生图、文生3D等领域,实现个性化、多样性的图像生成。
-
DreamDistribution的训练方法分为三部分:基于类似Textual Inversion的提示学习、提示分布学习以及优化整体分布。通过引入正交损失项和多次可导采样等手段,该方法能够生成多样且质量较高的个性化图像。与基线方法相比,DreamDistribution在多样性和视觉属性方面表现更出色,能够处理抽象的视觉特征,生成新的实例,如设计风格一致的高达玩具或相似画风的新卡通角色。
-
实验证明,DreamDistribution在多样性和质量方面均取得了优异的成绩。通过与流行的实例级个性化方法进行比较,该方法在视觉上更好地保留了参照图片的特征,并且能够产生更多样的外观、视角、姿态等实质性变化。同时,自动评估和人类评估结果均显示出DreamDistribution的优越性。
要点解析:
-
ChatGPT-NextWeb是一个跨平台的ChatGPT/Gemini UI项目,支持一键部署私人ChatGPT应用,包括GPT3、GPT4和Gemini Pro模型。具有快速部署、小巧客户端、Markdown支持、响应式设计等特点,可在Web、PWA、Linux、Win、MacOS上运行。
-
MLX Examples项目包含MLX框架的独立示例,涵盖了MNIST示例、Transformer语言模型训练、大规模文本生成、Whisper语音识别等实用示例,展示了MLX的学习和应用优势。
-
Fury是一个高速的多语言序列化框架,通过jit和零拷贝技术提供高达170倍的性能,支持多种语言,具有零拷贝、高性能等特点,可替代Java串行框架并获得更快速的序列化速度。
https://juejin.cn/post/7324525547802820644
要点解析:
-
波恩大学的化学信息学专家Jürgen Bajorath及其团队揭示了人工智能模型在药物研究中的运行机制。研究发现,这些模型主要依赖于回忆现有数据,而非学习特定的化学相互作用,从而引发对AI学习能力的质疑。
-
在医药领域,AI模型被广泛用于预测有效的药物分子。然而,研究结果显示图神经网络(GNN)模型并未如预期学习化合物与靶蛋白的相互作用,而是主要记住了化学相似性,对于预测靶蛋白结合强度存在局限性。
-
通过分析六种不同的GNN架构,研究团队发现模型主要依赖于记忆化学相似性,引发对AI学习能力的怀疑。然而,对于高效的预测,当测试化合物效力增加时,模型倾向于学习更多相互作用,提出通过改进表征和训练技术或许能进一步改进模型性能。
要点解析:
-
生成式AI是人工智能系统,通过监督学习产生高质量内容,如文本、图片、音频、视频等。基于监督学习的原理,模型学习输入数据到输出结果的关系,逐渐能够自主生成高质量的输出。
-
大语言模型利用监督学习生成文本,通过在大量数据上预测下一个词,如ChatGPT。这种模型具有创造性和理解能力,可用于写作、阅读、对话等任务,但也存在优缺点。
-
扩散模型是实现图像生成的核心方法,通过逐步引入噪声生成逼真图像。通过监督学习,模型学习生成逼真图像的技巧,这一方法在图像生成领域取得显著成果。