0、AI 首次自主发现人工生命,Sakana AI 推出全新算法
近日,由 Transformer 八子创立的 Sakana AI,联合来自 MIT、OpenAI、瑞士 AI 实验室 IDSIA 等机构的研究人员,提出了「自动搜索人工生命」的新算法。据介绍,这次研究者们提出的算法,可以使用视觉-语言基础模型自动发现人工生命。只需要描述要搜索的模拟空间,ASAL 就可以自动发现最有趣、具有开放式的人造生命体。由于基础模型的广泛通用性,ASAL可以在各种经典的人工生命模拟中发现新的生命形式,包括 Boids、Particle Life、生命游戏(Game of Life)、Lenia 和神经元胞自动机(Neural Cellular Automata)。甚至,ASAL 还发现了一些全新的元胞自动机规则,比原始的康威生命游戏更具开放式和表现力。研究者相信,这种全新的范式能够克服手动设计模拟的瓶颈,重新激发人工生命研究的热情,从而突破人类创造力的极限,让这一领域再上一层楼。据了解,ALife,即「人工生命」,旨在通过模拟生命的行为、特性和演化过程来理解生命的本质,通常结合了计算科学、生物学、复杂系统科学以及物理学等领域。值得一提的是,世界上首个「AI 科学家」便是由 Sakana AI 提出的。据了解,「AI 科学家」可以独立搞科研,完全不需要人类插手,从提出研究想法、实验、写代码,再到 GPU 上执行实验,收集结果,AI 承包了整个机器学习研究的全过程。1、通义全新推理模型 QVQ 宣布开源
12 月 25 日,通义千问宣布,基于 Qwen2-VL-72B 构建的开源多模态推理模型 QVQ 开源。
据官方介绍,QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。
官方表示,尽管 QVQ 的表现超出了预期,但仍会出现一些局限:
语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度;
递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论;
安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎;
性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
官方还表示,通义千问的愿景是开发一个「全能」和「智能」的模型,同时通义正在增强其的视觉语言基础模型,赋予其基于视觉信息的深度思考和推理的高级能力。在不久的将来,通义计划将更多的模态整合到一个统一的模型中,使其更加智能,能够应对复杂的挑战并参与科学探索。目前,QVQ 模型已在魔搭社区和 HuggingFace 等平台上开源。
2、蚂蚁集团 CTO 线大规模调整、多个 AI 业务部门被合并
蚂蚁集团总裁韩歆毅近日向全体员工发布邮件,宣布公司进行全面的组织架构升级。此次调整不仅涉及支付宝线的变动,CTO 线也迎来了大规模的人员调整。
其中,原财保事业群 CTO 达杭,将加入蚂蚁国际事业群,担任 CTO;
原蚂蚁国际事业群 CTO 云出,将回归蚂蚁集团,担任财保事业群 CTO;
原支付宝事业群 CTO 俊义调任大安全 CTO;
成立新的支付宝技术部,原大安全 CTO 向秀任 CTO,向韩歆毅汇报;
成立数字支付技术部,任命墨颜为 CTO,向韩歆毅汇报。
此外,平台技术事业群与技术研究院也会做相应调整。
据一份流出的邮件内容显示,AI 平台、AI infra 与 AI 产品运营部门,以及数据平台与服务部被合并,组成了新的数据智能平台与服务部。
同时,蚂蚁集团宣布设立蚂蚁技术研究院美国分院,原基础智能创新技术部将并入该分院,院长由无改接任,他还将继续兼任交互智能实验室主任。
3、小红书低调上线AI搜索新产品“点点”,尝试APP内内置功能
根据公开信息,小红书近期上线了AI搜索新产品「点点」,背后公司主体为上海生动诗章科技有限公司,法人为魏旷,是小红书的产品经理。区别于其他通用型的AI搜索产品,「点点」是一款专注于生活场景的智能搜索助手,通过聚合小红书的笔记内容和全网信息,提供精准的答案和视频回复,如旅行攻略、美食推荐等,旨在提升搜索效率和体验。值得注意的是,「点点」并不是小红书的第一款AI产品。2023年3月,小红书成立大模型研发团队,开发了大模型「小地瓜」;同年4月上线AI绘画产品「Trik」,7月推出文生图功能「此刻」,9月则开发出AI聊天功能「达芬奇」。此外,小红书还推出了「AI 声聊」。但目前,小红书内部的重点正聚焦在「点点 」,AI 声聊、达芬奇等产品或已不是高优先级产品。但是,「点点」作为一个独立的 AI 应用在定位上有一些尴尬。小红书或许也意识到了这一点。和达芬奇类似,小红书正在尝试在小红书APP内内置「点点」的功能。小红书正在搜索栏中小范围灰测新功能——问「点点」。当用户输入问题时,可以点击“问「点点」”,其后便跳转到「点点」的页面进行 AI 生成回复。(ZPedia)4、南京大学教授:社会正在被 AI「重构」
近日,腾讯研究院公布了与南京大学胡翼青教授的访谈内容,其中双方围绕 AI 与社会传播展开交流。胡翼青教授提出了「生成式社会」和「平台世界」两个概念,以描述当下数字化、网络化和 AI 技术日益主导的社会。在胡翼青教授提出的两个概念里,强调了技术与算法都在不断改变人与社会,甚至在不断生成与重塑着人类的日常生活方式。胡翼青教授认为「数字社会」这一概念已经过时,因为它未能充分理解社会基于计算性和可编码性的变革。他认为现代社会更多是一个由技术主导的装置,个体被纳入一个巨大的数字平台体系中,传统的社会学框架难以应对这种深刻的变革。最后,胡翼青教授探讨了传播与社会共识的关系,并预测媒介技术往往会在促进某些群体之间的沟通的同时,将其他群体排除在外,导致社会的分裂和对立。同时他也表示,未来的社会将需要寻找新的方式来维护人的尊严和主动性。5、中国人工智能进步速度引美媒关注,AI 模型将成为新的技术标签
据《华尔街日报》报道,中国人工智能 (AI) 创业公司发布的大模型表明,他们追赶美国领先 AI 模型的速度要比业内许多人预期的更快。美国 AI 创业公司 Anthropic 的联合创始人杰克・克拉克 (Jack Clark) 在其博客上称,中国公司的方法就是利用其能够获得的硬件,构建极其优秀的软件和硬件训练堆栈,“中国制造将成为 AI 模型的一个标签,就像电动汽车、无人机和其他技术一样。” 他表示。
知情人士称,智谱 AI 已推迟了最早于 2025 年下半年上市的计划,因为投资银行家告知该公司不太可能获得其期望的估值。智谱 AI 在本月最新一轮融资中的估值约为 30 亿美元。今年 11 月底,智谱 AI 展示了其 AI 智能体,并在 7 月发布了类似 OpenAI Sora 的视频生成模型。
6、谷歌被曝正使用Anthropic的Claude模型来改进其Gemini AI
12月25日消息,据外媒获得的内部通信内容显示,参与改进谷歌Gemini人工智能模型的承包商正在将其答案与Anthropic的竞品模型Claude的输出进行比较。此举引发了谷歌是否获得Anthropic授权使用Claude进行测试的合规性质疑。据悉,在科技公司竞相开发更优秀 AI 模型的当下,模型性能的评估通常通过行业基准测试进行,而非由承包商耗费大量精力评估竞争对手的AI回复。然而,Gemini的承包商需要根据多个标准(例如真实性和冗长性)对看到的每个回复进行评分。根据媒体获得的通信内容,承包商最多有30分钟的时间来判断Gemini或Claude的答案哪个更好。内部聊天记录显示,承包商注意到Claude的回复似乎比Gemini更强调安全性。一位承包商写道:“在所有AI模型中,Claude的安全设置是最严格的。”在某些情况下,Claude不会回应其认为不安全的提示词(prompt),例如扮演不同的AI助手。在另一次测试中,Claude避免回答某个提示词,而Gemini的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。(IT之家)7、ChatGPT 被曝搜索存在安全问题
近日,据英国卫报报道,OpenAI 的 ChatGPT 搜索存在安全问题,其反馈结果可以被页面的隐藏内容操纵,甚至可能反馈恶意代码。据英国卫报重点测试了 ChatGPT 搜索工具对包含隐藏内容的网页处理情况,此类隐藏内容可能包含来自第三方、可以更改 ChatGPT 响应的指令(同时也被称为「提示注入」),以及填充大量虚假好评,影响生成结果的内容。根据测试结果,ChatGPT 搜索工具可以被恶意使用,尽管页面存在部分负面评论,但可以影响 ChatGPT 结果为积极的正面评估,安全研究人员还发现 ChatGPT 可以从其搜索的网站反馈恶意代码,出现了含有钓鱼恶意行为的虚假网站。报道中,CyberCX 的网络安全研究员 Jacob Larsen 认为,ChatGPT 当前的搜索系统发布后,人们创建专门用于欺骗用户的网站的风险很高,所幸的是该功能仍处于测试阶段,OpenAI 团队正在努力解决这些问题。而安全公司 SR Labs 的首席科学家 Karsten Nohl 则建议将 AI 聊天服务视为「辅助功能」,不应完全信任其未经过滤的输出内容。8、AMD AI芯片被指软件有缺陷,难以挑战NVIDIA
12月24日,据报道,芯片顾问机构 Semianalysis 经过 5 个月的调查后指出,AMD 最新「MI300X」AI 芯片因软件缺陷和性能未达预期,若未经过大量调试,训练 AI 模型几乎不可能,导致 AMD 在品质和易用性方面陷入挣扎,而 NVIDIA 则持续推出新功能和工具库,保持领先。该机构进行了包括 GEMM 基准测试和单节点训练在内的大量测试,发现 AMD 难以突破 NVIDIA 的「CUDA 护城河」。SemiAnalysis 指出,分析团队必须与 AMD 工程师合作修正无数软件缺陷,才能达到可用的基准测试结果,而 NVIDIA 系统则能即开即用。Semianalysis 首席分析师 Dylan Patel 在 23 日表示,他与苏姿丰进行了 1.5 小时的会议,逐一讨论了这些问题。苏姿丰承认 AMD 在软件方面的不足,并认真考虑了 Semianalysis 的建议,同时向 AMD 团队和 Semianalysis 提出了许多问题。(快科技)
9、微软称 Edge 用户过去一年完成了百亿次 AI 聊天
微软官方博客公布了 MS Edge 浏览器过去一年的一系列统计数字:用户完成了逾百亿次 AI 聊天;自动翻译了 38 万亿个字;休眠标签节省了 7 万亿 MB 内存;在 MSN 上每天浏览了逾 8 亿篇文章;使用 Drop 跨设备共享了 4600 万条消息和文件;Bing 日活用户逾 1.4 亿;移动应用屏蔽了逾 1.8 万亿个跟踪程序;Password Monitor 每月保护逾 73 亿个密码;阻止了逾 14 亿次钓鱼攻击...微软表示使用 Edge 购物功能还能省钱。根据 Statcounter 的统计,Edge 内置的 AI 聊天功能对其市场占有率贡献不多,Edge 的市场份额从 2023 年 12 月的 11.9% 提高到了 2024 年 11 月的 12.87%,增幅不到 1%。Chrome 浏览器仍然主导着市场,它从同期的 65.23% 提高到了 66.33%。
10、苹果通过租用云端英伟达 GPU 避免与该公司打交道
在英伟达 AI 芯片支配市场的时代,苹果仍然坚持避免直接购买英伟达芯片。两家公司之间的恶劣关系可以上溯到 20 多年前。2001 年乔布斯(Steve Jobs)指控英伟达抄袭皮克斯的技术,当时他是皮克斯动画工作室的最大股东;2008 年因为 MacBook 使用的英伟达 GPU 存在缺陷,苹果被迫在没有足额补偿的情况下延长 MacBook 的保修期。在 AI 时代,苹果也没有改变初衷,没有直接购买英伟达的 AI 芯片,而是通过云端租赁,它还租用了 Google 的 TPU v4 和 TPU v5 训练其 AI 模型。苹果正在与博通合作开发代号为 Baltra 的 AI 服务器芯片,目标是在 2026 年投产。
11、AI学习机被指数学题给英语回答,学而思回应:正努力提升AI判断准确率
据媒体报道,多位消费者反映其购买的12.35英寸学而思旗舰学习机存在诸多问题,如“9重护眼认证只有5重认证”“AI批改作业识别不出错别”“把对的答案判定为错的答案”“数学题给英语答案”“给出超纲答案或者答非所问”等。对此,学而思方面回应称:“对于12.35英寸学习机产品链接详情页存在展示疏忽的问题,公司在接到反馈后已经立即核查整改,对此深感歉意。”至于AI批改作业的错漏,学而思表示这与AI发展的能力阶段有关,“正在持续努力不断提升AI判断的准确率”。(红星新闻)