11月21日消息,
宝可梦GO团队宣布推出大规模地理空间模型LGM
,通过大规模机器学习理解,连接全球数百万个场景,实现对地理位置的智能理解和互动。LGM结合视觉定位系统VPS,利用用户扫描数据创建详细的3D地图,推动AR眼镜和机器人等领域的突破。
11月25日消息,
谷歌云发布商用AI Agent市场
。面向企业用户,提供个性化选择,简化部署流程,并支持免费试用。面向开发者和合作伙伴提供技术工具、市场资源和激励计划,推动AI Agent解决方案开发。目前上架19款产品,已有多个知名企业成功部署。
11月26日,
Hugging Face宣布推出SmolVLM AI视觉语言模型(VLM)
,仅有20亿参数,用于设备端推理。官方表示其优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下发布。
11月28日,
苹果模块化智能眼镜专利申请公布
。该眼镜支持添加音频设备、替换镜框等配件;支持虚拟现实、增强现实及混合现实功能,满足不同需求的定制化用户体验。用户可根据需求调整功能组件,如高分辨率显示或长续航,以适应不同使用场景。
12月3日,
李飞飞的World Labs推出首个“空间智能”模型
,实现从一张图生成3D世界,可用于实时渲染、生成可互动的虚拟环境,改变游戏、电影和VR的发展。该模型结合了生成式AI与3D技术,可以为创作者提供全新的创意工作流,并推进空间智能的应用。
12月3日,
亚马逊云科技(AWS)在re:Invent大会上发布自研Amazon Nova系列6款大模型
,包括Micro、Lite、Pro、Premier四个版本的语言模型,以及图像生成模型Canvas、视频生成模型Reel,这些模型均支持自定义微调和蒸馏。AWS还将在明年推出“语音转语音”模型和“任意转任意(Any-to-Any)”多模态模型。
12月4日,
谷歌旗下DeepMind发布大型基础世界模型Genie 2
,能够根据用户输入的文本描述和图像,实时生成交互式的三维场景,人或AI Agent均可通过键鼠操作,进入这个新创建的世界并与之互动。该模型可用于训练和评估具身Agent。