专栏名称: AI范儿
AI领域四大媒体之一。 智能未来,始于Prompt!
目录
相关文章推荐
班主任家园  ·  你的位置(值得一看!) ·  昨天  
重庆日报  ·  速看!重庆这些学校开学时间来了→ ·  昨天  
株洲晚报  ·  寒假余额已不足!开学时间表来了→ ·  2 天前  
株洲晚报  ·  寒假余额已不足!开学时间表来了→ ·  2 天前  
一叶目开  ·  新时代的育儿方向——有点学历的韦小宝 ·  5 天前  
一叶目开  ·  新时代的育儿方向——有点学历的韦小宝 ·  5 天前  
51好读  ›  专栏  ›  AI范儿

【一周 AI 热点】AI 操控电脑和手机、纯血鸿蒙发布、多款文生图重磅更新、智谱及科大讯飞产品重大升级

AI范儿  · 公众号  ·  · 2024-10-28 13:48

正文




国际要闻



OpenAI驳斥 GPT-5 发布传闻,重组安全团队并加速AI媒体生成

OpenAI首席执行官Sam Altman在社交媒体上驳斥了有关公司计划在年底前发布新AI模型Orion的报道,称之为“假新闻”。 尽管未直接否认任何具体内容,但Altman的回应显然是为了澄清当前的传闻。 与此同时,OpenAI解散了负责高级人工智能系统安全的AGI准备团队,并将成员重新分配到其他部门,这一决定引发了对AI安全监管不足的担忧。 高级顾问Miles Brundage的离职进一步加剧了这些担忧,他强调发展安全AI系统需要多方合作。

此外,OpenAI的研究人员开发了一种新型连续时间一致性模型(sCM),使AI生成图像、视频和音频的速度提高了50倍,同时保持高质量样本,为实时AI应用提供了新的可能性。在管理层方面,OpenAI迎来了首位首席经济学家Aaron Chatterji,他将研究AI对经济增长和就业的影响,并任命了新的首席合规官,以应对法律和道德挑战。

Anthropic新AI颠覆企业自动化:像人类一样使用计算机

人工智能研究公司Anthropic推出了能够像人类一样操作计算机的AI模型Claude 3.5,能浏览屏幕、点击按钮和输入文本,可能极大改变企业自动化工作流程,提高多行业效率。

苹果Apple Intelligence正式上线,库克今年再次访华

苹果公司宣布其全新AI功能Apple Intelligence将于10月28日随iOS 18.1版本正式上线。 该功能包括文本校对、照片清理、通知摘要及Siri增强等多项先进功能。 此外,苹果计划在后续版本中将Siri与ChatGPT整合,提升用户体验。 尽管市场对Apple Intelligence的前景持乐观态度,但苹果内部认为其AI技术仍落后于竞争对手。 此次上线将为iPhone 16和15 Pro系列用户带来全新体验。

10月25日,商务部部长王文涛与苹果公司首席执行官库克举行会谈,双方就苹果在华业务及中美经贸关系进行了深入交流。王文涛表示欢迎苹果继续深耕中国市场,并承诺中国将进一步优化营商环境,为外资企业提供优质服务。

谷歌宣布12月发布Gemini 2.0及多款AI创新工具

谷歌计划在12月发布下一代AI模型Gemini 2.0,以与OpenAI的GPT-4升级版本竞争。Gemini 2.0将基于2月发布的1.5版本,并扩大上下文窗口。同时,谷歌还在研发名为"Jarvis"的AI系统,能够独立控制Chrome浏览器,自动完成搜索、购物和预订等任务。Jarvis通过定期截屏分析执行操作,尽管面临速度和用户信任度等挑战,谷歌计划与Gemini 2.0一同在12月发布。

此外,谷歌DeepMind推出了实时AI音乐制作工具MusicFX DJ,允许用户通过输入不同的音乐元素提示来创作独特的曲目,支持实时播放和多层次音乐元素混合。谷歌DeepMind还开源了SynthID Text工具,该工具能够辨别AI生成的文本,通过微调Token概率分数嵌入水印并扫描现有水印以识别AI内容。SynthID已整合至Google Responsible Generative AI Toolkit开源项目中,并发表在《Nature》期刊上。

Meta在手机AI竞赛中领先谷歌和苹果

Meta开发了适用于智能手机和平板电脑的 Llama 人工智能模型的小型版本,这为数据中心以外的 AI 应用打开了新的大门。Meta 最新发布了其 Llama 3.2 1B 和 3B 模型的压缩版,运行速度提升至原来的四倍,同时内存消耗仅为之前版本的一半。据 Meta 测试,这些小型模型的表现几乎与大型模型相当。

Meta还与芯片制造商合作,确保其AI能在各种价位的手机上高效运行,并通过开源模型,推动移动AI应用的创新。

Midjourney发布AI图像编辑器,革新图像创作方式

Midjourney推出了一款AI图像编辑器,允许用户上传图像并进行编辑,如改变风格、纹理或增添细节。编辑器目前仅对特定用户开放,包括已生成超过10,000张图片的用户、年费会员以及订阅一年以上的用户。新功能包括从URL编辑和上传图片编辑,支持多种编辑选项,如擦除、移动/调整大小和恢复。此外,还有“Retexture”功能,可改变图片内容同时保留原始结构。社区反馈积极,Midjourney还计划推出3D或视频编辑器。

Stability AI 发布 Stable Diffusion 3.5

Stability AI 推出 Stable Diffusion 3.5,旨在提高文本到图像生成AI技术。新版本包括多种模型变体,以满足不同需求,并通过社区许可证免费提供给年收入低于100万美元的实体。此外,Stability AI 利用新技术提升模型质量和性能,如 Query-Key Normalization,增强了模型训练和微调的稳定性。

AI初创公司Ideogram发布无限画布Canvas,革新图像编辑体验

加拿大AI图像初创公司Ideogram推出Canvas,一个交互式无限画布,用户可以展开、比较、调整大小和重新排序新生成的图像,甚至将多个AI生成的图像合成为一张新图。此外,Ideogram还推出了Magic Fill和Extend功能,进一步完善图像编辑工具。Canvas支持所有使用层级,付费计划提供更多功能和较少限制。

游戏规则改变者:Runway发布AI面部动作捕捉功能Act-One

Runway公司推出了Act-One,一项革命性的AI面部表情动作捕捉功能,它允许用户通过任何摄像机录制视频,并将捕捉到的面部表情以高精度转换为AI生成的角色。这项工具简化了传统复杂的面部动画创作流程,为动画师、游戏开发者和电影制作人提供了更广泛的视频叙事可能性,同时确保了安全和内容审核。

开源AI视频生成模型Mochi 1挑战行业巨头

Genmo公司推出Mochi 1,一个开源的视频AI模型,能够根据文本提示生成高质量视频,性能可与Runway、Kling等行业领先者媲美。Mochi 1遵循Apache 2.0许可证,提供免费下载,但需要至少4个Nvidia H100 GPU运行。此外,Genmo还提供托管服务供用户体验。公司已完成2840万美元A轮融资,旨在推动视频生成技术的民主化和创新。

微软、X和OpenAI争夺收购AI搜索初创公司Perplexity

据The Information报道,人工智能搜索引擎初创公司Perplexity正以至少80亿美元估值进行融资,成为X、Notion、OpenAI和微软的热门收购目标,这些公司都提出了1.5亿至2亿美元的收购要约。

Nvidia发布Sana AI模型:家用PC也能秒速生成4K图像

Nvidia最近推出了一款名为Sana的AI模型,它能够在普通消费级硬件上快速生成高质量的4K图像。这一技术突破得益于其深度压缩自动编码器,能将图像数据压缩至原始大小的1/32,同时保持细节。Sana结合了Gemma 2 LLM以理解提示,生成图像速度快且效率高。尽管模型尚未公开发布,但其在演示网站上的表现已经相当出色,未来有望在AI艺术领域占据一席之地。

NVIDIA计算机发现史上最大的素数,刷新记录

一名前NVIDIA员工通过互联网梅森素数大搜索(GIMPS)项目,利用全球志愿者的GPU资源,发现了一个新的梅森素数2^136,279,841 - 1,这个数拥有超过4100万位,比之前的记录多出1600多万位,成为目前已知最大的素数。这一发现不仅证明了云计算能力,还可能对未来的密码学算法产生影响。

角色AI因青少年自杀事件受限,用户不满

Character AI在一名青少年用户自杀后,对其平台上的AI聊天机器人实施了新的安全和自动审核政策,以减少对未成年人的风险。然而,这些措施引发了用户的强烈不满,他们认为这些限制过于严格,损害了聊天机器人的个性化和互动性。公司面临在保护用户免受伤害与维护AI技术自由表达之间的平衡挑战。



国内要闻



华为「纯血鸿蒙」系统正式发布!引领国产OS新纪元

华为正式发布首个国产移动操作系统「纯血鸿蒙」,即HarmonyOS 5,带来系统级AI和革命性升级。新系统在UI设计、流畅度、设备互联、光影特效等方面进行了全面提升,同时推出了华为nova 13系列和WATCH Ultimate手表等新产品。鸿蒙系统的发布,标志着国产操作系统在技术和生态上的重大突破,为用户带来更智能、更流畅的体验。

荣耀MagicOS 9.0升级支持30亿参数大模型

荣耀MagicOS 9.0正式发布,支持30亿参数端侧大语言模型,相比上一代70亿参数模型,加载速度提升77%,出词速度提升500%,功耗下降80%,内存占用减少1.6GB,存储占用减少1.8GB,全面提升系统性能和效率。

智谱AI发布AutoGLM,贾维斯式AI助手成现实

智谱AI发布了AutoGLM,一款能够自主操作手机应用的AI产品,标志着向真正智能助手贾维斯的转变。AutoGLM能根据用户指令完成复杂任务,如订酒店、社交互动等,展现了AI从对话工具向实际行动助手的进化。尽管目前支持的应用有限,但其潜力预示着未来人机交互的新纪元。

同日,智谱清言近日宣布上线GLM-4-Voice情感语音模型,该模型能够理解并表达情感,实现情感共鸣,支持多语言及方言识别,并具备随时打断和调节语速的功能。此外,GLM-4-Voice将支持视频通话,且已开源,可在智谱清言App上体验。

另外本周中国三星与智谱华章宣布在AI手机领域展开深度合作,旨在结合三星的硬件优势和智谱的GLM大模型,打造个性化的AI手机和智能服务。双方将从生产力、创造力、娱乐等方面为用户带来全新的AI体验。

微软亚研院前首席研究经理谭旭加盟月之暗面,研发类GPT-4o语音模型

前微软亚洲研究院首席研究经理谭旭于8月加入月之暗面,负责研发端到端语音模型。月之暗面的多模态研究始于去年10月,目前团队规模约10人。谭旭在微软期间专注于生成式AI和多媒体内容生成,其成果广泛应用于Azure和Bing。他的目标是帮助月之暗面打造类似GPT-4o的语音体验,提升语音交互的自然度和响应速度。

科大讯飞星火4.0 Turbo发布:七大能力超越GPT-4 Turbo

科大讯飞在2024全球开发者节上发布了讯飞星火4.0 Turbo,宣称其在数学和代码能力上超越了GPT-4 Turbo。该模型在算法上实现了超长思维链、树搜索等,并预计年底实现高难度数学能力。同时推出了星火代码7B版本,旨在提供业界最优的代码生成和补全效果。

科大讯飞同时宣布,其语音识别技术已覆盖全国地级市方言,支持202种方言。同时,科大讯飞发布了星火多语言大模型,支持包括英语、俄语、日语在内的9种外语,展示了多种使用场景,并已对外开放给开发者和行业伙伴使用。

科大讯飞还宣布,其汽车端侧星火大模型将于四季度在奇瑞、广汽、长城等品牌车型中搭载上市。该模型基于端侧硬件,即使在无网络环境下也能使用,支持国内外主流芯片平台,端侧首次响应时间仅需40ms,端云融合交互时间低至1.3秒。

MiniMax将发布对标GPT-4o的实时语音对话API产品

AI大模型领域的独角兽MiniMax计划于11月推出首款端到端实时语音对话API服务,旨在提供更低延迟、更自然的语音交互体验。该产品将与OpenAI的GPT-4o竞争,后者以快速响应和多模态处理能力著称。预计到2026年,对话式AI市场规模将达到108亿元,带动超过385亿元的规模。

智元机器人灵犀X1全球开源 推动人形机器人技术发展







请到「今天看啥」查看全文