专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
51好读  ›  专栏  ›  新智元

苹果AI爆炸全宇宙!一夜重塑iPhone,Siri全家桶史诗级更新,马斯克怒了

新智元  · 公众号  ·  · 2024-06-11 14:14

正文



新智元报道

编辑:编辑部
【新智元导读】 万众瞩目的WWDC24上,苹果果然用AI把iPhone全部重塑。重磅登场的Apple Intelligence,让苹果全系产品有了史诗级升级。Siri被全面重塑,自由穿梭于系统中。AI大牛Karpathy对此狂赞,然而马斯克却彻底怒了,下令全员禁用苹果!

苹果说到做到,一夜间,iPhone果然被AI重塑!

长达一个半小时的WWDC大会,主题就是AI、AI、AI——

从iPhone、iPad到Mac,无不被生成式AI覆盖。横空出世的Apple Intelligence,让苹果全系产品有了史诗级升级。

现在的整个苹果全家桶,都会用上GPT-4o,Siri还能随时召唤ChatGPT。
硅谷各家大科技公司的大模型发展得如火如荼,苹果能做什么?库克的这句话揭示了答案——「LLM等AI突破,让我们有机会把苹果产品的体验推向新的高度」。
你们做模型,我们做产品,的确是苹果一贯擅长的赛道。
而且,对于大家普遍担忧的安全问题,苹果也有解:通过苹果强大的自研芯片,普通大模型在设备端运行,太大的大模型就放到云端。
而苹果专门打造的私密云计算技术,也保障了我们的隐私和安全,我们的数据就连苹果都无法访问。
被Apple Intelligence加持的Siri,也彻底改头换面,全面逼近苹果让它「自由穿梭于系统中,随时听我们调遣」的愿景。
此外,除了Vision OS的重大更新之外,库克的这个消息也让中国用户激动不已:Vision Pro将于6月28日登录中国市场,本周五开始接受预定,价格29999元起!

网友:苹果AI满足了我的所有想象

有中国网友评论说:太牛了,Apple Intelligence真的满足了自己对AI在设备上的所有想象,不愧是苹果。
以前是Artifical Intelligence,如今就是Apple Intelligence了。
对于iPadOS 18的数学笔记功能,很多人都表示这太狂野了!
关于计算器应用终于登录iPad这一史无前例的事件,网友们表示万分激动。
OpenAI创始成员,AI大牛Karpathy对于苹果的这次更新也称赞不已:「我们正在进入一个打开手机就可以说话的世界。它可以和你对话,而且它认识你。这实在太令人兴奋了!」

Karpathy总结了这次苹果发布会的几大主题:多模态输入/输出、智能体、无摩擦、主动、分级售授权、模块化、隐私
还有人给这次苹果的所有更新做出了一张bingo游戏图。

Apple Intelligence:不仅个人化,而且懂你

苹果的目标,就是为全球10亿用户构建强大的个人化产品。
而近期生成式AI和LLM的发展,直接给苹果产品使用体验的全新升级带来了可能。
苹果对于产品的核心原则是: 足够强大,在最要紧的事上都能帮到用户;直观易用;深度整合到产品的使用体验中;它必须足够「懂你」,以你的个人情境为基础;而且,还要注重保护隐私。
如果这些原则都能满足,那它绝不仅仅是AI了,而是一种「个人化智能」。
而符合全部这些条件的Apple Intelligence,就在昨晚闪亮登场了!

为了这一刻,苹果已经准备了许久
这个全新的个人化智能系统,能让我们手中的个人化产品更实用、更称心。
市场上已有的AI聊天工具虽然好,但有一个通病:很少充分了解用户,因而也不理解我们的需求。
而苹果,要改变这一切。Apple Intelligence,会让即将到来的iOS 18、iPadOS 18和macOS Sequoia,彻底脱胎换骨!
Apple Intelligence,将强大的生成式模型置于iPhone、iPad和Mac的核心,能够根据我们所处的个人情境,来提供协助,而且深度整合在了所有的APP中。

能力

Apple Intelligence,可以让我们的iPhone、iPad和Mac理解、生成语言和图像,还能代替我们跨多个app交互,简化操作过程。
它最亮眼的地方,就在于理解我们的「个人情境」。
自然语言
Apple Intelligence中内置的LLM,能深刻理解自然语言。
比如,iPhone可以为通知设定优先次序,从而为我们减少不必要的干扰,同时又能不错过重要的信息。
它还会驱动一个全系统适用的全新书写工具,让我们写起东西来更从容。
它能帮我们重写、校对,还能提取文字摘要。
在它的帮助下,我们无论是写文章、发帖,还是提炼想法分享给他人,过程都会无比丝滑(甚至还能帮我们检查要发在网上的评论)。
同时,它还自动支持邮件、备忘录、Safari浏览器、Pages、Keynote,甚至第三方APP。
图像
Apple Intelligence还包含多种图像功能,从照片、表情符号到动图。
甚至,它还能让我们完全自创图像,让我们的日常对话更有趣。
更有趣的是,因为它认得我们照片图库中的人物,我们可以把他们的图像个性化,用到对话中。
比如,给朋友送上生日祝福时,我们可以生成ta的图像,用蛋糕、气球和花朵点缀起来。
生成的图像,有素描、插图、动画三种风格可选。
更让人惊喜的是,这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。
跨app操作
Apple Intelligence的另一个特点,就是还能跨app操作,这无疑会带来深远的影响。
它所需工具的各种资源,就在我们自己的口袋中——这些常用的app里。
苹果设计的Apple Intelligence,能随时取用这些工具,代我们执行各种操作。
我们可以直接向它开口:「调出上周Joz发给我的文件」,或者「给我看看所有妈妈、Olivia和我的照片」「播放前几天我太太发给我的播客」等等。
Apple Intelligence,会实现数百种此类操作。
个人情境
顾名思义,个人化智能最关键的要素之一,就是要深刻理解我们的个人情境。
而Apple Intelligence的运作,正是基于我们的个人信息都和情境之上的。
它能从我们的各种app中,检索和分析相关程度最高的数据,还能参考我们屏幕上的内容,比如我们正在查看的邮件,或者日历日程。
在日常生活中,这个功能可太有用了!
比如,我有一场会议改到了傍晚,我想知道开完这场会后,是否还能赶上女儿的演出,直接问Apple Intelligence就可以了。
因为它知道我女儿是谁,她几天前发来的演出详情,我这场会议的时间地点,甚至还能预估我从公司到剧院的交通情况。

架构

这个个人化智能系统的基石,就是设备端处理。
要实现这项功能,就离不开苹果软硬件整合,以及强大的芯片。
提供支持的芯片,包括A17 Pro,以及M系列芯片,它们为Apple Intelligence提供了坚实的算力基础。
它内置了设备端的语义索引,可以整理和提炼各种app中的信息。
我们提出请求,Apple Intelligence就会同通过语义索引,识别相关个人数据,然后传给模型,让它们根据个人情境更好地协助你。
这个过程中用到的大多数模型,都能在设备端运行。
然而有的模型,会大到无法放进随身携带的设备,怎么办?
答案就是——服务器。
不过这里依然有一个问题,在传统的做法中,服务器会储存我们的数据,在我们不知情的情况下使用这些数据。我们却无法对之验证,因为服务器软件只有所有者才能访问。
而苹果的做法,彻底断绝了这种可能!
我们能全权掌控自己的数据,包括在哪里储存、谁能访问。当iPhone上的隐私和安全保护功能扩展到云端,我们就能解锁更多智能功能了。
为此,苹果打造了私密云计算技术。
它不仅能扩展自身的计算能力,还能引入更大的基于服务器的模型,来处理更复杂的请求。
而我们的隐私也会得到保护,因为我们的数据绝不会被存储,连苹果都无法访问。

体验

Apple Intelligence强大的语言理解功能将落地为写作助手(Writing Tool)。
作为操作系统的内置AI,写作助手不仅可以用在手机自带的短信或邮件中,也同样支持所有需要输入的第三方应用。
邮件中有了自带的校对功能,可以一键查看修改建议,并能直接看到所有词语的释义。
写邮件时,再也不需要一遍遍复制粘贴到其他应用的界面了,苹果一夜之间就抢了Grammarly的看家生意。
不仅是文本校对,Writing Tool也同样提供多样化的改写功能。
它可以同时在文中生成多个改写版本供你选择,也能随时回滚到原始版。
此外,用户还能和Writing Tool进行个性化交互,定制自己的改写需求,比如改变文体、文风、语气等等。
想要发一封有文采的邀请函?Writing Tool可以瞬间帮你把现有的平常文字改写成一首诗。
或者一键在友好、专业、简洁等三种文风间切换,丝滑适应不同身份的收件人。
谷歌都有了网页内容的摘要,苹果又怎么能落下。这不邮件的摘要功能就出来了,拯救所有不想读长邮件的打工人。
邮件太多懒得回?Writing Tool也帮你想好了对策。
Smart Reply功能可以自动理解邮件的上下文内容,并自动为你生成一堆选择题。
只需要点击几下选出自己的答案,就能生成一份智能回复,连打字都省了。

Siri

13年前,Siri首次问世,作为曾经首屈一指的智能语音助手曾经掀起巨大热度。
如今,繁忙的Siri每天需要处理15亿次语音请求。而它离苹果「自由穿梭于系统中,随时听我们调遣」的愿景,也更近了一步!
在Apple Intelligence的加持下,Siri变得更自然、更贴合语境了,因此也变得更加贴合我们。
如今当我们和Siri对话时,它和系统的整合会更深入。当它运行时,优雅的光晕会环绕着屏幕边缘。
我们和Siri的对话也可以更自然,因为它能理解更丰富的语言。即使说话不连贯,它都能理解我们的意思。
比如问它:明天缪尔海滩是什么天气,不对,是缪尔森林。
它会清晰地理解你的意思,并且给出正确的回答。
即使我们在提问中停顿,思考一番,Siri依然能跟上我们。
在对话中,Siri还能联系上下文。比如我们接着上面说「创建日历日程,明天上午9点去那里徒步」,它立马正确地理解「那里」指的是哪里,完成了指令。
如果我们不想跟Siri大声说话,现在可以直接给它打字了。
只要在屏幕下方快速轻点两下,就能让Siri快速设好闹钟,整个过程悄无声息。
跟Siri交流的过程中,我们可以在文字和语音中随时切换。
而且,现在Siri掌握了大量关于功能和设置的信息,能回答数千个问题,关于如何在iPad或Mac上进行操作。
即使我们不知道某项功能的确切名称,只需要口头描述一番,Siri就能帮我们找到了!
比如直接问它:「我想现在就写好信息,然后明天发送,该怎么做?」
Siri完全明白我们说的是哪个功能,还提供了分步说明。
Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。
比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。
当然,Siri也可以完成跨app操作。
比如我们可以说:「让我看看Stacey在纽约穿着粉色大衣的照片」,Siri就会把它们找出来,然后还能按照我们的指令开始修图。
然后,我们还可以让Siri把这张照片加到备忘录中Stacey的简介里,它就会从照片app跳转到备忘录app中,来完成操作。
这些增强功能,也并不限于苹果开发的APP。
比如,我们可以让Siri用Moment的Pro Camera,来拍摄光轨的视频。
也可以让Siri把我们备忘录里的会议摘要,分享到我们在Superhuman中给大家写的邮件里。
下面的这个功能,就更酷炫了!
通过为照片、日历日程、文件等创建语义索引,再加上往来消息和邮件的信息,比如预定酒店、音乐会门票的PDF文件、朋友分享的链接等,Siri能发现和理解的内容范围,将远超以往。
如果我们忘了资料是在邮件、信息还是在共享备忘录里,Siri都能解决。比如我们需要找到朋友之前推荐的书单,或者是填表时需要驾照号码。
假如我们打算去机场接妈妈,Siri能直接帮我们规划时间。
它能同时参考妈妈在邮件里写的航班详情,以及航班的实时动态,为我们提供最新的到达时间。
而在和妈妈的闲聊中,她提到过中午订了餐厅,我们就可以直接问Siri去那家餐厅需要多久,完全不必在邮件、信息和地图中跳来跳去了!
如苹果所说,今年将成为Siri新纪元的起点。

苹果「全家桶」用上GPT-4o

以上所展示的苹果AI能力,仅是一个「起点」。它能够以极为独特的方式理解你、尊重你、支持你。
未来,苹果还将带来超多的实用功能,比如备忘录中的录音和转写功能。
它能够帮你更详细地记下笔记,专心听讲,完全可以替代GoodNotes、Notability这类的学习工具。
录音/转写完成后,苹果AI还能帮你总结摘要,扫一眼便能抓住要点。
与此同时,录音/转写和苹果AI结合的能力,同样适用于电话应用。
当你实时通话的时候,开启录音,所有的参与者都将会收到通知,并且通话结束后苹果AI也会生成一段摘要。

Siri召唤ChatGPT

对于一些非常有用的外部AI工具,比如擅长处理某些需要广博知识,或者专业特长的任务,苹果直接将其模型纳入体验之中,而无需来回切换工具。
当然,这个工具就是行业的翘楚、市场的开拓者和领头羊—— ChatGPT。
苹果AI将用上全新的GPT-4o能力。
首先,Siri可以借助ChatGPT的专长,随时为我们所用。
比如,你想用刚钓的鱼,和自家种的菜为朋友准备一顿丰盛的大餐时,可以找Siri给些灵感。
Siri便会问你,是否召唤ChatGPT,然后直接为你呈上最丰富的答案。
而且,问问题时,你还可以上传一张照片。比如,询问如何家装的建议,拍张照片然后问「这个露台种什么植物好看」?
Siri会首先确认是否会向ChatGPT分享照片,然后才会为你找寻点子,整个过程完全就是一气呵成。
除了照片,你还可以询问关于文档、演示文稿,或者PDF中的相关问题。
另外,苹果AI还借用了ChatGPT的编写能力,将其融入所有系统中适用的书写任务中。
假设你想为擅长解谜的6岁女儿写一个睡前故事,初步构想是「她来到了梦幻的蝴蝶童话王国。她和一只毛毛虫成为了好友,并帮它克服重重困难,最终变成了一只蝴蝶」。
只见,ChatGPT不一会儿功夫完成了一个Annie喜欢的小故事。
甚至,你还可以选中所有内容,让ChatGPT为其生成一副插画。
以上所有能力,无需注册ChatGPT,便可免费使用。
对于那些订阅ChatGPT的用户们,也可以关联自己的账号,可以在使用苹果AI过程中接入付费的能力。
不过,苹果再三强调,我们的请求和个人信息不会被记录。何时使用ChatGPT,都是你说了算,再分享任何信息之前,都会征求用户的许可。
ChatGPT也将集成到这次所有更新的iOS 18、iPadOS 18、macOS Sequoia系统中,并在今年晚些时候推出。
未来,其他先进的AI模型的能力,也会集成到苹果AI之中。
不出所料,苹果AI能力仅限在iPhone15级别的手机上使用,不过对于iPad、MacBook还比较友好些,能够兼容M1芯片及以上的硬件。

马老板怒了,禁止全员使用苹果

ChatGPT在苹果全家桶中无缝集成能力虽炫酷,却遭到的全网非议。
最先反对的就是马老板!
他连发多篇帖子,对ChatGPT上机苹果表示不满,甚至扬言禁止公司所有成员使用苹果的设备。
我不想要这个能力。这就如同间谍软件一般,如果你们不阻止,我的公司将禁止使用任何苹果设备。
另外,马斯克还单独发帖子称:
「对于公司的外部来访者,都必须在门口将他们的设备放在「法拉第笼」(Faraday cage)中」。
苹果没有能力开发AI,却能够确保OpenAI会保护你的安全和隐私。一旦苹果将你的数据交给OpenAI,他们就不知道OpenAI究竟会如何处理这些数据,他们实际上是在出卖你的隐私权。
也有众多网友对苹果的这项能力,产生了质疑。
一位网友从底层架构图中得出,Siri可以读取手机上的所有数据(适用于选择加入的应用程序) 。
一家AI初创的CEO表示,
老实说,我真不理解苹果为什么要把任何东西发送给ChatGPT?这太怪异了。为什么不直接让Meta授权,然后自己部署400B的Llama模?从70B开始也可以呀...
他们口口声声强调隐私和安全,甚至声称你不应该相信任何人!结果他们却来了个180度大转弯——是的,我们正在把你的数据发送给ChatGPT。
还有人配上梗图讽刺道,「当奥特曼已耗尽100%互联网训练数据时,看到十亿部手机时」。

苹果AI背后模型训练过程揭秘

发布会之外,苹果还发布了一篇关于介绍苹果AI能力实现背后的基础模型的文章。
博客介绍道,苹果AI是由「多个」强大的生成式AI模型组成,这些模型专用于日常任务,并根据当前活动实时调整。
他们强调,内置的基础模型针对用户体验进行了微调,比如编写和提炼文本、对通知优先排序汇总等等。
接下来,苹果详细介绍了两个经过微调建模的模型:
一是,可以运行在终端设备中的30一参数模型。
另一个是,更大的基于苹果芯片加持云服务器的基础模型,可用于私有云计算。
其他模型还包括,用于编码的XCode,扩散模型(帮助用户如在Messages应用中,以视觉方式表达自我)。

预训练

苹果的基础模型,是在2023年发布的开源项目AXLearn框架之上训练的。
AXLearn建立在JAX和XLA之上,可以在各种训练硬件和云平台上高效、可扩展地训练模型,包括TPU和云端及本地GPU。
另外,苹果研究团队还采用了数据并行、张量并行、序列并行和全分片数据并行(FSDP)等组合方式,从数据、模型和序列长度等多个维度来扩展训练规模。
至于数据的选用,苹果表示自己用的是授权的数据训练基础模型。
其中包括两种数据来源:一是经过精心选择,目的是提升模型的特定功能;二是,苹果网络爬虫AppleBot工具从网上公开采集的数据。

后训练

苹果团队意识到,数据质量对于模型的成功,至关重要。
因此,他们在训练过程中,采用了「混合数据策略」,即结合使用人工标注和AI生成数据,并进行了彻底的数据筛选和处理。
具体来说,研究团队在模型「后训练」阶段,开发了两种全新的算法:
(1) 拒绝抽样的微调算法,使用多个教师模型作为参考,对模型输出进行过过滤和微调






请到「今天看啥」查看全文