专栏名称: 白鲸出海
白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。
目录
相关文章推荐
51好读  ›  专栏  ›  白鲸出海

谷歌AI智能体首次上线手机,Gemini看懂屏幕实时交流

白鲸出海  · 公众号  · 科技公司  · 2025-03-24 22:00

正文

谷歌 Gemini 迈出关键一步:「睁眼看世界」。用户发现 Gemini 新增实时屏幕共享功能,能准确识别屏幕上的内容并实时互动;并且可以打开摄像头与物理世界交互,帮用户给釉陶「上色」。


本文转自微信公众号新智元,作者新智元。

谷歌还是那个谷歌,依然是「地表最强」科技公司。

Gemini 也许仅仅是在「话题度」稍稍落后 ChatGPT,但不要忽视他的技术实力。

最近,一位网友在激活了 Gemini 悬浮窗后,意外发现了一个全新新按钮——「与 Live 共享屏幕」。

而这,正是谷歌为 Gemini Live 推出的全新「AI 实时视频功能」。

基于此,用户可以让 Gemini 实时查看屏幕内容,或者调用手机摄像头画面。

r/Bard - You can now share your screen (mobile) to Gemini Live?
手机发屏幕和外面的世界,Gemini全懂
「Gemini,你可以看到我的手机屏幕吗?」
「没问题,我能到看到时间是 8 点 50,温度是 71 度,日期是 3 月 23 日」

图片

「你能通过屏幕内容猜到我的安卓系统是什么吗?」
「嗯,似乎猜起来似乎有些困难,看起来像是定制的系统」
图片
「屏幕上哪个 APP 和我职业最相关?」
「嗯,似乎是 Code Editor」
「你可以帮我播放视频吗?」
「嗯,因为我们正在实时对话,所以无法控制手机,不过我可以和你聊天、进行头脑风暴」
图片
另一项同步上线的是实时视频功能。
打开完整的 Gemini Live 界面,开启视频流之后,界面右下角有个按钮,点一下就能切换到前置摄像头,这样就能和周围环境直接互动了。
这就像给 Gemini 装上了眼睛,让它能看世界。
图片
开启这个功能后,Gemini 能实时分析手机摄像头捕捉到的画面,然后回答你提出的相关问题。
比如,谷歌本月发布的演示视频里,有人想用颜料给新做好的釉陶上色,拿不定选什么颜色,就可以借助这个功能向 Gemini 求助。
图片
对此谷歌表示,会在 3 月下旬「作为谷歌 One AI 高级计划的一部分,向 Gemini 高级订阅用户逐步推送」。
「Project Astra」谷歌计划已久的AI助手

「这个愿景在我脑海中存在了相当长一段时间。」

谷歌 DeepMind 的负责人、谷歌 AI Efforts 的领导者 Demis Hassabis 在 2024 年 3 月谷歌 I/O 大会上提到。

Demis Hassabis 展示了一个他希望成为通用助手的非常早期版本,谷歌称其为「Project Astra」。

这是一个实时、多模态的人工智能助手,它可以看见世界,知道事物是什么以及你把它们放在哪里,并且可以回答问题或帮助你做几乎所有事情。

「Gemini Live 共享屏幕」就是「Project Astra」的第一次亮相。

同时也是 2025 AI Agent 之年某种产品「形态」的预告片。

当 AI「装上眼睛」实时观看现实世界,并且和你以及你的手机互动时。

AI 会和人类碰撞出怎么样的火花?

谷歌这次新功能的上线,进一步巩固了它在 AI 助手领域的领先地位。

参考资料:
https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out

推荐阅读

靠游戏“Carry”语言学习App,吸量还赚钱?

成为独角兽之后,我们走了哪些弯路 | 创始人复盘

国内ToB、海外ToC双线告捷,美图净利润再次大涨60%







请到「今天看啥」查看全文