在科幻电影中,我们常常看到钢铁侠托尼·斯塔克拥有一个无所不能的智能助手——
贾维斯(J.A.R.V.I.S.)
,
它不仅能够帮助托尼管理日常事务,还能在关键时刻提供关键信息和策略支持。
如今,这一科幻场景正在
逐步变为现实
。据最新爆料,谷歌正在秘密研发一款名为
“Project Jarvis”的AI项目
,该项目旨在将Chrome网页任务自动化,让我们离
拥有个人智能助手
的梦想又近了一步。
近年来,随着人工智能技术的飞速发展,AI已经在各个领域展现出了强大的能力。从最初的
图像识别
、
语音识别
,到如今的
自然语言处理
、
生成式AI
,AI正在不断突破技术的边界,深入到我们生活的方方面面。而AI接管人类电脑,无疑是这一趋势的必然延伸。
几天前,Anthropic公司向世人展示了
Claude 3.5的惊人能力
,它
能够自主看屏幕、操作光标,完成一系列复杂的任务
。这一成果不仅让人眼前一亮,更激发了科技巨头们对AI操控电脑的浓厚兴趣。
微软、苹果、谷歌等科技巨头纷纷布局这一领域,希望能够在未来的竞争中占据先机。
谷歌的
“Project Jarvis”项目
,正是这一背景下的产物。据Information独家爆料,该项目由谷歌内部团队秘密研发,预计将在今年年底正式亮相。与Claude 3.5类似,
“贾维斯”也将通过截屏、解析屏幕内容的方式,自动点击按钮或输入文本,帮助人们完成基于网页的日常任务。
值得一提的是,“贾维斯”这个名字正是向钢铁侠中的
J.A.R.V.I.S
致敬。这一命名不仅彰显了谷歌对科技创新的执着追求,更体现了其对未来智能生活的美好愿景。
最强Gemini 2.0:驱动“贾维斯”的强大引擎
“贾维斯”之所以能够拥有如此强大的能力,离不开其背后的强大引擎——Gemini 2.0。
作为谷歌最新研发的大模型,Gemini 2.0在自然语言处理、图像识别等方面都取得了显著的提升。它的加入,无疑为“贾维斯”提供了强大的技术支持和保障。
在5月的谷歌I/O大会上,
谷歌CEO劈柴曾展示了Gemini和Chrome如何协同工作的样貌。可以预见的是,在Gemini 2.0的加持下,“贾维斯”将能够更加精准地理解用户意图,更加高效地完成任务。
微软OmniParser:AI智能体操控屏幕的又一力作
在谷歌“贾维斯”即将问世之际,微软也悄然放出了自己的
AI框架——OmniParser
。这款工具能够将截图转化为结构化数据,帮助AI精准理解用户意图。与“贾维斯”类似,OmniParser也致力于实现AI智能体对屏幕的操控。
为了将GPT-4V等多模态大模型应用于操作系统上,模型需要具备强大的屏幕解析能力。而OmniParser正是为此而生。它
能够准确地识别用户界面中的可交互图标,理解屏幕截图中各种元素的语义,并将预期动作与屏幕上的相应区域关联起来。
然而,AI智能体操控屏幕并非易事。
它面临着诸多技术挑战,如准确地识别用户界面中的可交互图标、理解屏幕截图中各种元素的语义等。
为了解决这些挑战,科技巨头们纷纷展开了深入的研究和探索。
微软的研究人员发现,将屏幕解析任务分解为两个子任务——可交互区域检测和局部语义整合——可以显著提高模型的性能。
他们使用微调后的
可交互图标检测模型
、
图标描述模型
以及
光学字符识别(OCR)模块
,生成用户界面的结构化表示。这一方法不仅提高了模型的准确性,还降低了计算成本。
随着谷歌“贾维斯”、微软OmniParser等项目的推出,AI自主操控电脑的时代已经悄然来临。
未来,我们将能够拥有一个更加智能、更加高效的个人助手,它能够帮助我们管理日常事务、提供个性化建议、甚至在我们需要帮助时伸出援手。
然而,我们也要清醒地认识到,AI技术的发展仍然面临着诸多挑战和问题。
如何确保AI的安全性、如何避免AI的滥用和误用、如何保护用户的隐私和数据安全等,都是我们需要深入思考和解决的问题。
总之,AI自主操控电脑的时代已经到来,它将为我们带来前所未有的便利和机遇。但同时,我们也需要保持警惕和理性,共同推动AI技术的健康发展。让我们期待一个更加智能、更加美好的未来吧!
关注我们,一起探索AI的无限可能!🚀✨
MORE | 延伸阅读