专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

震撼！谷歌版“贾维斯”即将震撼登场，AI自主操控电脑的新纪元已来！

AI领域技术栈 · 公众号 · · 2024-10-28 13:15

正文

请到「今天看啥」查看全文

阅读原文小猫动图

在科幻电影中，我们常常看到钢铁侠托尼·斯塔克拥有一个无所不能的智能助手—— 贾维斯（J.A.R.V.I.S.），它不仅能够帮助托尼管理日常事务，还能在关键时刻提供关键信息和策略支持。如今，这一科幻场景正在逐步变为现实。据最新爆料，谷歌正在秘密研发一款名为 “Project Jarvis”的AI项目，该项目旨在将Chrome网页任务自动化，让我们离拥有个人智能助手的梦想又近了一步。

AI接管人类电脑：未来的必然趋势

近年来，随着人工智能技术的飞速发展，AI已经在各个领域展现出了强大的能力。从最初的图像识别、语音识别，到如今的自然语言处理、生成式AI ，AI正在不断突破技术的边界，深入到我们生活的方方面面。而AI接管人类电脑，无疑是这一趋势的必然延伸。

几天前，Anthropic公司向世人展示了 Claude 3.5的惊人能力，它能够自主看屏幕、操作光标，完成一系列复杂的任务。这一成果不仅让人眼前一亮，更激发了科技巨头们对AI操控电脑的浓厚兴趣。微软、苹果、谷歌等科技巨头纷纷布局这一领域，希望能够在未来的竞争中占据先机。

谷歌“贾维斯”：向钢铁侠致敬的创新之作

谷歌的 “Project Jarvis”项目，正是这一背景下的产物。据Information独家爆料，该项目由谷歌内部团队秘密研发，预计将在今年年底正式亮相。与Claude 3.5类似， “贾维斯”也将通过截屏、解析屏幕内容的方式，自动点击按钮或输入文本，帮助人们完成基于网页的日常任务。

值得一提的是，“贾维斯”这个名字正是向钢铁侠中的 J.A.R.V.I.S 致敬。这一命名不仅彰显了谷歌对科技创新的执着追求，更体现了其对未来智能生活的美好愿景。

最强Gemini 2.0：驱动“贾维斯”的强大引擎

“贾维斯”之所以能够拥有如此强大的能力，离不开其背后的强大引擎——Gemini 2.0。作为谷歌最新研发的大模型，Gemini 2.0在自然语言处理、图像识别等方面都取得了显著的提升。它的加入，无疑为“贾维斯”提供了强大的技术支持和保障。

在5月的谷歌I/O大会上，谷歌CEO劈柴曾展示了Gemini和Chrome如何协同工作的样貌。可以预见的是，在Gemini 2.0的加持下，“贾维斯”将能够更加精准地理解用户意图，更加高效地完成任务。

微软OmniParser：AI智能体操控屏幕的又一力作

在谷歌“贾维斯”即将问世之际，微软也悄然放出了自己的 AI框架——OmniParser 。这款工具能够将截图转化为结构化数据，帮助AI精准理解用户意图。与“贾维斯”类似，OmniParser也致力于实现AI智能体对屏幕的操控。

为了将GPT-4V等多模态大模型应用于操作系统上，模型需要具备强大的屏幕解析能力。而OmniParser正是为此而生。它能够准确地识别用户界面中的可交互图标，理解屏幕截图中各种元素的语义，并将预期动作与屏幕上的相应区域关联起来。

AI智能体操控屏幕的技术挑战与解决方案

然而，AI智能体操控屏幕并非易事。它面临着诸多技术挑战，如准确地识别用户界面中的可交互图标、理解屏幕截图中各种元素的语义等。为了解决这些挑战，科技巨头们纷纷展开了深入的研究和探索。

微软的研究人员发现，将屏幕解析任务分解为两个子任务——可交互区域检测和局部语义整合——可以显著提高模型的性能。他们使用微调后的可交互图标检测模型、图标描述模型以及光学字符识别（OCR）模块，生成用户界面的结构化表示。这一方法不仅提高了模型的准确性，还降低了计算成本。

未来展望：AI自主操控电脑的时代已来

随着谷歌“贾维斯”、微软OmniParser等项目的推出，AI自主操控电脑的时代已经悄然来临。未来，我们将能够拥有一个更加智能、更加高效的个人助手，它能够帮助我们管理日常事务、提供个性化建议、甚至在我们需要帮助时伸出援手。

然而，我们也要清醒地认识到，AI技术的发展仍然面临着诸多挑战和问题。如何确保AI的安全性、如何避免AI的滥用和误用、如何保护用户的隐私和数据安全等，都是我们需要深入思考和解决的问题。

总之，AI自主操控电脑的时代已经到来，它将为我们带来前所未有的便利和机遇。但同时，我们也需要保持警惕和理性，共同推动AI技术的健康发展。让我们期待一个更加智能、更加美好的未来吧！

关注我们，一起探索AI的无限可能！🚀✨

MORE | 延伸阅读