专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
雷科技  ·  “董明珠健康家”,真把我看呆了! ·  13 小时前  
国家林业和草原局  ·  新闻联播:我国古树名木保护取得积极进展 ·  3 天前  
国家林业和草原局  ·  新闻联播:我国古树名木保护取得积极进展 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

苹果大模型MM1强势进场!300亿参数所向披靡

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-03-17 00:15

正文


功能展示



左图问:图片中有多少个苹果?

苹果大模型答:7个


左图问: 这些州中哪一个是最北的?

回答: Delaware

追问: 其他的州是什么?

回答:Arizona, Oklahoma, North Carolina

右图问: 在这个食物网中,哪一个生物是生产者?

回答: 浆果和花朵、草类、种子

难度升级

左图问:你能找到灰色的猫旁边的红球吗?

MM1并没有上当,直接回答:灰猫旁边没有红球。

右图也是一样的方式,MM1轻松回答。

左图问: 看到下面的图片后,人们可能会产生怎样的情感和反应?

回答: 目睹这张图片时,人们可能会感受到一种敬畏、着迷和宁静的混合情绪。飞机舷窗展示出飞机机翼和广阔的雪山脉的壮丽景色,给人一种宁静和大自然美丽的感觉。雪山的壮观、有序的景观和雪峰与清澈的蓝天形成鲜明对比,唤起了对自然界的敬畏和赞赏之情。这个景象还提供了一种独特的世界观,人们可能不常体验到,因此引发了好奇心和兴奋。此外,这张图片也会带来宁静和平静的感觉,因为所展示的景观是未经触动和原始的。

右图问: 看到下面的图片后,人们可能会产生怎样的情感和反应?

回答: 这张图片展示了一个黑暗的楼梯间,氛围诡异,可能会在人们心中引起不安、恐惧或好奇等情感。一些人可能会选择完全避开这个楼梯间,而其他人可能会被神秘的氛围所吸引,决定进一步探索。楼梯间的黑暗和阴影可能会影响人们的感知,引发他们的想象,可能让他们觉得有人或某种东西潜伏在阴影中。总的来说,这张图片可能会引起一系列的情感反应,从不安到着迷不等,这取决于每个人的性格和心态。

左图问: 对于这两张图片中的每一张,请评论水是否咸。

回答: 在第一张图片中,有几艘船漂浮在一片水域上。根据船只的存在,这很可能是一个港口,而且水很可能是咸的,因为大多数港口通常都靠近海洋。然而,没有更多信息,无法确认水的咸度。 在第二张图片中,各种非洲动物,包括大象和长颈鹿,聚集在一个干草田里的水洼周围。这片水域很可能是淡水,因为动物需要饮用淡水。大量动物从水洼中喝水的存在证实了这种水对它们的生存至关重要,并且它们极不可能饮用咸水。

右图问: 哪张图片展示了更健康的餐点?

回答: 在给定的图片中,展示了更健康的餐点是那张包含西兰花和一碗蔬菜的,还有一盘肉类的图片。添加像西兰花和碗里的蔬菜这样的蔬菜提供了必要的营养、维生素和纤维,有助于保持均衡和更健康的饮食。而有各种配料的比萨和啤酒可能会被认为是不太健康的,因为它可能含有更多的卡路里、脂肪和加工成分,与另一种强调蔬菜和肉类的餐点相比。

MM1可以 感知图像美学。

左图问: 假设你是一位老师,请使用这个图示来解释蒸发和蒸散发之间的区别。

回答: 蒸发和蒸散是水循环中两个重要的过程,经常容易混淆。这个图示清楚地区分了这两者。蒸发是水从液态变为气态的过程。图中,太阳的热量导致湖泊和海洋中的水蒸发成水蒸气,升入大气层中,这就是蒸发的过程。 另一方面,蒸散是蒸发和植物蒸腾的结合。蒸腾是植物吸收的水通过植物的叶子释放到大气中的过程。在图中,蒸散通过树木和草地吸收的水释放回大气中得到了体现。 总而言之,蒸发是水转化为水蒸气并升入大气层的过程,而蒸散是蒸发和植物蒸腾的结合,代表了植物吸收的水释放回大气中的过程。

问: 估计每张图片的摄氏温度,并提供理由。

海滩上有雨伞的图片:25-30摄氏度。雨伞张开,人们在海滩上,表明是一个温暖、晴朗的日子。
飞机飞过雪地的图片:零下20到零下30摄氏度。飞机飞过一片积雪覆盖的区域,地面上有车辆,表明是一个寒冷的冬日。
在田野里放牧的动物图片:15-20摄氏度。动物在放牧,这通常发生在温和的天气条件下。草是绿色的,进一步表明了温和的气候。

只能说MM1强的离谱

苹果大模型论文



今年以来,苹果已经加大了对生成式人工智能(GenAI)的重视和投入。在 2024 年苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃了长达 10 年的造车项目,这导致一部分造车团队成员开始专注于 GenAI。

这一系列举措表明,苹果正在向外界传达其加注 GenAI 的决心。目前,多模态领域的 GenAI 技术和产品非常受欢迎,其中以 OpenAI 的 Sora 最为著名,苹果自然也希望在该领域有所建树。

今天,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布了自家的多模态大型模型研究成果 —— 这个模型具有高达 30B 参数的多模态 LLM 系列。


论文地址:https://arxiv.org/pdf/2403.09611.pdf


原文简介:







请到「今天看啥」查看全文