专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

将门创投 · 公众号 · 科技创业 · 2024-11-27 08:22

主要观点总结

本文是关于TechBeat人工智能社区第643期线上Talk的详细介绍，主讲人为卡内基梅隆大学的硕士生刘士弘。他将分享其团队提出的利用大语言模型有效优化视觉语言模型的新方法，该方法无需触及模型内部参数，能大幅提升优化的灵活性与速度。本次分享会还包括主题、时间、地点、议程、嘉宾介绍等相关信息。

关键观点总结

关键观点1: 主讲人介绍

刘士弘是卡内基梅隆大学的研究生毕业生，曾任机器人研究所研究员，目前在Amazon工作，负责大型分布式系统的计算和大语言模型驱动的AI Agent的开发。

关键观点2: 分享主题

分享的主题是“LOV - 如何无参数有效优化视觉语言模型”，将介绍一种新的优化方法，利用大语言模型自动优化视觉语言模型在多个下游任务中的表现。

关键观点3: Talk内容概述

Talk内容包括背景介绍、研究动机、解决方案、应用与延伸讨论等，旨在介绍视觉语言模型的优化难点、团队的创新解决方案以及相关的应用和思考。

关键观点4: 社区介绍

TechBeat人工智能社区是一个荟聚全球华人AI精英的学习成长社区，致力于提供AI前沿知识的学习、分享和交流的平台。

正文

本期为 TechBeat人工智能社区 第 643 期线上Talk。

北京时间 11 月27日 (周三)20:00， 卡内基梅隆大学硕 士生 刘士弘 的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “ LOV - 如何无参数有效优化视觉语言模型 ” ，届时他将分享一种新的优化方法，利用大语言模型来有效地自动优化视觉语言模型在多个下游任务中的表现。 相关工作已入选CVPR 2024 。

Talk·信息

▼

主题：LOV - 如何无参数有效优化视觉语言模型

嘉宾：卡内基梅隆大学 · 硕士生 - 刘士弘

时间：北京时间 11 月27日(周三)20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

长按识别二维码，一键预约TALK！

Talk·介绍

▼

GPT-4o、DALL-E 3等模型在图像生成领域取得了令人惊讶的成绩，然而这些视觉语言模型通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。同时，即使这些模型通常向用户开放自然语言接口，传统的提示词工程严重依赖工程师的经验和先验知识。

本次Talk将介绍CMU近期发表在CVPR 2024上的‘Language Models as Black-Box Optimizers for Vision-Language Models’。团队创新性的提出利用大语言模型来有效的自动优化视觉语言模型在多个下游任务中的表现。这一方法不仅无需触及模型内部参数，还大幅提升了优化的灵活性与速度，让用户即使没有技术背景也能轻松提升模型性能。

Talk大纲

1. 背景：视觉语言模型近期在CV领域的发展以及优化难点

2. 研究动机：模型权重不透明/人工提示词的难度较高且依赖先验

3. 解决方案：我们设计了一个以hill climbing及大语言模型为核心的自动优化框架，使得视觉语言模型在不依赖参数和人工先验的情况下有效得到改进。

4. 应用与延伸讨论：有关prompt engineering的一些应用思考以及相关的延伸思考。

Talk·预习资料

▼

论文链接：

https://arxiv.org/abs/2309.05950

项目主页：

https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

Talk·提问交流

▼

在Talk界面下的 【交流区】 参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

刘士弘

卡内基梅隆大学 · 硕士生

刘士弘（Shihong Liu）是卡内基梅隆大学的研究生毕业生，曾任机器人研究所研究员。目前在北美Amazon 工作，负责大型分布式系统的计算和大语言模型驱动的 AI Agent 的开发。

个人主页:

https://www.techbeat.net/grzytrkj?id=42605