最近面试了理想汽车大模型岗位,被面试官强度拉满了...不仅问到了很多大模型的基础,从通用大模型到大模型微调,再到自动驾驶多模态大模型全方面被拷打,尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的,这块的经验积累还是比较丰富。
本文章主要记录了本小菜研找实习的坎坷历程,欢迎大佬们给建议!!!
1. 自我介绍
自我介绍环节主要是让双方进入快速面试状态,这块没什么特别注意的,别磕巴就好,主要聊聊个人基本信息、教育背景、工作经历和技能特长等等。
2. 项目面
因为我简历上面写一个RAG项目,所以面试官主要围绕RAG进行提问:
-
-
-
RAG项目里面有哪一些亮点?目前开源的RAG项目非常多,你的项目和他们有什么区别?
-
通用大模型是面试的重点,面试官比较关心有没有横向对比近一年开源的SOTA大模型,这些模型在不同任务上有什么优劣势,以及大模型微调比较细致的思考,这块涉及:
-
阿里的Qwen-VL的不同量级模型、任意
模态算法X-InstructBLIP、
统一视觉任务大模型的Florence2、GPT4o
-
微调涉及应用最广泛的LoRA、Adapter、经典的DPO等等
3. 技术问题回答
3.1 简单介绍一下大模型存在哪些问题?有什么好的解决方法?
-
-
-
-
3.2 大模型加速框架了解多少,知不知道原理 如何进行加速优化?
-
-
-
-
通过PageAttention 对attention key & value 内存进行有效的管理
-
-
3.3 如何看待自动驾驶大模型?以及如何落地自动驾驶大模型?
这块聊了很多自动驾驶大模型的工作,像经典的DriveGPT4、OpenDriveLab的DriveLM,当然也离不开理想自己的工作DriveVLM,估计也是他们快慢双系统借鉴的核心算法。实战这块我自己跑过DriveLM,面试官还是比较感兴趣的。
聊下来,面试官非常关心有没有私有数据集的搭建经历,如何收集数据、设计prompt模板,毕竟业务模型最核心的还是数据。
我个人感觉国内端到端的技术路线已经明确:就是端到端+大模型!据我了解,除了理想,像长安/小鹏都宣称大模型上车了。智能座舱和具身智能这块也是当下非常火爆的方向。未来大模型除了指导快系统外,像数据挖掘、标注等等应该都值得进一步探索。
双十二钜惠立减170!
这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。课程大纲如下:
课程内容一览
第一章:多模态大模型介绍
第一章主要介绍多模态大模型的基础概念,在整体上帮助同学们了解多模态大模型,打开大模型之路的大门。老师从多模态算法的概念出发,延伸到多模态大模型的结构&训练范式及公开数据集的介绍。在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。
第二章:多模态大模型的基础模块
第二章正式进入多模态大模型的基础模块学习。老师会首先介绍多模态大模型的整体架构。模态编码器是什么?Input Projector有什么作用?LLM Backbone是什么?Output Projector又用来做什么?最后的Modality Generator又如何应用到具体的模态生成?在这一章都会得到解答!
第三章:通用多模态大模型
第三章聚焦于通用多模态大模型的讲解与实战。作为多模态大模型下游应用的基石,可以说没有通用多模态大模型的蓬勃发展,就不会有当下大模型应用百花齐放的局面。这一章节老师选取了五个算法展开详细介绍:涵盖了图文理解、视频理解、任意模态、轻量大模型以及实战-统一视觉任务大模型算法,即兼顾了学术界又兼顾了学术界。这一章老师将会带领同学们真正进入多模态大模型的世界。
实际效果:
第四章:多模态大模型微调与强化学习
第四章则聚焦于业内应用最广泛的微调与强化学习技术。如果把通用多模态大模型比作大树的枝干,那么微调技术则是大模型开枝散叶的核心技术。这一章老师首先会做一个训练策略的概述,微调到底微调个啥?接下来则会进入六篇论文的精讲和实战,涉及Adapter、LoRA、QLoRA、Reward Model+PPO、KTO和实战算法DPO,这一章仍会兼顾学术界和工业界,学完这一章,你将有能力训练面向特定业务需求的多模态大模型。