专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

量子位 · 公众号 · AI · 2025-02-07 16:41

正文

白交发自凹非寺
量子位 | 公众号 QbitAI

AI的新进展频频，人才动态也愈加重磅。

新年第一则大牛人事动向，引发业内关注。

许主洪 ，IEEE Fellow，新加坡管理大学终身教授，被曝加盟阿里。

许主洪是谁？ 1998级清华计算机系本科，硕博毕业于港中文，谷歌学术五万引大佬。

多篇关于多模态预训练论文，深刻影响了业内大模型研发，阿里Qwen、谷歌RT-2都曾引用过其研究成果。

产业界，他曾担任全球最大企业软件厂商Salesforce集团副总裁、亚洲研究院创始院长，从0到1搭建了Salesforce亚洲人工智能研究体系。

现在，阿里方面已经证实。他将出任阿里集团副总裁，向阿里AI To C业务负责人吴嘉汇报，专注于AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。

谁是许主洪？

在加盟阿里之前，他曾在工业界和学术界均拥有超20年经验 ，曾在新加坡南洋理工大学、新加坡管理大学担任教授。

研究方向包括机器学习的基础研究和人工智能多个领域的应用研究，包括多媒体信息检索、计算机视觉、大数据分析、社交媒体、智能网络安全、计算金融和智慧城市等。

谷歌学术显示，其发表300余篇人工智能顶级学术论文，被引五万余次，2020年至今被引近四万次。

2019年当选为IEEE Fellow ，同一年当选的还有知名大佬、CMU教授邢波。

时间回到1998年，他来到清华大学计算机系读书，本科毕业前往港中文攻读硕博。

2007年他来到了新加坡南洋理工大学。期间他负责开源了一个机器学习库LIBOL，里面有一大批经典和先进的在线学习算法，用于解决大规模机器学习任务，满足各种新兴大数据挖掘应用的需求。

能够看到的是，从那时候开始，他就已经在深入思考连接技术到应用之间这一桥梁。

随后他去到新加坡管理大学，2020年获终身教职。

转折点在 2019年，他正式选择踏入工业界 ，将自身技术积累真正融入进产业应用当中去。

他的实战场是全球最大企业软件厂商Salesforce，帮助他们补齐AI基础研究与应用这一板块。

他主导开创了多个行业先河的人工智能项目和产品，包括不限于多模态系列模型BLIP、代码生成神器CodeGen、通用CRM助手Einstein GPT。

（CRM是客户关系管理软件系统。Einstein GPT支持包括 Slack、销售、服务、营销、商务和应用程序构建器）

另一个实战场是2023年，乘着大模型的技术热潮，他创办了AI初创公司HyperGAI。

期间发布了多款多模态基础模型，特点是在不增加计算成本的情况下，实现当前世界顶尖模型的水平。

在GPT-4V和Gemini Pro等大语言模型都在专注于文本的当下，他们在多模态理解和生成上面取得了不少突破，并且有很强的应用属性在里面。

比如像HPT 1.5 端侧多模态模型，只有4B大小，性能却优于当时微软新推出的Phi-3-Vision （4B）多模态模型，并在多项基准测试中达到了GPT-4V的性能。

除了一些评测之外，模型还展示了移动端上的使用效果，能够识别图中的关键信息。

同时它也具备强大的推理能力，可以理解并解答几何题。

学术领域 ，他凭借深厚的专业素养和杰出的研究能力，发表了众多顶级学术论文，研究成果备受行业瞩目。

而在产业界 ，他将前沿技术与实际应用紧密结合，成功推动了AI多个领域的突破与落地，成为连接学术与产业之间的桥梁。

深刻影响多模态大模型研发

问题是有了这位顶尖AI科学家的加盟，对于阿里来说意味着什么？

在许主洪的专业擅长中，不难找到线索和答案。

在他诸多论文中，有两篇BLIP系列论文最为瞩目，累计引用过万，其中BLIP-2始终高居引用榜首。

更早之前还有技术博主专门研读了他的成果，表示GPT-4V现在还像个黑匣子， 而BLIP系列研究不仅在各种视觉任务中表现出SOTA的性能，也可能是打破黑匣子的有效解决方案 。

2023年，各种大语言模型刚刚兴起的时候，业内就已经在思考LLM涌现的通用性和泛化能力，是否也能在视觉领域中实现。

一个统一的视觉与语言的框架，以及一个能将它们与LLM结合起来的框架，成为自然而然的技术需求。

在众多创新方法中， BLIP脱颖而出，它统一了视觉语言任务的理解与生成能力，并通过引入Captioner-Filter机制减少了监督文本的噪声，从而提高模型的训练质量。

模型核心在于独特的编码器-解码器混合架构（MED），该架构由视觉编码器、文本编码器和多模态编码器三部分组成。

每个模块都有相关的预训练目标，所有三个模块都根据这些预训练目标进行联合训练。

这系列论文所在的语言视觉智能一站式库LAVIS，GitHub超过万颗星，足以见其在业内的影响力。 在这个库里还有各种BLIP的衍生，比如X-InstructBLIP、BLIP-Diffusion等等 。

而将时间拉回现在，随着大模型发展的深入，多模态能力作为核心属性，正在重塑着AI的应用范式。

总结来说，多模态让大模型从“单一功能工具”转变为“全知全能的Agent”，其应用场景将不断地深入与拓宽。

核心体现在两个方面：

其一，突破单模态局限，实现更全面的认知与交互 。多模态大模型通过融合文本、图像、音频、视频等异构数据，能够构建更接近人类认知、近乎人类水平的模型。

这种跨模态的语义对齐能力，使AI能理解复杂场景中的隐含关联，比如识别图像中的隐喻或情感表达。像夸克、通义APP这种软件，在其智能工具、ChatBot属性之上，集成更多多模态功能之后，就能实现更多精细化功能，成为日常的AI全能助手。

更多样化更复杂的任务需求也将得到满足，多维之间的感知交互，能够实现AI在更多终端和硬件的落地，比如AI眼镜——据称是已经明确的阿里AI to C业务未来探索方向。当然这些还只是单点功能或产品形态，多模态能力还在于更多应用场景的赋能。

所以第二个方面就是： 拓展更多应用场景，释放行业生产力 。

比如医疗场景，多模态模型融合医学影像、基因数据和临床文本，支持个性化诊疗方案生成。教育场景，结合图文、视频和语音的多模态教学助手，可动态适配学生学习风格，提供沉浸式学习体验。

但上述场景对阿里来说不是计划，而是已经部署落地的实践，并且还展现出“干中学”的技术迭代潜力。

在夸克落地的业务中，其“灵知”学习大模型在考研数学题上的正确率和得分率已经比肩OpenAI最新发布的o1模型，且远超国内其他模型。

所以了解了多模态能力与阿里AI to C业务布局的关系，或许也就看懂了许主洪的加盟。

这一次他要连接的是AI多模态能力在C端产品、应用上的端对端闭环能力。

做面向用户的AI技术创新

大模型的发展路线，目前可以总结为两条， 一个是面向大模型更高级智能水平的技术演进，一个是面向应用和用户价值/体验的AI技术创新 。阿里AI To C业务尤其是夸克呈现出后者的特点。

于阿里而言，许主洪是人工智能学术界的领路人，在产业界同样拥有丰富的应用研发和产品创新经验——尤其他不仅搭建了Salesforce亚洲人工智能研究体系，还将研究成果转化为实际应用——主导的多个AI创新项目，将学术成果转化为商业应用，推动了AI技术产业化进程。

这种学术与产业的双重背景，使得许主洪不仅具备深厚的学术研究功底，还拥有将技术转化为实际产品的丰富经验。这种能力就是阿里AI To C业务所需要的。

而以夸克为代表的阿里AI To C业务，在大模型能力上也一直注重实用性，强调以应用产品驱动大模型的研发、升级方向。

产品追求的不是“颠覆”，而是拳拳到肉，解决用户的核心需求。

全球顶级AI科学家许主洪加盟阿里！IEEE Fellow，五万被引论文数，曾任Salesforce集团副总裁

正文

白交 发自 凹非寺 量子位 | 公众号 QbitAI

谁是许主洪？

深刻影响多模态大模型研发

做面向用户的AI技术创新

请到「今天看啥」查看全文

白交发自凹非寺
量子位 | 公众号 QbitAI