专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
机器之心  ·  感谢DeepSeek,ChatGPT开始公开 ... ·  22 小时前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250207090641 ·  昨天  
宝玉xp  ·  ChatGPT 的 Canvas ... ·  昨天  
爱可可-爱生活  ·  晚安~ #晚安# -20250206224457 ·  昨天  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  3 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  3 天前  
51好读  ›  专栏  ›  量子位

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

量子位  · 公众号  · AI  · 2025-02-07 16:41

正文

白交 发自 凹非寺
量子位 | 公众号 QbitAI

AI的新进展频频,人才动态也愈加重磅。

新年第一则大牛人事动向,引发业内关注。

许主洪 ,IEEE Fellow,新加坡管理大学终身教授,被曝加盟阿里。

许主洪是谁? 1998级清华计算机系本科,硕博毕业于港中文,谷歌学术五万引大佬。

多篇关于多模态预训练论文,深刻影响了业内大模型研发,阿里Qwen、谷歌RT-2都曾引用过其研究成果。

产业界,他曾担任全球最大企业软件厂商Salesforce集团副总裁、亚洲研究院创始院长,从0到1搭建了Salesforce亚洲人工智能研究体系。

现在,阿里方面已经证实。他将出任阿里集团副总裁,向阿里AI To C业务负责人吴嘉汇报,专注于AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。

谁是许主洪?

在加盟阿里之前,他曾在工业界和学术界均拥有超20年经验 ,曾在新加坡南洋理工大学、新加坡管理大学担任教授。

研究方向包括机器学习的基础研究和人工智能多个领域的应用研究,包括多媒体信息检索、计算机视觉、大数据分析、社交媒体、智能网络安全、计算金融和智慧城市等。

谷歌学术显示,其发表300余篇人工智能顶级学术论文,被引五万余次,2020年至今被引近四万次。

2019年当选为IEEE Fellow ,同一年当选的还有知名大佬、CMU教授邢波。

时间回到1998年,他来到清华大学计算机系读书,本科毕业前往港中文攻读硕博。

2007年他来到了新加坡南洋理工大学。期间他负责开源了一个机器学习库LIBOL,里面有一大批经典和先进的在线学习算法,用于解决大规模机器学习任务,满足各种新兴大数据挖掘应用的需求。

能够看到的是,从那时候开始,他就已经在深入思考连接技术到应用之间这一桥梁。

随后他去到新加坡管理大学,2020年获终身教职。

转折点在 2019年,他正式选择踏入工业界 ,将自身技术积累真正融入进产业应用当中去。

他的实战场是全球最大企业软件厂商Salesforce,帮助他们补齐AI基础研究与应用这一板块。

他主导开创了多个行业先河的人工智能项目和产品,包括不限于多模态系列模型BLIP、代码生成神器CodeGen、通用CRM助手Einstein GPT。

(CRM是客户关系管理软件系统。Einstein GPT支持包括 Slack、销售、服务、营销、商务和应用程序构建器)

另一个实战场是2023年,乘着大模型的技术热潮,他创办了AI初创公司HyperGAI。

期间发布了多款多模态基础模型,特点是在不增加计算成本的情况下,实现当前世界顶尖模型的水平。

在GPT-4V和Gemini Pro等大语言模型都在专注于文本的当下,他们在多模态理解和生成上面取得了不少突破,并且有很强的应用属性在里面。

比如像HPT 1.5 端侧多模态模型,只有4B大小,性能却优于当时微软新推出的Phi-3-Vision (4B) 多模态模型,并在多项基准测试中达到了GPT-4V的性能。

除了一些评测之外,模型还展示了移动端上的使用效果,能够识别图中的关键信息。

同时它也具备强大的推理能力,可以理解并解答几何题。

学术领域 ,他凭借深厚的专业素养和杰出的研究能力,发表了众多顶级学术论文,研究成果备受行业瞩目。

而在产业界 ,他将前沿技术与实际应用紧密结合,成功推动了AI多个领域的突破与落地,成为连接学术与产业之间的桥梁。

深刻影响多模态大模型研发

问题是有了这位顶尖AI科学家的加盟,对于阿里来说意味着什么?

在许主洪的专业擅长中,不难找到线索和答案。

在他诸多论文中,有两篇BLIP系列论文最为瞩目,累计引用过万,其中BLIP-2始终高居引用榜首。

更早之前还有技术博主专门研读了他的成果,表示GPT-4V现在还像个黑匣子, 而BLIP系列研究不仅在各种视觉任务中表现出SOTA的性能,也可能是打破黑匣子的有效解决方案

2023年,各种大语言模型刚刚兴起的时候,业内就已经在思考LLM涌现的通用性和泛化能力,是否也能在视觉领域中实现。

一个统一的视觉与语言的框架,以及一个能将它们与LLM结合起来的框架,成为自然而然的技术需求。

在众多创新方法中, BLIP脱颖而出,它统一了视觉语言任务的理解与生成能力,并通过引入Captioner-Filter机制减少了监督文本的噪声,从而提高模型的训练质量。

模型核心在于独特的编码器-解码器混合架构 (MED) ,该架构由视觉编码器、文本编码器和多模态编码器三部分组成。

每个模块都有相关的预训练目标,所有三个模块都根据这些预训练目标进行联合训练。

这系列论文所在的语言视觉智能一站式库LAVIS,GitHub超过万颗星,足以见其在业内的影响力。 在这个库里还有各种BLIP的衍生,比如X-InstructBLIP、BLIP-Diffusion等等

而将时间拉回现在,随着大模型发展的深入,多模态能力作为核心属性,正在重塑着AI的应用范式。

总结来说,多模态让大模型从“单一功能工具”转变为“全知全能的Agent”,其应用场景将不断地深入与拓宽。

核心体现在两个方面:

其一,突破单模态局限,实现更全面的认知与交互 。多模态大模型通过融合文本、图像、音频、视频等异构数据,能够构建更接近人类认知、近乎人类水平的模型。

这种跨模态的语义对齐能力,使AI能理解复杂场景中的隐含关联,比如识别图像中的隐喻或情感表达。像夸克、通义APP这种软件,在其智能工具、ChatBot属性之上,集成更多多模态功能之后,就能实现更多精细化功能,成为日常的AI全能助手。

更多样化更复杂的任务需求也将得到满足,多维之间的感知交互,能够实现AI在更多终端和硬件的落地,比如AI眼镜——据称是已经明确的阿里AI to C业务未来探索方向。当然这些还只是单点功能或产品形态,多模态能力还在于更多应用场景的赋能。

所以第二个方面就是: 拓展更多应用场景,释放行业生产力

比如医疗场景,多模态模型融合医学影像、基因数据和临床文本,支持个性化诊疗方案生成。教育场景,结合图文、视频和语音的多模态教学助手,可动态适配学生学习风格,提供沉浸式学习体验。

但上述场景对阿里来说不是计划,而是已经部署落地的实践,并且还展现出“干中学”的技术迭代潜力。

在夸克落地的业务中,其“灵知”学习大模型在考研数学题上的正确率和得分率已经比肩OpenAI最新发布的o1模型,且远超国内其他模型。

所以了解了多模态能力与阿里AI to C业务布局的关系,或许也就看懂了许主洪的加盟。

这一次他要连接的是AI多模态能力在C端产品、应用上的端对端闭环能力。

做面向用户的AI技术创新

大模型的发展路线,目前可以总结为两条, 一个是面向大模型更高级智能水平的技术演进,一个是面向应用和用户价值/体验的AI技术创新 。阿里AI To C业务尤其是夸克呈现出后者的特点。

于阿里而言,许主洪是人工智能学术界的领路人,在产业界同样拥有丰富的应用研发和产品创新经验——尤其他不仅搭建了Salesforce亚洲人工智能研究体系,还将研究成果转化为实际应用——主导的多个AI创新项目,将学术成果转化为商业应用,推动了AI技术产业化进程。

这种学术与产业的双重背景,使得许主洪不仅具备深厚的学术研究功底,还拥有将技术转化为实际产品的丰富经验。这种能力就是阿里AI To C业务所需要的。

而以夸克为代表的阿里AI To C业务,在大模型能力上也一直注重实用性,强调以应用产品驱动大模型的研发、升级方向。

产品追求的不是“颠覆”,而是拳拳到肉,解决用户的核心需求。







请到「今天看啥」查看全文