专栏名称: 机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
目录
相关文章推荐
爱可可-爱生活  ·  【aiaio(AI-AI-O):一个轻量级、 ... ·  昨天  
爱可可-爱生活  ·  【AxBench:斯坦福NLP团队开发的Py ... ·  2 天前  
爱可可-爱生活  ·  【open-r1-text2graph:开源 ... ·  2 天前  
新智元  ·  DeepSeek-R1-Zero不存在顿悟时 ... ·  4 天前  
人工智能那点事  ·  刷医保可买华为手表?有药店超500人预约!各方回应 ·  4 天前  
51好读  ›  专栏  ›  机器学习研究组订阅

微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1

机器学习研究组订阅  · 公众号  · AI  · 2024-08-21 17:30

主要观点总结

微软最新推出的Phi 3.5系列模型包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct三款新型号,这些模型在第三方基准测试中表现出色,并获得了微软的MIT许可证,可供开发人员在Hugging Face上下载、使用和微调。接下来将介绍这三款模型的特点和用途。

关键观点总结

关键观点1: 微软推出Phi 3.5系列新模型

包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct三款新型号,这三个模型都具备优秀的性能并在第三方基准测试中表现突出。

关键观点2: Phi 3.5系列模型的特点和用途

Phi-3.5系列模型具备强大的性能,支持多种语言和长上下文任务。其中,Phi-3.5-mini-instruct是一款轻量级模型,适合在内存或算力受限的设备上使用;Phi-3.5-MoE-instruct是微软Phi模型中的首个MoE模型,擅长处理高质量推理密集数据;Phi_3.5-vision-instruct是一款多模态模型,集成了文本和图像处理功能。

关键观点3: Phi 3.5系列模型的性能表现

Phi 3.5系列模型在某些基准测试中击败了其他领先的大模型,包括谷歌的Gemini 1.5 Flash、Meta的Llama 3.1甚至OpenAI的GPT-4o。其中,Phi-3.5系列中的不同型号模型在不同任务上表现出色,如多语言任务、长上下文任务和专业学科任务等。


正文

就在今天,微软「小语言模型」系列正式升级,最新的Phi 3.5版本一口气连发三款模型——

- 38.2亿参数的Phi-3.5-mini-instruct

- 419亿参数的Phi-3.5-MoE-instruct

- 41.5亿参数的Phi-3.5-vision-instruct
这三个模型都可供开发人员在Hugging Face上下载、使用和微调,并获得了微软的MIT许可证,可以进行不受限制的商业应用和修改。
别看规模不大,但这三个模型在很多第三方基准测试中都性能表现都相当不错,甚至在某些情况下击败了其他领先大模型,包括谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至在一些竞技场上击败了OpenAI的GPT-4o。
优秀的性能加上宽松的开放许可证,网友在社交网络上纷纷试用并点赞Phi 3.5新系列:
接下来,根据Hugging Face上的发行说明,简要介绍一下三款新型号模型的不同特点和用途。

Phi-3.5-mini-Instruct:小而美


模型:https://huggingface.co/microsoft/Phi-3.5-mini-instruct
延续之前模型小而美的路线 ,Phi-3.5-mini-Instruct也是一种轻量级AI模型,基于Phi-3使用的数据集构建,拥有38亿个参数,支持128k token上下文长度。
Phi-3.5-mini使用512个H100-80G GPU,在10天内对3.4万亿个token进行了训练。
Phi-3.5-mini非常适合在内存或算力受限的设备上使用,虽然内存有限但推理能力不减,可以完成代码生成、数学问题的解决和逻辑推理等任务。
默认情况下,Phi-3.5-mini使用Flash Attention,这需要某些类型的GPU硬件才能运行。
通过在不同类型的GPU上进行测试,发现在NVIDIA V100或更早一代GPU上即可使用。

多语言

尽管尺寸紧凑,Phi-3.5-mini在多语言和多轮对话任务中表现出了优秀的性能。
Phi-3.5-mini支持阿拉伯语、中文、英语、芬兰语、法语、德语等23种语言。
下表重点介绍了 Phi-3.5-mini 在多语言MMLU、MEGA和多语言MMLU-pro数据集上的多语言功能。
总体而言,即使只有3.8B参数, Phi-3.5-mini 在多语言任务上与其他更大参数的模型相比,也具有竞争力。

长上下文

Phi-3.5-mini支持128K上下文长度,因此该模型能够执行多种长上下文任务,包括长文档/会议摘要、长文档QA、长文档信息检索。
Phi-3.5-mini 在衡量「长上下文代码理解」的RepoQA基准测试中超越了其他类似大小的模型,比如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5-MoE-instruct:首款MoE

模型:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
Phi-3.5-MoE-instruct是微软Phi模型中的首个MoE模型,将多种不同类型的模型组合成一个模型,汇总的模型内部每个类型模型专门从事不同的任务。
顾名思义,Phi-3.5-MoE 采用的是混合专家架构,在23天内使用512个H100-80G GPU,对4.9万亿个token进行了训练。
420亿个参数的架构,支持128k token上下文长度,Phi-3.5-MoE专注于处理高质量,推理密集数据。
然而,根据HuggingFace文档,Phi-3 MoE有16x3.8B参数,只能使用6.6B参数运行。
Phi-3.5-MoE 专为在各种推理任务而设计,尤其是在代码、数学和多语言理解方面具有强大的性能。
并且,MoE模型经历了严格的优化过程,结合了监督微调、近端策略优化(proximal policy optimization)和直接偏好优化(direct preference optimization),确保精确并且安全的指令遵守。
与Phi-3.5-mini一样,MoE版本也支持多种语言,并且在长上下文表现优秀,在特定基准测试中优于较大的模型,包括RepoQA:

专业学科

由于Phi-3.5-MoE模型的定位是处理不同种类的专业任务,那它在专业学科领域表现如何?
Phi-3.5-MoE在5个样本MMLU(大规模多任务语言理解)上击败了GPT-4o mini,涉及STEM、人文科学、社会科学等不同专业水平的学科。
因此,MoE模型独特的组合架构使其能够跨多种语言的情况下,也能处理不同类型复杂的任务,并且保持高质高效。

Phi-3.5-vision-instruct:视觉多模态

模型:https://huggingface.co/microsoft/Phi-3.5-vision-instruct
前两个模型都用于文本推理,而Phi-3.5-vision-instruct作为多模态模型,集成了文本和图像处理功能。
Phi-3.5-vision在6天内使用256个A100-80G GPU,对5000亿个token进行了训练。
多模态模型特别适合一般的图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。
与Phi-3.5系列中的其他模型一样,Phi-3.5-vision支持128k token上下文长度,能够处理复杂的多帧视觉任务。
微软强调,模型是结合合成和过滤的公开可用数据集进行训练的,重点关注高质量、推理密集的数据。






请到「今天看啥」查看全文