|
Apple提出MM1.5:多模态大型语言模型微调的方法、分析和见解 FightingCV · 公众号 · · 4 月前 · |
|
|
最优大语言模型模型架构深度解析 FightingCV · 公众号 · · 4 月前 · |
|
|
NeurIPS2024即插即用模块论文合集! FightingCV · 公众号 · · 4 月前 · |
|
|
Qwen2-VL:增强视觉语言模型在任何分辨率下的世界感知能力 FightingCV · 公众号 · · 4 月前 · |
|
|
Kaiming He团队提出通过异构预训练Transformer 大规模扩展本体感知-视觉学习 FightingCV · 公众号 · · 4 月前 · |
|
|
LLaVA-OneVision|更加高级的LLaVA,轻松的视觉任务转移 FightingCV · 公众号 · · 4 月前 · |
|
|
对齐器: 通过学习校正实现高效对齐 FightingCV · 公众号 · · 4 月前 · |
|
|
Emo-DPO:通过直接偏好优化实现可控的情绪语音合成 FightingCV · 公众号 · · 4 月前 · |
|
|
Jiaya Jia团队提出LLaMA-VID :一张图片在大型语言模型中值两个token FightingCV · 公众号 · · 4 月前 · |
|
|
mamba和Tranformer融合:通过混合架构高效扩展多模态大语言模型到 1000 张图像 FightingCV · 公众号 · · 4 月前 · |
|
|
小米提出MobileVLM:一种用于增强UI内部和跨UI理解的视觉语言模型 FightingCV · 公众号 · · 4 月前 · |
|
|
T2I-CompBench:一个用于开放式世界组合式文本到图像生成的综合基准 FightingCV · 公众号 · · 4 月前 · |
|
|
Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型 FightingCV · 公众号 · · 4 月前 · |
|
|
MG-LMM | 指令引导的多粒度分割和字幕与大型多模态模型 FightingCV · 公众号 · · 4 月前 · |
|
|
Llama 3.2全文翻译:通过开放、可定制的模型彻底改变边缘 AI 和视觉 FightingCV · 公众号 · · 4 月前 · |
|
|
如何提升多模态大模型视觉推理能力?浙大杰青团队的新型自指导方案给出答案 FightingCV · 公众号 · AI 科技媒体 · 5 月前 · |
|
|
THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM:实时应对任意分辨率的时空理解 FightingCV · 公众号 · · 5 月前 · |
|
|
SlowFast-LLaVA | Apple团队提出视频大语言模型的强大免训练基线 FightingCV · 公众号 · · 5 月前 · |
|
|
AAA24 |震撼发布!95.3% 像素级 AUC:最强异常检测模型 SOTA 现已开源! FightingCV · 公众号 · · 5 月前 · |
|
|
Google推出MaskGIT:革新图像生成的掩码式Transformer FightingCV · 公众号 · · 5 月前 · |
|