FightingCV - 公众号 - 文章列表 - 历史文章

文章总数 2346

51好读 › 专栏 › FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

最新

Apple提出MM1.5：多模态大型语言模型微调的方法、分析和见解

FightingCV · 公众号 · · 4 月前 ·

最优大语言模型模型架构深度解析

FightingCV · 公众号 · · 4 月前 ·

NeurIPS2024即插即用模块论文合集！

FightingCV · 公众号 · · 4 月前 ·

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

FightingCV · 公众号 · · 4 月前 ·

Kaiming He团队提出通过异构预训练Transformer 大规模扩展本体感知-视觉学习

FightingCV · 公众号 · · 4 月前 ·

LLaVA-OneVision｜更加高级的LLaVA，轻松的视觉任务转移

FightingCV · 公众号 · · 4 月前 ·

对齐器: 通过学习校正实现高效对齐

FightingCV · 公众号 · · 4 月前 ·

Emo-DPO：通过直接偏好优化实现可控的情绪语音合成

FightingCV · 公众号 · · 4 月前 ·

Jiaya Jia团队提出LLaMA-VID ：一张图片在大型语言模型中值两个token

FightingCV · 公众号 · · 4 月前 ·

mamba和Tranformer融合：通过混合架构高效扩展多模态大语言模型到 1000 张图像

FightingCV · 公众号 · · 4 月前 ·

小米提出MobileVLM：一种用于增强UI内部和跨UI理解的视觉语言模型

FightingCV · 公众号 · · 4 月前 ·

T2I-CompBench：一个用于开放式世界组合式文本到图像生成的综合基准

FightingCV · 公众号 · · 4 月前 ·

Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型

FightingCV · 公众号 · · 4 月前 ·

MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型

FightingCV · 公众号 · · 4 月前 ·

Llama 3.2全文翻译：通过开放、可定制的模型彻底改变边缘 AI 和视觉

FightingCV · 公众号 · · 4 月前 ·

如何提升多模态大模型视觉推理能力？浙大杰青团队的新型自指导方案给出答案

FightingCV · 公众号 · AI 科技媒体 · 5 月前 ·

THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM：实时应对任意分辨率的时空理解

FightingCV · 公众号 · · 5 月前 ·

SlowFast-LLaVA ｜ Apple团队提出视频大语言模型的强大免训练基线

FightingCV · 公众号 · · 5 月前 ·

AAA24 ｜震撼发布！95.3% 像素级 AUC：最强异常检测模型 SOTA 现已开源！

FightingCV · 公众号 · · 5 月前 ·

Google推出MaskGIT：革新图像生成的掩码式Transformer

FightingCV · 公众号 · · 5 月前 ·

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!