|
多注意力深度伪造检测 FightingCV · 公众号 · · 3 月前 · |
|
|
Infinity-MM:利用大规模高质量指令数据扩展多模态性能 FightingCV · 公众号 · · 3 月前 · |
|
|
跨模态3D目标检测SOTA!易复现! FightingCV · 公众号 · · 3 月前 · |
|
|
Apple提出《对比局部化语言-图像预训练》 FightingCV · 公众号 · · 3 月前 · |
|
|
TaskCLIP:扩展大型视觉-语言模型以用于面向任务的目标检测 FightingCV · 公众号 · · 3 月前 · |
|
|
Janus: 解耦视觉编码以实现统一的多模态理解与生成 FightingCV · 公众号 · · 4 月前 · |
|
|
开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品 FightingCV · 公众号 · · 4 月前 · |
|
|
ECCV24 | ControlNet++: 通过高效一致性反馈改进条件控制 FightingCV · 公众号 · · 4 月前 · |
|
|
YOLO核心架构的演变路线 FightingCV · 公众号 · · 4 月前 · |
|
|
BLIP:用于统一视觉语言理解和生成的引导语言图像预训练 FightingCV · 公众号 · · 4 月前 · |
|
|
MMIU: 用于评估大型视觉语言模型的多模态多图像理解 FightingCV · 公众号 · · 4 月前 · |
|
|
Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮 FightingCV · 公众号 · · 4 月前 · |
|
|
MMEvol:赋能多模态大型语言模型的 Evol-Instruct FightingCV · 公众号 · · 4 月前 · |
|
|
NTU提出Text4Seg: 重塑图像分割为文本生成 FightingCV · 公众号 · · 4 月前 · |
|
|
BLIP-2作者新作Aria : 一个开放的多模态原生专家混合模型 FightingCV · 公众号 · · 4 月前 · |
|
|
华为天才少年面试大厂被怼:怎么连Attention都不会? FightingCV · 公众号 · · 4 月前 · |
|
|
Mistral发布了其首款多模态模型Pixtral 12B FightingCV · 公众号 · · 4 月前 · |
|
|
EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench FightingCV · 公众号 · 科技自媒体 · 4 月前 · |
|
|
堪比理科博士生的最强AI大模型:GPT-o1技术解析 FightingCV · 公众号 · 科技自媒体 AI · 4 月前 · |
|
|
Google Deepmind提出SigLIP,用于语言图像预训练的 Sigmoid 损失 FightingCV · 公众号 · · 4 月前 · |
|