|
LLaVA-o1: 视觉语言模型逐步推理 FightingCV · 公众号 · · 3 周前 · |
|
|
FocusLLaVA:一种从粗到精的高效视觉标记压缩方法 FightingCV · 公众号 · · 3 周前 · |
|
|
LlavaGuard:基于 VLM 的视觉数据集管理和安全评估保障措施 FightingCV · 公众号 · · 3 周前 · |
|
|
LLaVA-PLUS:学习使用工具创建多模式代理 FightingCV · 公众号 · · 4 周前 · |
|
|
更好地理解“否定”:一种用于增强CLIP中否定意识的数据驱动方法 FightingCV · 公众号 · · 4 周前 · |
|
|
Dynamic-LLaVA:通过动态视觉语言上下文稀疏化实现高效的多模态大型语言模型 FightingCV · 公众号 · · 4 周前 · |
|
|
ConsisID:北大罗切斯特大学研究团队提出人脸一致性视频生成模型 FightingCV · 公众号 · · 1 月前 · |
|
|
用于泛化图像去噪的迁移CLIP模型 FightingCV · 公众号 · · 1 月前 · |
|
|
VideoCLIP:零镜头视频文本理解的对比预训练 FightingCV · 公众号 · · 1 月前 · |
|
|
「A*STAR的首席科学家」,IEEE TMI副主编,被引 2.6 W+ FightingCV · 公众号 · · 1 月前 · |
|
|
IDEA:图像描述增强型CLIP适配器 FightingCV · 公众号 · · 1 月前 · |
|
|
利用合成提示改进CLIP的零样本泛化能力 FightingCV · 公众号 · · 1 月前 · |
|
|
LocCa:使用位置感知字幕进行视觉预训练 FightingCV · 公众号 · · 1 月前 · |
|
|
登上nature的LSTM算法 FightingCV · 公众号 · · 1 月前 · |
|
|
Structure-CLIP:面向场景图知识以增强多模态结构化表示 FightingCV · 公众号 · · 1 月前 · |
|
|
扩散反馈帮助 CLIP 看得更清楚 FightingCV · 公众号 · · 1 月前 · |
|
|
简化CLIP:在消费级计算机上释放大型模型的强大功能 FightingCV · 公众号 · · 1 月前 · |
|
|
聚合和适应自然语言提示用于 CLIP 的下游泛化 FightingCV · 公众号 · · 1 月前 · |
|
|
CLIP-Count:迈向文本引导的零样本目标计数 FightingCV · 公众号 · · 1 月前 · |
|
|
VideoRAG: 视觉对齐检索增强长视频理解 FightingCV · 公众号 · · 1 月前 · |
|