|
视觉定位任务新入门必读!跟进最新进展,视觉定位审稿人必读论文! 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
AAAI 2025|如何高效桥接视觉和语言,字节&中大提出全新多模态大模型连接器ParGo 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
免费下载|火爆AI圈的深度学习 “四大名著” 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
MME-Finance 破圈:同花顺联合顶尖高校打造中英双语金融多模态基准 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
GAN归来:模型大幅简化,训练更稳定,逆袭扩散模型,AI社区疯传 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
博后 | 博士 | 硕士 | 访问学生 | 阿联酋大学IEEE Fellow团队招募,人脸和人体的图像和视频生成方向 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
文绘千里江山!1000万图文数据集Git-10M和生成式基础模型Text2Earth 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
征稿 | CVPR 2025 Workshop 第一届像素级视觉基础模型研讨会征稿启动 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
VITA-1.5: 迈向GPT-4o级实时视频-语音交互 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
图像美感增强SOTA,拒绝美感焦虑!字节跳动提出VMix:多维度美学控制方法,一键提升图像光影、色彩等 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
从文字到视觉:EvalMuse-40K如何评价T2I模型的进化 我爱计算机视觉 · 公众号 · · 1 月前 · |
|
|
开放词汇检测新晋SOTA:地瓜机器人开源DOSOD实时检测算法 我爱计算机视觉 · 公众号 · · 2 月前 · |
|
|
GPU算力新平台亮相不语,只一味豪撒福利,GpuGeek到底藏着什么大招? 我爱计算机视觉 · 公众号 · · 2 月前 · |
|
|
港大达摩院【视频AI任意门】,向视频无缝传送物体,同时支持准确动作控制 我爱计算机视觉 · 公众号 · · 2 月前 · |
|
|
复旦&字节提出CreatiLayout:基于布局进行可控生成的大规模数据集与新SOTA! 我爱计算机视觉 · 公众号 · · 2 月前 · |
|
|
NeurIPS 2024 | 基于内联先验引导分数匹配的稀疏视角三维重建 我爱计算机视觉 · 公众号 · · 2 月前 · |
|
|
顶尖性能,训练成本仅1/10!中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元 我爱计算机视觉 · 公众号 · · 2 月前 · |
|
|
AAAI2025|IMAGDressing-v1:南理工提出新的图像生成任务,可定制的虚拟穿衣,数据和代码已经开源 我爱计算机视觉 · 公众号 · · 2 月前 · |
|