近日,DeepSeek发布了
视觉多模态模型DeepSeek-VL2
。该模型在视觉能力上进行了显著升级,采用了MoE(Mixture of Expert)架构和动态切图策略,支持动态分辨率图像处理。
对于计算机视觉相关行业来说,DeepSeek-VL2是一次重大技术突破,它能够快速定位关键事件并生成相应的文本描述,而且DeepSeek通过工程优化和硬件调度策略,还大幅降低了运行成本。
这意味着计算机视觉应用也将在DeepSeek的加持下迎来爆发,技术人要如何抓住这一波大好机会呢?
答案就在
《动手学计算机视觉》
这本书中!本书专注于计算机视觉技术领域,将算法原理与实践相结合,以大量示例和代码带领读者走进计算机视觉的世界,让读者认识计算机视觉的研究内容、基本原理,并能够在工作中应用所学知识。
这本书由上海交大ACM班创办人俞勇教授团队编写,这支团队汇集了多位顶尖学者,他们将自己的教学体会与研究经验都融入此书。所以没基础的读者也不用担心,这本书可以帮助初学者轻松入门,掌握计算机视觉关键知识,玩转DeepSeek-VL2这样的视觉模型。
现在,我们就跟着交大ACM班的大咖们来学习计算机视觉。
计算机视觉技术
,就是通过算法从图像和视频中分析出真实世界的属性。然而,初学者在学习计算机视觉的过程中,往往面临两个方面的挑战。
●
第一,计算机视觉涵盖的领域知识广泛,包括图像处理、模式识别、几何重建和深度学习等。庞大的知识体系会令初学者无所适从,难以从整体上把握计算机视觉技术。
●
第二,计算机视觉对工程实现要求高,即相关原理和算法都学会了,但动手去编程实现时却得不到期望中的结果。
《动手学计算机视觉》针对这两项挑战给出了高效的学习方案。
对于第一个挑战,作者参考计算机视觉大师Richard Szeliski教授的著作之后,将书中内容分为4个部分:
计算机视觉导论、图像处理、视觉识别和场景重建
。前两部分是后两部分的基础,后两部分代表了两类计算机视觉任务。通过这4个部分的划分与联系,几乎涵盖了计算机视觉的所有内容。
对于第二个挑战,本书以
Python Notebook的形式
直接编写,将算法原理和可运行的代码融合呈现。读者可以快速上手实现计算机视觉算法,学完算法原理就能立即动手实验,形成学练结合的良好互动。
另外,本书还为读者精心准备了多项配套资源,满足读者不同层次的学习需求,这些资源的获取方式在书中都可以找到。书中所有源码已在GitHub上公开,每份示例代码中都包含可以由读者自行设置的变量,方便读者进行修改并观察相应结果。
丰富的配套课件,方便教师用来授课。
作者团队还录制了视频课程,帮助读者轻松突破疑难点。
来自交大ACM班的创作团队在俞勇教授的带领下,在AI领域出版了多部技术专著,助力千百万技术人入行并在科研与应用方面取得骄人的成就。我们来认识一下编著本书的学术大咖们。
上海交通大学教授,博士生导师,上海交通大学人工智能(卓越人才试点班)计算机视觉课程授课教师,国家自然科学基金优秀青年科学基金获得者,多次担任计算机视觉相关国际会议的领域主席,研究领域包括计算机视觉、模式识别与深度学习以及这些技术在医学辅助诊断等场景中的应用。
上海交通大学人工智能研究院博士生,研究方向为大模型的高效训练,并在AAAI、KDD、ECCV和TKDE等顶级会议或期刊上发表过多篇高水平论文。
上海交通大学人工智能研究院博士生,获得MICCAI 2023青年科学家奖,研究方向为复杂场景下的三维与四维重建,并在TOG、CVPR、ICCV和TMI等顶级会议或期刊上发表过多篇高水平论文。
享受国务院特殊津贴专家,首批“国家高层次人才特殊支持计划”教学名师,上海交通大学特聘教授,上海交通大学ACM班创始人,APEX数据与知识管理实验室主任。曾获得“全国模范教师”“全国师德标兵”“CCF杰出教育奖”“上海市五一劳动奖章”和“上海交通大学校长奖”等荣誉。
俞教授2018年创办了伯禹人工智能学院,在上海交通大学ACM班人工智能专业课程体系的基础上,对人工智能课程体系进行创新,致力于培养卓越的人工智能算法工程师和研究员。
翻开书,我们循序渐进地吃透计算机视觉吧。
本书在结构编排上充分考虑了初学者,从基础知识起步,然后讲解图像处理技术,再到对图像内容的语义理解,以及对图像中场景的几何结构进行重建。读者按照顺序阅读学习,就能由浅入深掌握计算机视觉的理论与应用方法。
从阐释计算机视觉入手,让读者明晰概念。接着探讨计算机视觉广阔的应用场景,揭示其在当今数字化时代的重要性。同时剖析计算机视觉面临的难点与挑战,展现该领域发展的阻碍与突破方向。
梳理计算机视觉的历史与发展脉络,帮助读者建立全面认知,还介绍了计算机视觉中变量的数学符号约定,为后续深入学习奠定基础。
本部分涵盖了丰富的经典图像处理算法,像卷积操作,它是图像处理的核心运算,通过讲解一维卷积和二维卷积的相关知识,让读者理解信号在图像中的处理方式。图像滤波则针对图像噪声问题,介绍了均值滤波、高斯滤波、双边滤波、中值滤波等多种方法,有效去除椒盐噪声、高斯噪声等,提升图像质量。
此外,模板匹配用于在图像中寻找特定目标,边缘检测和角点检测能提取图像的关键特征,SIFT特征检测更是能获取稳定的特征点,图像拼接可将多幅图像合成为一幅全景图像,图像分割则把图像划分成不同区域,这些算法共同构成了图像处理的技术体系。
本部分聚焦于对图像语义内容的理解,主要围绕基于深度学习的方法展开。在图像分类任务中,介绍了从传统的视觉词袋模型到先进的深度卷积网络算法。语义分割通过全卷积网络(FCN),借助上采样和跳跃连接技术,实现对图像每个像素的分类。
目标检测包含R - CNN、Fast R - CNN、Faster R - CNN等经典模型,能够精准定位并识别图像中的目标物体。实例分割的Mask R - CNN算法结合了目标检测和语义分割的优势,人体姿态估计的DeepPose模型基于深度神经网络和级联回归实现对人体姿态的预测,动作识别的C3D模型利用三维卷积处理视频数据,识别其中的动作。
本部分详细讲解了照相机标定,通过标定板和特定流程获取相机内外参数和投影矩阵。运动场和光流分析物体的运动情况,如Lucas - Kanade光流法及其改进算法。平行双目视觉基于双目相机的视差原理进行特征匹配和全局优化,实现深度感知。
三维重建则利用对极几何中的本质矩阵、基础矩阵,通过八点法求解相关矩阵,结合三角测量完成场景的三维重建,在虚拟现实、机器人导航、文物数字化等领域发挥关键作用。
在学习的过程中,读者们一定要积极动手操作,将理论与实践充分结合,这样才能透彻掌握计算机视觉原理,做到应用创新。
《动手学计算机视觉》知识体系全面系统,理论与实践深度融合,突出实用性与案例教学,更有丰富的配套资源,为初学者提供了极其友好的阅读学习体验。而本书是交大ACM班作者团队创作的
“动手学”系列
的新近一本,该系列还有更多人工智能领域的优秀著作。
对于已初步踏入计算机视觉领域的读者,若期望进一步提升知识水平、拓展知识边界,无论是
深度学习、机器学习
,还是
数据结构与算法、自然语言处理、强化学习
等内容,都能在 “动手学” 系列中展开深入学习。
本书是《动手学深度学习》的重磅升级版本,选用经典的PyTorch深度学习框架,新增注意力机制、预训练等内容,阐述深度学习计算的关键组件、卷积神经网络、循环神经网络、注意力机制等大多数现代深度学习应用背后的基本工具。
本书系统介绍了机器学习的基本内容及其代码实现,将机器学习理论和实践相结合,以大量示例和代码带领读者走进机器学习的世界,让读者对机器学习的研究内容、基本原理有基本认识。
本书系统介绍了数据结构与算法的基本概念和相关知识,既注重理论,又注重算法设计,更突出代码实现,手把手指导读者学习数据结构与算法,帮助读者轻松掌握数据结构与算法的基本知识及基本技能。
本书介绍自然语言处理的原理和方法及其代码实现,还介绍自然语言的序列建模,包括语言模型、序列到序列模型、预训练语言模型、序列标注,提供所介绍方法的代码示例,帮助读者掌握理论知识并进行动手实践。
本书系统地介绍了强化学习的原理和实现,讨论深度强化学习的思维方式、深度价值函数和深度策略学习方法,介绍学术界在深度强化学习领域的主要关注方向和前沿算法。
“动手学”系列图书涵盖了AI领域主流的技术方向
,理论结合实践,提供了大量的实验案例。对于高校师生,“动手学”图书可以作为配套教材使用;对于科研人员,则可以重点关注理论方面的论述与创新;对于算法与开发工程师,可以注重学习代码实例,结合工作实际自如运用。
“纸上得来终觉浅,绝知此事要躬行”
,这便是 “动手学” 的核心要义。深度钻研 “动手学” 系列,将理论与实践深度融合,逐步积累实操经验,你将成功蜕变,成长为新一代的 AI 实战高手,在人工智能领域纵横驰骋!