一、场景介绍:无人机环境识别AI驱动系统的开发
无人机识别环境和规避障碍物的能力是其安全性能的核心。近年来人工智能系统的发展使得无人机的应用在环境监控、巡查、测绘等工作中成为可能。然而,无人机通过其所携带的摄像头形成对环境的视觉识别能力,需要大量的图片数据对其视觉识别算法进行训练。传统的方法通过大量的照片,对环境包括建筑、人类和动植物进行标签化处理,形成数据对AI算法进行训练,进而构建AI对图片乃至真实环境的识别能力。
但是,拍摄各类实际照片需要承担各种成本,且需要获得特定的许可实施飞行拍摄。而且,在对真实照片进行清洗和标签化处理的过程中,对照片数据进行人工标注的工作非常耗时、成本很高。一种替代方法是使用室内游戏引擎合成的模拟图片代替真实图片,其图像和标签也可以进一步自动化处理和生成。两位德国宇航中心学者对此方法进行了验证和评估,通过比较模拟图片和真实环境图片对训练效果的影响,发现了较为积极的结果,支持继续研究使用动画模拟图片进行神经网络算法训练的替代方法
[2]
。
我们假设模拟图片所训练的人工智能系统被用于无人机驾驶驱动,进而投入欧盟市场。那么从欧盟人工智能法的规定看,在算法和AI治理方面,开发者将需要关注哪些合规问题呢?
二、合成图片代替真实图片进行AI训练可能带来的问题
无人机从对环境的视觉感知到接受信息,进行信息交互,发出动作指令,执行规避动作是一个极其复杂的过程。我们重点分析使用替代数据进行算法模型训练可能带来的问题。
按照欧盟人工智能法第10条的规定,高风险AI系统开发过程中数据训练、验证和测试应遵循数据治理和管理的一些基本原则,确保其设计目的的实现。在假定真实照片数据可以训练无人机的环境视觉能力的前提下,合规的重点是要关注使用动画模拟的合成照片是否可以完成相同的目的。从数据治理的角度,关键的问题是模拟数据与真实数据之间的不同是否会在训练结果上产生实质性的差别。
(一)对数据的采集过程进行管理
模拟合成图片的过程与真实环境下使用无人机飞行拍摄的图片肯定会有重大的区别。新的图片生成过程是否会产生系统性的误差是算法治理关注数据质量的一个关键问题。例如,在使用游戏引擎算法自动生成图片的过程中,图片设计人员、图片生成系统等因素均会影响图片的质量。而与真实图片相比,合成图片不会受到实际环境下拍摄可能受到的外界气温、阳光、雨雪等不同光照条件的影响。合成图片对光线影响环境特征、物体特征的情况和程度需要特别进行模拟,难度极大。但真实环境确实存在着这类的影响。例如,在自动驾驶的环境中,我们看到过汽车自动驾驶系统被由建筑物遮挡阳光形成的阴影欺骗,将光线的阴阳分界线视为行车线的例子。
因此,为了模拟真实环境,虚拟生成的图片可能需要主动考虑光线、环境气候特征等因素在合成图片数据上的体现。这将是一个系统比对研究的过程,是使用不同数据集进行对照实验时需要考虑的一个重要因素。
(二)数据加工、对数据的可获得性、数量和适用性进行评估
在使用了不同的数据集后,数据的适用性需要经过专门的测试和评估,确定是否会与真实数据的效果产生系统性的区别。这不仅仅是定性的分析和描述,还需要直接通过统计测试的方法,分别在两类数据训练模型后,对其实际的效果进行比较。
例如,在德国宇航中心两位学者的研究
[3]
中,几类无人机实拍图片数据被用来进行对比。首先,在摄像头的朝向(向下或俯视斜下)、图片数量、清晰度、图片包括的内容分类(如人、自行车、树木、森林、居住区域、马路、教堂、围栏、草地、汽车等)等方面,几类数据被进行了分析,与研究人员使用的合成图片进行了基本的对比。
随后,数据又经过清理和加工,主要目的是保持对比图片之间相对的可对照性,不要存在过度的系统差别;对不同数据集的标签进行归类和调整,使其具有可比较性。
该研究发现合成图片训练出来的模型比真实图片训练的模型效果低28.9%。也就是说,单纯合成图片数据的可适用性并不理想。
这一评估过程和结论是人工智能治理规则要求开发者关注并保存记录和档案的重要内容。
(三)识别数据缺口或不足对合规的影响,并提出解决问题的方法
欧盟人工智能法的数据治理规则也要求开发者在发现数据缺口或不足,例如本例中合成图片训练数据效果不足、无法保证适用性的情况下,考虑如何对这些问题进行纠正。
在本例中,研究人员的主要尝试是在使用合成图片训练出人工智能算法后,使用相对较少数量的真实图片对其进行精调,提高其功能性。通过再次比对使用精调的人工智能算法与使用真实图片的算法,研究人员发现了显著的功能提高。当训练精调使用的真实图片的数量占到真实图片数据总量的一半时,合成图片算法的功能已经达到真实图片训练出来的模型效果。
为了验证该功能改进确实是由于使用真实图片对合成图片的算法进行精调带来的,研究人员将同样的方法适用于未经真实图片事先训练的合成图片数据上,结果发现后者得出的模型表现显著弱于前者。也就是说,使用真实图片精调带来的功能提升确实是真实图片数据训练带来的。
当然,我们目前讨论基于的例子是一个研究项目,并非真实的无人机应用。在实际应用的场景里,相关数据的应用和治理问题可能更为复杂。然而,数据治理的原则和方法仍然是适用的。
三、算法和AI治理规则在实际适用中的几点思考
环境视觉能力不仅在无人机飞行控制中应用,在智能驾驶、医疗等方面均有广泛的应用。前述数据和数据治理的问题均是算法治理和AI风险管理的关键问题,与人工智能应用可能带来的安全、隐私保护、反歧视等基本要求和社会公平要求密切相关。
-
数据和算法治理的规则要求其实是科学方法论在法律中的体现。这些治理规则要求开发者和使用者遵从科学严谨的规范,同时也能保证充分的条件实现外部第三方对其方法和结论进行验证。
-
科学方法论的要求可能对该类法律的适用和实践产生挑战。对规则的适用和解释而言,法律实践者将需要熟悉这些治理规则和风险管理方法。在人工智能领域,谁可以监管、谁有能力实现监管始终是立法机构和监管部门需要解决的一个问题。
-
欧盟人工智能法的框架基本上遵循原则监管的思路,将更多规则解释权利赋予了人工智能的行业自律机制,如欧盟成员国权威机构确认的第三方合规性评估机制(conformity assessment)
[4]
。这些第三方机构必须保持独立性、有胜任能力、不存在利益冲突,也需要满足相应的网络安全要求。
-
对数据和数据治理情况的信息披露,往往引起开发者的疑虑,担心自己的核心商业秘密被公开,或被反向工程获取。遵从公共法律和保护私权始终是一个平衡。人工智能开发者和其他义务人需要在实践中寻找到这个平衡点。