摘
要:
在中医药现代化进程中,有效地结合现代科学技术手段对传统中医药进行更为合理的分析是一个重要研究方向。计算
机科学技术与人工智能算法在中医药研究领域已取得长足发展,尤其是分类算法所具有的快速鉴别和分析能力,使其在
复杂的中医药研究体系中发挥举足轻重的作用。对支持向量机分类算法及其结合其他算法在解决中医药相关领域问题方面及成果进行综述,以相关智能算法为基础探讨中医药研究过程中的诸多难题,为推动中医药现代化进程提供支撑。
中医药传承几千年,是中华文明的重要组成部分,其现代化研究虽已取得长足的进步,但仍存在许多关键性问题亟待解决。中药本身化学成分复杂,同时基原品种、产地来源、生长环境、采收季节、
加工炮制工艺等诸多因素
[1]
形成了中药复杂多变的体系,外观相似的中药药理活性大相径庭,假冒伪劣的中药饮片常常被不法分子利用,严重影响中医药现代化的快速推进。传统鉴别手段需借助该行业相关专家以传统经验进行分析,但该方法存在着耗时长、效率低、准确率不能保证等一系列问题。人工智能算法的出现有效地解决了这一问题,同时进一步结合其他学科,发挥多学科联合应用的优势,取长补短,将大数据的分析模式与中医药整体观有机统一,可以从宏观上对中药进行综合鉴别判定分析,同时也可将之应用到符合传统中医药理论的中药配伍、中药药性药效、定性定量分析等领域,有力地推动了中医药现代化进程。
1
支持向量机
(
SVM
)
的定义及其在中药相关领域的应用
SVM
作为近
20
年来高速发展的人工智能算法,属于二分类模型,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化(
structural risk minimization
,
SRM
)原则,而不是经验风险最小化原则
[2]
。通过事先选择的非线性映射将输入向量映射到高维特征空间,寻找最优超平面,然后在此空间中求解凸优化问题
[3]
,
SVM
正是这一理论的具体实现,其中内核函数作为
SVM
的精髓,将原来线性不可分的样本可以在新的核空间下转变为线性可分。常见的核函数主要为线性核函数、多项式核函数、径向基核函数和
sigmoid
核函数。
SVM
的基本结构见图
1
,图中
x
1
、
x
2
……
x
n
表示的是输入变量,经过
SVM
内积核函数计算,不考虑变换拉伸过程中的具体映射关系,得到输出
变量
y
。
SVM
包括主要应用于模式识别与分类及差别分析等的支持向量分类(
support vector classification
,
SVC
)和主要用于数据的拟合并产生回归模型,用于相关预测等的支持向量回归(
support vector regression
,
SVR
)
[4]
。
SVM
是泛化能力很强的优质分类器,准确率也很高,
SVM
算法的分类作用目前主要应用于中药鉴定、中药药性、中药活性成分、中药安全性评价、药物分析、制剂工艺及中药配伍规律等研究领域。
1.1
产地识别鉴定研究
中药产地众多,质量参差不齐,且“一药多源”现象广泛存在,质量监控困难。而
SVM
算法为中药产地识别及中药鉴定研究提供了方法,已有研究以近红外光谱技术为基础,通过测定内部特征值及外部特征值,结合
SVM
算法,成功识别黄连饮片
[5]
,并能快速鉴别枸杞子产地
[6]
。以此延伸至“内外结合”的中药质量控制新模式,实现传统“辨状论质”经验,得以现代“察外知内”的再现
[7]
。结合近红外光谱或者太赫兹时域光谱技术,能较为精准地鉴别中药,且具有自动识别的特点,而这种方法难以对紫外数据及中药指纹图谱数据进行分类鉴别。此外,该方法存在着缺乏对个体预测可信度的测量及整体预测准确性较差的问题。因此,欲将其更好地应用于中药鉴定领域需在其基础上进一步融合其他化学计量学方法。
1.2
中药药性研究
中药四性是中药药性理论的主要内容之一,是中药作用于生物体后出现的寒、热、温、凉
4
种生物效应的表征,长期指导着中医临床用药。目前对中药四性的研究主要集中在阐明其物质基础上。因此多采用药效学、药物化学等手段从药物成分结构方面寻找四性之奥秘,其研究方向也主要集中在运用现代科学技术方法预测药效成分与寒热药性的相关性。而支持向量机算法能够从初生物质这一难点入手对中药药性进行预测分析,有研究
[8-9]
指出通过支持向量机建立寒热药性的数学判别模型,发现游离脂成分以及多糖水解成分与中药寒热药性存在明显的相关性,可依据模型对药物药性进行判别。但要对中药药性展开进一步研究则需要将多种初生物质结合进一步分析,借助多学科的知识方可充分发掘其药性规律。
1.3
中药毒副作用研究
中药在临床应用常被认为是安全有效且毒副作用小,但随着现代科学的不断发展及研究的不断深入,类似于何首乌具有肝毒性等中药的毒副作用不断被发现,给中药的合理应用提出了新的课题,即如何准确有效地识别中药中潜在的毒性成分,建立中药安全评价方法体系。
SVM
凭借其强大的分类判别能力,结合外源数据库,构建合理的预测分析模型对具有潜在毒性的中药化学成分进行筛选,并在此基础上,结合系统药理学分析进一步阐明其毒性机制,在药物研发的早期阶段对化合物的毒性进行评价并将毒性较强的化合物尽早排除
[10]
,可有效提高药物开发的效率和成功率。如在中药肾毒性研究中,有研究
[11]
借鉴化学药的定量
-
结构
-
活性关系(
quantitative structure-activityrelationship
,
QSAR
)模型进行检测,结果显示
SVM
算法在自身预测准确率方面远高于
K-
邻近算法。在其基础上,将肾毒化合物和无肾毒化合物转化为分子描述符,用
SVM
建立判别模型,用肾小管损坏模型
[12]
进一步判别肾毒性模型筛查结果为阳性的中药成分,其准确性较高。后将代谢组学技术结合
SVM
研究肾毒性小分子代谢标志物
[13]
,设计出肾毒性判别模型,能够快速、高效地筛查中药中致毒性的成分,以及肾毒性生物标志物。此外,在山豆根
[14]
神经毒性成分筛选中,采取了与肾毒性成分筛选相似的处理方式,且进行了验证。在肝毒性成分
[15]
研究中,其模型较为复杂,以多种机器算法结合分子指纹构建的组合模型,整理出肝毒性位于前
10
的中药,为中药肝毒性的预测提供了合理的研究策略。在未来中药毒副作用研究过程中加强对致毒性成分的筛选判定,以达到祛除毒性成分,保留效应成分,更好地为中药临床合理用药提供技术支撑。
1.4
中药组方配伍研究
中药系多成分、多靶点作用,因此七情和合等配伍规律是中药组方基本理论体系的重要组成,但中药组方物质基础不明严重阻碍了中药配伍规律的现代化阐述。借助现代药理学的研究成果,筛选在临床上发挥作用的中药活性成分,回归预测治疗相关疾病的最佳药物配比已被证明是一条行之有效的途径。在大黄苷元治疗脑缺血配伍研究中
[16]
,研究者采用了均匀设计
-
药效学验证
-
数学建模相结合的方法,对组分配伍剂量进行优化以阐明临床配伍量效关系,结果显示该模型能够模拟大黄各配伍组治疗脑缺血的药效预测。此外,在原有配伍剂量条件下,结合
SVM
算法对中药复方进行了二次开发
[17]
,通过模型预测和实验验证,多个配伍组的药效优于原方,这项研究成果将推动中药经典名方的进一步研究开发及现有中药品种的二次开发。
1.5
中药复方制剂工艺优化和质量研究
中药制剂工艺参数的优化是决定药品质量及成本的关键因素,采用现代化科学智能算法对制剂工艺数据进行处理将会获得更精确的优化结果。在优化中药提取工艺所得到的数据集中,比较决策树和
SVM
算法的优劣性,结果表明决策树算法的结果可理解性较好,但
SVM
分类算法有更高的精度
[18]
。通过构建相关分类器,在总黄酮提取工艺中得到实际应用
[19]
,其预测模型精确且泛化能力强,获得了
较好的优化结果。在中药生产过程中,提取液浓度是一个非常重要但又难以测定的参数,常规检测方
法主要是人工检测、离线检测,这些方法往往会造成每个批次之间具有主观差异
[20]
。但在线检测或线边检测是一个良好的解决方案,基于
SVM
建立提取液浓度的在线自适应软测量模型
[21]
,实现了对提取液浓度的在线测量及控制,对中药生产加工的全局统筹及对物质基础动态变化规律的认识,可从根本上提高中药产品的质量
[22]
。如能进一步基于
SVM
建立中药质量标志物(
Q-marker
)体系的在线检测及控制,必将有效解决中药生产过程中物质传递稳定性等影响到成药质量的重要问题。同时在中药不同剂型质量分析中引入
SVM
算法,将为其质量研究提供更为精确的数据。如针对苦碟子注射剂的研究中
[23]
,将受试者工作特征曲线(
receiver operating characteristic curve
,
ROC
)结合指纹图谱和
SVM
的指纹谱
-ROC-SVM
策略充分发挥了
3
者之间优势,能准确地将合格品、不合格品、高温加工样品、高照度加工样品区分开,表明该分析策略具有较强的实用性和准确性,可以进一步应用于中药注射液的监测或预测,大大提高中药注射剂的临床安全性。
1.6
中药有效成分研究
有效成分是中药治疗疾病的物质基础,而中药复方多成分在炮制、提取、浓缩、干燥、制剂加工等生产过程中,成分
-
成分、成分
-
辅料之间有可能形成非共价键形式结合的超分子体系,这也给中药物质基础研究带来了复杂性,如能阐明中药复方成分在生产过程中的结合与变化规律,将极大地推动中药药效物质基础的研究。有研究
[24]
建立了分类预测模型,对中药方剂在不同浓度下均形成聚集体这一现象进行了研究,精确地对中药有效成分三维结构与性质数据库的分子进行了预测,为中药有效成分研究提供了新的思路。
2
SVM
与其他算法的结合及在中药研究中的应用
SVM
作为一种传统的二分类算法,不仅能解决线性分类,还可以使用核函数有效地进行非线性分类。但由于
SVM
是借助二次规划求解支持向量,对大规模样本难以实施,在解决多分类问题上有困难,且由于
SVM
主要参数的选择能够在很大程度上影响分类性能和效果,目前参数优化缺乏理论指导
[25]
。因此当前针对复杂中医药体系研究往往都是与常见化学计量法相结合,以此达到分类识别预测等效果。化学计量学类似于生物计量学及经济计量学,主要使用统计学和数学工具从多元化的化学数据中提炼有效的相关信息,在探索多种中药物质相关联的数据、药材质量控制、多成分变化规律等中医药研究领域中发挥重要的作用。其本质是将复杂数据的变化删繁就简,从中提取更为有效且简洁的信息。针对中药复杂体系中具备多个特征数据的研究,多种算法交叉结合应用,主要遵循先降维,再回归,最后建模预测分类分析的原则以解决问题。
2.1
SVM
与主成分分析
(
principal component analysis
,
PCA
)
的结合
PCA
在化学计量法中属于经典算法,主要是对特征光谱数据进行降维处理,可以在数据可视化的同时降低分类的时间成本。利用近红外漫反射光谱(
near infrared diffuse reflectance spectra
,
NIRS
)法,结合
PCA
和
SVM
算法,在中药鉴定、中药构效关系及中药药性识别研究中得到了广泛的应用,也取得了良好的效果。
PCA-SVM
联用不仅能满足指标成分的筛选要求,同时能充分发挥在解决小样本数据及非线性等实际问题中的优势。
中药
NIR
光谱
PCA-SVM
鉴别模型
[26]
被建立并应用在
6
种树脂及其他类中药的鉴别过程中,实现了对中药的无损、快速鉴别。以
PCA-SVM
作为分
类鉴别算法,结合比例
-
积分
-
微分(
proportion integral
differential
,
PID
)算法研制了一套智能化自动检测
系统,实现了对气室温度的智能控制,能够对红参、白参、西洋参、太子参、三七进行较高精度的鉴别
[27]
,这些研究都推动了
SVM
与
PCA
结合在中药鉴定学科中的应用。阐明中药产生药效的物质基础是实现中药现代化研究的关键,也是广大中药研究者长期以来努力的方向,通过计算机算法模型对活性物质进行筛选预测已被证明是一条行之有效的途径。有研究表明在活血化瘀类中药中
[28-29]
,选取显著代表化合物空间结构的描述参数,建立了相关的定量预测模型,此方法实现了对未知中药相应性质的分类和预测,对于药物的筛选或新药的合成都具有重要的参考价值。在探讨中药红外光谱与药性的相关性研究中
[30]
,采用
PCA
对中药光谱数据降维之后,选择主成分作为
SVM
输入变量,构建得到平性药和非平性药的识别模型,可较好地区分平性药与非平性药,为药性物质基础研究提供了一种新的研究思路。如能适当增加不同提取部位的红外数据以增加
SVM
计算所需要的特征变量,有可能提高中药药性的识别率。
2.2
SVM
与层次分析法
(
analytic hierarchy process
,
AHP
)
的结合
AHP
是一种系统评价方法,常用于权重决策分析
[31]
,属于定性与定量的结合,其计算方法有
4
种,即几何平均法、算术平均法、特征向量法、最小二乘法
[32]
。该分析方法在优化权重赋值时常可以摆脱人为主观影响,故应用广泛,已与
SVM
结合应用于中药方剂的优选。
其具体结合思路首先
利用
AHP
计算出指标权重,其次依权重来处理数据;最后用
SVM
对数据进行分类
[33]
,两者结合能够更加全面、科学、客观地反映指标层对实验结果的影响。中药组合用药是新药研究的一个热点,根据方剂配伍理论,在中医传承辅助平台构建中药成方制剂的结构化数据库,经过
AHP
映射处理,在
SVM
模型下对方剂
-
疾病与方剂
-
证候数据集进行有效预测
[34]
,将中医证候与中药方剂有力地关联起来,为
进一步用现代科学语言阐明中医证候概念提供了支撑。
2.3
SVM
与最小二乘法的结合
最小二乘支持向量机(
least squares support vector machine
,
LS-SVM
)回归模型是经典
SVM
的改进,其算法是一种人工智能技术结合,将线性思想引入向量机,用以处理非线性问题,通过核函数降低了计算复杂性,加快了求解速度,主要应用在光谱数据的建模分析。有研究
[35]
对银杏叶提取物指纹图谱及其清除氧化自由基能力的训练集和测试集建立
LS-SVM
预测模型,能够对银杏叶抗氧化活性进行测定。并且在根据化学计量学理论建立相关预测模型时,发现中药的生物活性是复杂体系的整体作用。该模型的结合预测效果优于目前普遍单独使用的误差反向传播神经网络和偏最小二乘回归。不仅如此,凭借对指纹图谱的多维色谱数据区分和预报能力,
LS-SVM
得到更好的分类效果
[36]
。在羌活的指纹图谱研究中,并未将共有峰作为输入变量,
而是将全部色谱数据进行分析处理,其预测效果优于单独采用共有峰的预测,更为重要的是这种方法的研究思路与中医药的整体观念不谋而合,是一种研究中药活性物质及确定中药
Q-marker
的重要方法。
2.4
SVM
与遗传算法
(
genetic algorithm
,
GA
)
的结合
在近红外定量分析常见的建模方法中,
LS-SVM
有建模速度快、优化参数少、泛化能力强等优点而备受关注
[37]
。而针对
LS-SVM
参数优化中的启发式算法则更多的被发掘应用,如蚁群算法、
GA
、粒子群算法等。通常情况下,因光谱数据无效数据较多,干扰信息庞杂,故如何对样本进行有效筛选,前处理是降低
LS-SVM
处理成本的重要条件。而基于
GA
的特征波长筛选可以在有效消除紫外(
UV
)光谱数据冗余信息的同时,保留光谱有效信息,从而降低模型的复杂度。在秦皮提取液的快速定量分析中
[38]
,径向基核函数(
radial basis function
,
RBF
)凭借其拟合精度与预测性能均较好而非常适合作为建模函数,在其基础上进一步结合
GA
算法,成功地对秦皮甲素、秦皮乙素、秦皮素等进行含量测定。具体结合使用方法见图
2
[39]
。同样在不同威灵仙
[40]
的代谢物分析中,
GA-SVM
模型显现出优秀的预测性能。
2.5
SVM
与粒子群算法的结合
粒子群算法(
particle swarm optimization
,
PSO
)模拟鸟群捕食行为,其算法概念简单,控制参数少,易于实现,同时兼有进化计算和群智能优化的特点,通过个体间的协作与竞争,可以实现对复杂空间最优解的搜索
[41]
,该算法不仅具有很强的全局搜索能力,而且是解决整数非线性优化、非线性连续优化和组合优化等问题的有效工具。利用
LS-SVM
多输入、多输出、非线性的特点,可进一步结合粒子群算法对复杂生产过程进行全局预测优化。在中药糖析出建模相关研究中,以
SVM
建立相关回归模型,结合多种粒子群算法对其参数进行寻优,解决模型参数较多或范围较大的问题。对山茱萸药材中多个质控指标(水分、浸出物、马
钱苷和莫诺苷)的定量分析模型中
[42]
,通过比较基于偏最小二乘回归法(
partial least squares regression
,
PLSR
)和人工神经网络(
artificial neural networks
,
ANN
)建立的
NIR
模型,得到
PSO-LS-SVM
模型能对山茱萸药材质量进行更为精确的控制。除在中药质量控制中的应用外,这种模型还用于建立红花
[43]
提取过程关键质控指标的定量分析模型。该优势在于避免使计算陷入局部最优,且容易实现,调整参数较少,因此
SVM
与粒子群算法相结合有可能用于解决中药从药材到制剂的动态迁移过程中
Q-marker
体系的研究,进一步充实中药
Q-marker
体系的建立与研究。本文以邵永
[44]
研究中的多种群粒子群算法(
multipopulation particle swarm optimization
,
MPSO
)对
SVR
模型参数进行优化流程举例,见图
3
。
2.6
SVM
与人工神经网络的结合