摘
要:
目的
旨在通过近红外光谱(
NIRS
)信息与腰痹通胶囊(
Yaobitong Capsules
,
YC
)中间体中值粒径(
D
50
)的关系分析,探讨对该品种生产过程中
4
种中间体建立
D
50
近红外通用定量模型的可行性。
方法
采集
YC
生产过程中的原料细粉、干燥颗粒、整粒颗粒和总混颗粒
4
种中间体的
NIRS
,考察不同预处理方法对模型的影响,并采用间隔偏最小二乘法(
iPLS
)、组合间隔偏最小二乘法(
siPLS
)和移动窗口偏最小二乘法(
mwPLS
)优选
NIRS
波段,采用偏最小二乘法(
PLS
)对
4
种中间体建立
1
个
D
50
通用定量模型。
结果
通用模型的交叉验证均方根误差(
RMSECV
)为
3.918 μm
,预测均方根误差(
RMSEP
)为
2.832 μm
,预测相对偏差(
RSEP
)为
2.26%
,小于
5%
,性能偏差比(
RPD
)为
4.60
,大于
3
,该模型可以用于定量测定,且与独立模型比,预测准确性相差不大。
结论
NIRS
通用定量模型可用于
YC 4
种中间体
D
50
的测定。
腰痹通胶囊(
YaobitongCapsules
,
YC
)是由三七、川芎、延胡索、白芍、牛膝、狗脊、熟大黄、独活
8
味中药组成,具有活血化瘀、祛风除湿的功效,主要用于治疗腰椎间盘突出症
[1]
。颗粒粒径是评价制粒所得颗粒是否合格的关键指标
[2-3]
,并对多个关键质量属性有影响,例如吸湿稳定性
[4]
、流动性
[5]
、可压缩性
[6]
、溶出度
[7]
,它还影响制粒工艺参数的选择
[8]
及胶囊的填充
[9]
。在实际生产应用中,中值粒径(
D
50
)是评价颗粒粒径的主要指标,
D
50
是指粒径分布累积达到
50%
时对应的粒径值
[10-11]
,它能较准确的反映样本的粒径情况。目前,
YC
正在进行工艺优化提升质量标准,
D
50
拟纳入质量内控标准。
近红外光谱(
nearinfrared spectrum
,
NIRS
)技术与化学计量法结合,能够实现快速检测化学成分含量及物理性质指标,在药材鉴别与化学成分含量快速测定中应用较多
[12‑14]
,但较少用来快速检测物性指标。粒径信息可以通过
NIRS
基线的变化反映出来
[15]
,已有研究者将
NIRS
技术用于粒径的快速检测。
Rosas
等
[16]
以实验室自制尼美舒利为研究对象,成功开发出
NIRS
快速检测颗粒粒径分布(<
125 μm
、
125
~
250 μm
、>
250 μm
)的模型,模型的预测均方根误差(
root mean squareerror of prediction
,
RMSEP
)为
2.5%
。
Otsuka
等
[17]
采用
NIRS
技术实时监控实验室规模的扑热息痛散流化床制粒过程,建立了颗粒
D
50
的快速检测方法,模型的校正集相关系数达
0.961
。
Pauli
等
[18]
开发了
3
个在线
NIRS
定量分析方法,用于测定双氯芬酸钠湿法制粒和流化床干燥过程中的颗粒粒径分布,预测值在允许的误差范围内。潘晓宁
[19]
以党参与玄参药材为研究对象,分别构建了粒径分布累积为
10%
、
50%
、
90%
对应的粒径值(
D
10
、
D
50
、
D
90
)的
NIRS
定量预测模型。上述研究表明,
NIRS
技术结合化学计量法是可以测定药物颗粒粒径的,但多数研究都是针对某一类样本进行分析,且都集中于化学药领域。通用模型是指针对某个指标建立一个模型,可以用于分析
2
种及以上的样本,通用性强,可以节约较多成本。建立一个稳定、可靠的
NIRS
定量预测模型是一项较为复杂的工作,耗时长且成本高。如果能针对两种及以上的样本建立一个通用的模型,将会提升检测效率,节约成本。本研究以
YC
生产过程中的
4
种中间体为研究对象,通过采集
4
种中间体的近红外漫反射光谱,以中间体
D
50
为参考值,采用偏最小二乘法(
partialleast squares
,
PLS
)建立一个检测
4
种中间体
D
50
的通用方法。
1
仪器与材料
1.1
仪器
Antaris II
型傅里叶近红外变换光谱仪,配有积分球漫反射采样系统、
Result
光谱采集软件,美国
Thermo
公司;
BT-2600
激光粒度分布仪,丹东百特仪器有限公司。
1.2
材料
YC
生产过程中的中间体,包含原料细粉、干燥颗粒、整粒颗粒和总混颗粒,由江苏康缘药业股份有限公司提供。本研究收集的样品为
2019
年
8
月至
2020
年
5
月生产的中间体样品,收集到的中间体样品批次为
Z190801
~
Z190820
、
Z190901
~
Z190918
、
Z200301
~
Z200320
、
Z200401
~
Z200420
、
Z200501
~
Z200502
,包含
4
种中间体共
320
个样品。
2
方法
2.1
NIRS
采集
取
4 g
左右样品,置于配备的样品杯里,轻轻压实,采用积分球漫反射方式采集
NIRS
。扫描范围为
10 000
~
4000 cm
−1
,分辨率为
8 cm
−1
,
2
倍增益,扫描次数
64
次,以空气为背景,每小时扫描
1
次背景。每个样品扫描
3
次,平均值用于分析。
2.2
参考值测定
激光粒度分布仪法测粒径代表性强且适用于粒径小的颗粒
[10]
,“
1.2
”项下的样本粒径小于
550μm
,采用该法测粒径结果较为准确。取适量样品置于进料斗中,使用
BT-2600
激光粒度分布仪测定样品的粒径分布,并计算
D
50
(粒径分布累积为
50%
时对应的粒径值)。参数设置:分散介质为空气,空气压力为
0.25 MPa
,遮光率为
3%
~
12%
。
2.3
光谱预处理方法
采集光谱时,由于受到环境温湿度、仪器状态以及颗粒状态等各种因素的影响,
NIRS
会产生噪声信号、基线漂移等,获取的光谱中包含了自身的信息以及其他不必要的信号。对
NIRS
进行合适的预处理,可以减少噪声,滤过无关信息,提高模型稳健性。常见的预处理方法有矢量归一化法、导数法(一阶导数、二阶导数)、平滑法
[
Savitzky-Golay
(
SG
)平滑、
Norris Derivative
(
ND
)平滑
]
、多元散射校正(
multiplicativescatter correction
,
MSC
)、标准正态变量变换法(
standardnormal variate transformation
,
SNV
)、基线校正以及上述几种方法的结合。矢量归一化法能增强光谱差异,可以校正由光程或样品稀释等导致的光谱变化;
MSC
和
SNV
可以消除颗粒大小、分布不匀带来的干扰;导数法可以消除基线漂移;平滑法能够滤除噪声
[20-21]
。
2.4
数据处理与评价方法
采用
Unscramble X10.4
(
Camo softwareAS
,
Norway
)软件对
NIRS
进行预处理,采用
Matlab 2016a
(
Mathwork Inc.
,
USA
)软件对样本进行变量筛选与建模,采用留一交叉验证法以交叉验证均方根误差(
root mean square errors of cross validation
,
RMSECV
)为评价指标确定主因子数。以中间体
D
50
为因变量,以对应的
NIRS
值为自变量建立
PLS
定量模型。本研究以下列参数来评价模型性能,以优选最佳模型。校正集相关系数(
R
cal
)、验证集相关系数(
R
pre
)分别表示校正模型与验证模型的拟合程度,
R
cal
和
R
pre
越大,模型拟合效果越好;校正均方根误差(
root mean square errors of calibration
,
RMSEC
)、
RMSEP
分别指校正模型与验证模型中
参考值与预测值之间的均方根误差,越小模型预测性能越高;校正集偏差(
BIAS
cal
)和验证集偏差(
BIAS
pre
)分别表示校正模型与验证模型中参考值与预测值之间的偏差,其越小,模型预测精度越
高
[22-23]
。预测相对偏差(
relative standard error of prediction
,
RSEP
)是模型中参考值与预测值之间的相对偏差,一般
RSEP
越小模型预测性能越好;性能偏差比(
ratio of performance to deviation
,
RPD
)表示模型预测性能,是标准差(
SD
)与
RMSEP
的比值,当
RPD
>
3
时,表示模型预测精度高
[24]
。各项评价参数不能孤立参考,需要综合起来评价。
3
结果与分析
3.1
样本划分
采用随机抽样(
randomsampling
,
RS
)法划分校正集与验证集,并保证验证集中参考值范围包含于校正集中
[12]
。每种中间体按照
3
∶
1
的比例划分校正集与验证集,随机选取
60
个样品作为校正集,
20
个样品作为验证集;通用模型的校正集为
4
种中
间体校正集的总和,共
240
个样品,验证集为
4
种
中间体验证集的总和,共
80
个样品,划分结果见表
1
。
3.2
光谱预处理方法的选择
YC
中间体的近红外原始光谱见图
1
。本研究考察了以下预处理方法:移动窗口平滑(
9
点)、
SNV
、
S-G 1
st
(
9
点)、基线校正、
MSC
、归一化法。使用上述方法对光谱进行预处理后,建立
D
50
的
PLS
定量模型,不同预处理方法对模型性能的影响如表
2
所示。以
RPD
与
RSEP
为评价标准,筛选最优的预处理方法。由表
2
可知,原料细粉模型中,一阶求导结合
S-G
平滑对光谱进行预处理建模效果最优,
RPD
为
4.50
,
RSEP
为
2.30%
;干燥颗粒模型中,
采用移动窗口平滑(
9
点)预处理方法最佳,
RPD
为
4.12
,
RSEP
为
1.88%
;整粒颗粒模型里,采用原始光谱建模比进行预处理后建模效果好,
RPD
为
4.15
,
RSEP
为
1.80%
;总混颗粒模型采用移动窗口平滑(
9
点)方法对光谱进行预处理后建模效果最好,
RPD
为
4.84
,
RSEP
为
1.54%
;通用模型中,采用原始光谱建模性能最佳,
RPD
为
4.60
,
RSEP
为
2.26%
。
3.3
特征变量筛选
筛选特征变量可以剔除无关信息,提高模型性能。本研究在上述筛选出的最佳预处理方法基础上进一步筛选特征变量。
3.3.1
基于间隔偏最小二乘法(
interval PLS
,
iPLS
)筛选变量
iPLS
是把全光谱划分成若干个子区间,然后在每个子区间进行建模
[25]
。本研究将全光谱划分成
20
个子区间,以
RMSECV
为评价指标,筛选最佳建模波段。
3.3.2
基于组合间隔偏最小二乘法(
synergy interval PLS
,
siPLS
)筛选变量
siPLS
是基于
iPLS
,它是将全光谱划分成若干个子区间后,再把子区间任意组合起来建模。本研究是把全光谱划分成
20
个子区间,再以子区间组合数为
4
建立模型,以
RMSECV
为评价指标,筛选最佳建模波段。
3.3.3
基于移动窗口偏最小二乘法(
moving window PLS
,
mwPLS
)筛选变量
mwPLS
是从整个光谱的第一个波长点开始移动,沿波长变化的方向截取选定窗口宽度的区间,建立一系列的
PLS
模型
[26]
。本研究以初始窗口宽度为
31
,以
10
为步长依次增加窗口宽度,建立了窗口宽度为
31
~
311
的
PLS
模型,并根据
RMSECV
选取最佳建模波段。
3.3.4
筛选特征变量
采用
3
种方法建立模型的性能参数如表
3
~
7
所示。分别以
RMSEC
、
RMSECV
、
RMSEP
为评价指标,综合评价筛选出建模的最佳波段。
原料细粉模型采用全光谱建模与
mwPLS
优选的波段建模性能相差不大,但是筛选波段后变量减少至
115
个,建模时间会缩短,因此选择建模波段
3 999.64
~
4 018.92
、
5 739.12
~
6 136.38 cm
−1
。
干燥颗粒模型采用
siPLS
和
mwPLS
筛选变量后,模型性能均有所提高,变量数分别减少到
392
、
278
个,但
mwPLS
筛选变量后的波点数更少且
R
cal
、
R
pre
较大,
RMSEC
、
RMSEP
较小,故采用波段
4 030.50
~
4 219.49
、
4 443.19
~
4 504.90
、
6 957.91
~
7 767.86 cm
−1
建模。
整粒颗粒模型采用
siPLS
与
mwPLS
筛选变量模型性能有所提升,变量数分别减少至
312
、
83
个,但
mwPLS
的
R
cal
、
R
pre
更大,
RMSEC
、
RMSEP
也较小,且波点数也较少,故选用波段
4 933.02
~
4 971.59
、
5 982.10
~
6 213.52
、
7 359.03
~
7 397.60 cm
−1
建模。
总混颗粒模型采用
mwPLS
法进行波段筛选后,
R
cal
、