Nuclide spectrum feature extraction and nuclide identification based on sparse representation
-
摘要: 提出了一种基于稀疏表示的核素能谱特征提取方法,其实质是将核素能谱在区分性最好的稀疏原子上进行投影。利用稀疏分解方法对核素能谱进行稀疏分解,提取分解系数向量作为表征核素的特征向量,通过模式识别分类方法建立分类模型实现核素识别。与传统稀疏分解方法的区别在于:在能谱稀疏分解过程中按照稀疏字典中的原子排列顺序顺次进行分解;其次,分解目的在于特征提取,即最终提取到的特征对不同核素具有可区分性,并不要求核素能谱的重构精度。在241Am, 133Ba, 60Co, 137Cs, 131I和152Eu共6种核素1200个能谱数据上进行了核素识别实验,7种不同分类算法的平均识别率达到91.71%,实验结果的统计分析表明,本文提出的特征提取方法识别准确率显著地高于两种传统核素能谱特征提取方法准确率。Abstract: A sparse representation based method for nuclide spectrum feature extraction is proposed. The essence of this method is to decompose the energy spectrum on the best distinguishable sparse atom. The sparse decomposition method is used to decompose the nuclide energy spectrum, and the decomposition coefficient vector is taken as the feature to represent the energy spectrum. The classification model is established by the pattern recognition algorithm to realize the nuclide identification. The main difference from the traditional sparse decomposition method is that we decompose the energy spectrum in accordance with the sparse atoms in the sequential order in sparse dictionary. In the experiments, 6 kinds of radionuclide including 241Am, 133Ba, 60Co, 137Cs, 131I and 152Eu, 1200 energy spectra are used and the average nuclide identification accuracy on 7 different pattern recognition algorithms is 91.71%. The results of statistical tests show that the proposed algorithm performs significantly better than two traditional nuclide spectrum feature extraction methods.
-
放射性核素识别是核安全领域的关键问题之一,其旨在通过对探测器获取的放射性核素伽马能谱进行分析,获取放射性物质组成元素的种类与含量等信息。传统核素识别方法将能谱特征峰相关信息作为核素特征与标准核素库进行比对,以此判断核素的种类[1-3]。如何快速准确获得特征峰相关信息成为此类方法的关键,然而探测器噪声[4]、本底辐射[5]等会对寻峰及识别带来一定的影响,因此,传统的核素识别方法主要集中于寻峰方法的研究,常见的寻峰方法有导数法、对称零面积法等[6]。核素识别问题本质上是分类问题,提取何种特征才能有效地表征能谱是值得研究的问题。本文提出了一种基于稀疏表示[7]的核素能谱特征提取方法,将核素能谱作为“时间”序列看待,从序列结构着手,对能谱在稀疏字典上进行顺次分解,并将分解系数向量作为能谱特征。与经典稀疏分解方法不同,该方法在分解过程中对核素能谱按照稀疏字典中的原子排列顺序顺次进行分解;其次,核素识别要求不同核素在所提特征下的可区分性,提取到的特征(分解系数)对不同核素具有可区分性即可,并不要求核素能谱的重构精度,所以只选取若干最具区分性的特征表征核素能谱。
1. 核素能谱特征提取及其识别
1.1 伽马能谱稀疏分解
信号稀疏表示是一种通过较少的特定信息去尽可能准确地表示原始信号的方法。在稀疏表示方法中,信号可以用不同基信号的线性叠加表示,这些基信号的集合被称为字典,基信号又被称为原子。信号的稀疏表示是指在一个过完备字典库中,选择尽量少的原子表达原始信号,使得信号的表示更加简洁。
设待分解能谱信号为y,y为一个长度为M的列向量,过完备稀疏字典矩阵D=(x1, x2, …, xd),字典中的每个原子xi的长度都与信号y的长度M相同,即D为M×d的矩阵,且每个原子都由一个高斯函数构成,即
xi(t)=(s)−1/2⋅g[(t−u)/s]⋅cos(vt+w) (1) 式中:xi为字典矩阵D中的第i个原子;g为高斯函数;原子xi由参数(s, u, v, w)决定;s为尺度因子;u为位移因子;v为原子频率;w为原子相位。稀疏字典可以通过参数构造或者学习得到,本文采用参数字典。基于稀疏表示的核素能谱特征提取方法具体步骤如下:
(1) 核素能谱稀疏分解。按照稀疏字典D中原子顺序,计算信号y与字典矩阵中第一个原子的内积,即
ω1=⟨y,xr1⟩ (2) 式中: r1为第1个原子在字典中的列索引。信号y被分解为在xr1上的垂直投影分量和残差分量,即
y=⟨y,xr1⟩xr1+R1f (3) (2) 对残差信号逐次分解得到每个原子上的分解系数,第k+1次分解后的残差信号为
Rkf=⟨Rkf,xrk+1⟩xrk+1+Rk+1f (4) 经过k+1次分解后,能谱信号y被分解为:
y=k∑n=0⟨Rnf,xrn+1⟩xrn+1+Rk+1f (5) 其中,R0f=y,ωk+1=⟨Rnf,xrn+1⟩为第k+1次稀疏分解的系数,xrk+1为稀疏字典D第k+1个原子,Rk+1f为残差分量。
(3) 逐次进行上述分解过程,直到求得能谱信号在系数字典所有原子上的稀疏系数。
1.2 特征提取及核素识别
稀疏分解得到的系数向量(ω1, ω2, …, ωd)可以作为核素能谱的特征向量表征能谱,但是特征数目过多会给后续分类模型建立带来过大的计算量,有时过训练问题也会出现,所以需要对所得特征进行筛选。
设G表示筛选得到的原子集合,并初始化为G=Φ。对于每一个类别的核素能谱均不放回地随机抽取一个核素能谱y,按上述方法对其进行稀疏分解,并找到其稀疏分解最大系数(考虑到稀疏分解系数有可能为负,这里的最大系数指绝对值最大)所对应的原子x,即
|⟨y,x⟩|=maxi∈{1,2,⋯,d}{|⟨y,xi⟩|} (6) 将最大系数对应的原子x按照式(7)所示方式并入原子集合G,
G={G∪{x}, if x∉GG, otherwise (7) 重复上述过程,直到|G|=Ngs,Ngs为事先设定的阈值。将G中的原子按照其在稀疏字典D中的顺序进行排序。对于任意一个核素能谱y,其系数向量记为
t=(t1,t1,⋯,tNgs) (8) 式中:ti为能谱y在G中第i个原子上的系数,这里认为G中原子顺序已定。
图 1为137Cs,60Co,152Eu各随机选取一个能谱进行稀疏分解提取到的系数向量图,从图中可以看出,根据上述方法提取到的核素特征对三个不同种类的核素能谱具有较好的区分能力。
为了利用模式识别算法进行核素识别,将该核素的类别信息加入特征向量t,即t=(t1, t1, …, tNgs, c), 其中c表示该核素类别。多个核素能谱(多个类别)的特征向量集,即模式识别算法的训练样本集可表示为X,X={ti}={(t1it2i, …, tNgsi, ci)},i=1, 2, …, N,其中N为能谱个数。利用训练样本集,通过模式识别算法可得到核素分类模型,利用此分类模型即可进行未知类别核素能谱的识别。
2. 实验结果与分析
2.1 实测能谱核素识别实验
为了验证所提方法的有效性,对比了基于稀疏表示的特征提取方法与两种传统核素特征提取方法的分类准确率,这两种传统方法分别是:Savitzky-Golay(SG)平滑结合导数寻峰的方法和梯形窗平滑(TS)结合导数寻峰的方法。实验数据采用241Am, 133Ba, 60Co, 137Cs, 131I和152Eu共6种核素1200个核素能谱数据,分别在7个模式识别分类算法上进行了对比实验,这7种模式识别分类方法分别是:最近邻分类算法[8](KNN)、朴素贝叶斯分类算法[9](NavieBayes)、支持向量机算法[10](SMO), PART Decision List算法[11](PART), C4.5决策树分类算法[12](C4.5), CART决策树分类算法[13](CART)和RBF神经网络算法[14](RBFNetwork)。实验采用十折交叉验证法进行,即将6种核素1200个核素能谱数据均匀划分为10份,其中9份作为训练数据,另外1份作为测试数据,依次循环10次,分类准确率为10次实验的平均值。
表 1给出了三种不同特征提取方法所提特征在不同分类方法上的分类结果。可以看到,基于稀疏表示的特征提取方法的识别率普遍高于90%,分类效果较好;而两种传统的特征提取方法识别率均较低,在SMO方法上甚至低至20%以下。可以认为基于稀疏表示的特征提取方法能够有效地提取到区分能力更强的能谱特征,其原因在于该方法选择区分能力最好的稀疏原子分解系数作为能谱特征。
表 1 三种特征提取方法在模拟核素上的识别结果Table 1. Classification results of the three feature extraction methodsmethods sparse representation(rank) SG +derivative(rank) TS+derivative(rank) KNN 97.11%(1) 88.75% (2) 72.67% (3) NavieBayes 88.57%(1) 44.58% (2) 38.92% (3) SMO 72.86%(1) 19.50% (3) 21.83% (2) PART 96.00%(1) 91.25% (2) 78.00% (3) J48 96.86%(1) 90.83% (2) 74.42% (3) CART 96.29%(1) 89.50% (2) 76.00% (3) RBFNetwork 94.29%(1) 73.17% (2) 58.00% (3) mean 91.71%(1) 71.08%(2.14) 59.98%(2.86) 2.2 实验结果统计分析
Demsar[15]结合统计学原理,针对多个分类器在多个数据集上的分类结果比较问题,提出了一种统计分析比较的方法。该方法利用Friedman test和Holm test检验各个分类器的分类结果之间是否存在明显差异。在本实验中,首先利用Friedman test方法检验各个特征提取方法之下的分类结果是否存在明显差异。若存在明显差异,再利用Holm test方法具体比较基于稀疏表示的特征提取方法和另外两种特征提取方法的分类结果之间是否存在明显差异。
不同的特征提取方法在各个分类器下的分类结果不尽相同,Friedman test将这些分类准确率进行排序,对任意一个分类器而言,每种特征提取方法在其上的分类结果将被排序,每种特征提取方法都会得到唯一的一个序数值,如表 1所示。假设共有N个分类器、k种不同的特征提取算法,每一种特征提取算法在每个分类器下都进行了分类实验。首先用rij表示第i种分类器在第j种特征提取方法下的序数值。再计算每一种特征提取方法的均序Rj,Rj=1N∑jrji。Friedman test假设所有k种特征提取方法下的核素分类结果相同,Friedman统计量表达式为
χ2F=12Nk(k+1)(∑jR2j−k(k+1)24) (9) 该统计量服从卡方分布,其自由度为k=1。
在本实验中,N=7,k=3,χF2=12.31,该结果表明在α=0.05时(即显著性水平为0.05),3种特征提取方法下的核素分类结果相同的假设被拒绝,即本实验考虑的3种特征提取方法的分类结果具有明显的差异。
利用Holm test方法来检验基于稀疏表示的特征提取方法分类结果和另外2种特征提取方法的分类结果之间是否存在明显的差异。比较两个分类器的统计量为
z=R1−R2√k(k+1)6N (10) Holm test具体过程如下:根据z值在标准正态分布表中找到对应的概率p,按从小到大的顺序对多次两两比较中得到的p进行排列,记为p1, p2, …, pk-1。Holm test将对pi和α/(k-i)的大小进行比较,如果α/(k-i)大于或等于pi,则拒绝原假设(原假设为:pi对应的两个分类器具有相同的分类效果)。
本实验中,从表 1可以得到,R1=1,R2=2.14,R3=2.86,R1为基于稀疏表示的特征提取方法的均序值,R2和R3分别代表SG平滑+导数寻峰的均序值和梯形平滑+导数寻峰的均序值。在显著性水平为α=0.05的情况下,由k=3及N=7可以计算得到标准误差SE=√k(k+1)6N=√3×46×7=0.5354。Holm test的具体结果如表 2所示。
表 2 Holm检验Table 2. Holm testi methods z=(Ri-R1)/SE p α/(k-i) 1 TS+derivative peak seeking (2.86-1)/0.535 4=3.479 7 0.000 5 0.025 0 2 SG+derivative peak seeking (2.14-1)/0.535 4=2.132 7 0.032 9 0.050 0 Holm test排除了两个原假设,即在显著性水平为α=0.05的情况下,基于稀疏表示的特征提取方法的分类结果与SG+导数寻峰和梯形平滑+导数寻峰特征提取方法的分类结果之间存在显著差异,而从表 1可以看到,前者的分类准确率明显高于后两者的分类准确率,可以认为,所提方法的分类准确率显著地高于上述两种方法的分类准确率。
3. 结论
基于稀疏表示的特征提取方法将核素能谱视作时间序列,从整体上分析其结构特征,利用稀疏分解方法提取能谱特征,避免了谱光滑、寻峰等操作。在6种核素共1200个核素能谱上的识别实验结果表明该方法所提特征对不同核素具有可区分性,实验结果的统计分析表明对于核素识别而言,该特征提取方法显著地优于导数寻峰法,所提特征能够更好地表征核素能谱的结构特性。如果核素能谱数据中既包含强噪声背景下的核素能谱,又包含弱噪声背景下的同一种核素能谱,此方法的识别效果就会有一定的下降,此时可以先对能谱数据进行去噪,在以后的工作中,将针对此问题进行研究。
-
表 1 三种特征提取方法在模拟核素上的识别结果
Table 1. Classification results of the three feature extraction methods
methods sparse representation(rank) SG +derivative(rank) TS+derivative(rank) KNN 97.11%(1) 88.75% (2) 72.67% (3) NavieBayes 88.57%(1) 44.58% (2) 38.92% (3) SMO 72.86%(1) 19.50% (3) 21.83% (2) PART 96.00%(1) 91.25% (2) 78.00% (3) J48 96.86%(1) 90.83% (2) 74.42% (3) CART 96.29%(1) 89.50% (2) 76.00% (3) RBFNetwork 94.29%(1) 73.17% (2) 58.00% (3) mean 91.71%(1) 71.08%(2.14) 59.98%(2.86) 表 2 Holm检验
Table 2. Holm test
i methods z=(Ri-R1)/SE p α/(k-i) 1 TS+derivative peak seeking (2.86-1)/0.535 4=3.479 7 0.000 5 0.025 0 2 SG+derivative peak seeking (2.14-1)/0.535 4=2.132 7 0.032 9 0.050 0 -
[1] Portnoy D, Fisher B, Phifer D. Data and software tools for gamma radiation spectral threat detection and nuclide identification algorithm development and evaluation[J]. Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 2015, 784: 274-280. doi: 10.1016/j.nima.2014.11.010 [2] Burr T, Hammada M. Radio-isotope identification algorithms for NaI γ spectra[J]. Algorithms, 2009, 2(1): 339-360. doi: 10.3390/a2010339 [3] Uher J, Roach G, Tickner J. Peak fitting and identification software library for high resolution gamma-ray spectra[J]. Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 2010, 619(1): 457-459. [4] 易义成, 宋朝晖, 管兴胤, 等. 溴化镧高剂量率线性响应范围的测定[J]. 强激光与粒子束, 2016, 29: 096002. doi: 10.11884/HPLPB201628.151241Yi Yicheng, Song Chaohui, Guan Xingying, et al. Measurement of linear response upper limit for LaBr3 to pulsed gamma radiation. High Power Laser and Particle Beams, 2016, 29: 096002 doi: 10.11884/HPLPB201628.151241 [5] 安力, 何铁, 郑普, 等. 伴随粒子法γ能谱本底测量技术[J]. 强激光与粒子束, 2013, 25(11): 3045-3049. doi: 10.3788/HPLPB20132511.3045An Li, He Tie, Zheng Pu, et al. Research on γ background spectra in associated particle technique. High Power Laser and Particle Beams, 2013, 25(11): 3045-3049 doi: 10.3788/HPLPB20132511.3045 [6] 何剑锋. 低能量分辨率γ能谱数据解析方法研究[D]. 成都: 成都理工大学, 2013.He Jianfeng. A study for decomposition method of lower-energy resolution gamma-energy resolution gamma-ray spectra data. Chengdu: Chengdu University of Technology, 2013 [7] Mallat S, Zhang Z. Matching pursuits with time-frequency dictionaries[J]. IEEE Trans on Signal Processing, 1993, 41(12): 3397-3415. doi: 10.1109/78.258082 [8] Aha D, Kibler D, Albert M. Instance-based learning algorithms[J]. Machine Learning, 1991, 6(1): 37-66. [9] George H, Langley P. Estimating continuous distributions in Bayesian classifiers[C]//Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, 1998: 338-345. [10] Platt J. Fast training of support vector machines using sequential minimal optimization[M]. Massachusetts: MIT Press, 1999: 185-208. [11] Frank E, Witten I. Generating accurate rule sets without global optimization[C]//The Fifteenth International Conference on Machine Learning. 1998: 144-151. [12] Quinlan J. C4.5: programs for machine learning[M]. San Francisco: Morgan Kaufmann Publishers, 1993. [13] Breiman L, Friedman J, Olshen R, et al. Classification and regression trees[M]. Boca Raton: CRC Press, 1984. [14] Bouchoux S, Paindavoine M. Implementation of pattern recognition algorithm based on RBF neural network[C]//Proc of SPIE. 2002, 8(18): 4572-4581. [15] Demsar J. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7: 1-30. -