Lightweight neural network hand gesture recognition method for embedded platforms
-
摘要: 针对传统基于图像分割和特征提取的手势识别算法在复杂背景下识别准确率低、灵活性差的问题,基于目标检测神经网络的手势识别算法可以有效提高复杂环境下手势识别的准确性。受嵌入式处理器体积和功耗的限制,常用的目标检测神经网络在嵌入式上的识别速度较低,不能满足实时手势识别的要求。在SSD目标检测的基础上对其进行优化,使用MobileNetv3网络实现特征提取,目标检测方面则是使用SSD-lite结构,其使用深度可分离卷积替代普通卷积,实现了轻量化MobileNetv3-SSDLite手势识别算法的设计。针对手势识别的要求,制作了包含不同手势的数据集,利用它在服务器上完成了模型的训练。为了满足嵌入式的算力限制,通过模型的量化压缩将float64的网络参数量化为int8,并压缩网络结构,提高网络在嵌入式上的推理速度,实现基于嵌入式的手势识别。实验结果表明,基于嵌入式的MobileNetv3-SSDLite手势识别算法可以达到平均准确率99.61%,且识别速度达到每秒50帧以上,满足实时手势识别的要求。
-
关键词:
- 手势识别 /
- 深度神经网络 /
- 嵌入式 /
- 轻量化 /
- MobileNev3-SSDLite
Abstract: Compared with the traditional gesture recognition algorithms based on image segmentation and feature extraction in complex backgrounds which have low recognition accuracy and poor flexibility, the gesture recognition algorithm based on target detection neural network can effectively improve the accuracy of gesture recognition in complex environments. Restricted by the size and power consumption of embedded processors, the recognition speed of commonly used target detection neural networks on embedded processors is low and cannot meet the requirements of real-time gesture recognition. In this paper, we optimize the SSD target detection and use MobileNetv3 network to achieve feature extraction and SSD-lite structure for target detection, thus to use depth-separable convolution instead of ordinary convolution to realize the design of lightweight MobileNetv3-SSDLite gesture recognition algorithm. For the requirements of gesture recognition, we make a dataset containing different gestures and complete the training of the model on the server using the dataset. In order to meet the arithmetic limitation of embedded processor, we quantize the float64 network parameters into int8 by quantization compression of the model, and compress the network structure to improve the inference speed of the network on embedded processor to realize the embedded-based gesture recognition. The experimental results show that the embedded-based MobileNetv3-SSDLite gesture recognition algorithm can achieve an average accuracy of 99.61% and a recognition speed of above 50 frame/s, which meets the requirements of real-time gesture recognition.-
Key words:
- hand gesture recognition /
- deep neuron network /
- embedded system /
- lightweight /
- MobileNetv3-SSDLite
-
受控热核聚变是解决人类能源危机的主要途径之一。聚变能是无污染、资源丰富的理想能源,实现受控核聚变将从根本上解决人类社会的能源问题。磁约束核聚变是实现受控核聚变的重要途径之一,目前世界各国已在磁约束核聚变理论、关键技术上取得了突破性进展。在磁约束核聚变实验中,需要使用高功率毫米波源进行电子回旋共振加热(ECRH)[1]。而在毫米波频段,回旋管是唯一能产生高功率(>1 MW)连续波输出的器件,因而被广泛应用到热核聚变实验中。目前磁约束核聚变技术在国内外得到较快发展,同时也对回旋管提出了更高的要求:不仅提出了MW级功率输出、工作时间时长的要求,还提出了双频点或多频点可调谐工作的要求[2]。一般来说,MW级回旋管要求准光模式变换器衍射损耗低于5%[3-5]。目前,俄罗斯的Gycom公司设计了170 GHz和135 GHz MW级双频回旋管,其准光模式变换器效率分别为99.19%(170 GHz)和97.42%(135 GHz)[6]。国际上德国、日本、美国等国家的研究机构也完成了双频MW级回旋管内置准光模式变换器的研制工作[7-11]。国内的科研机构也开展了准光模式变换器的研究工作[12-18]。在双频(多频)准光模式变换器设计方面,北京大学进行了太赫兹多模式准光模式变换器的设计[16-17],电子科技大学也对准光模式变换器的带宽进行了研究[18],但在国内尚未见到MW级双频回旋管内置准光模式变换器的公开报道。双频回旋管研制的难点之一就是准光模式变换器的双频复用,通常针对某个频率和模式优化得到的准光系统与针对另一个频率和模式为目标优化得到的准光系统存在较大差异,会产生较大损耗和造成高斯含量的降低,无法满足MW级双频连续波回旋管的需求。如参考文献[19]中,未针对镜面系统进行多频设计,导致各个频率下的高斯含量差异较大。针对这一问题,本文开展了双频准光模式变换器的设计。通过选择圆波导内传播模型近似的传播模式,并利用数值方法在圆波导内壁引入不规则微扰,将圆波导口输入的高阶腔体模式转换为准高斯模式,本文完成了双频预聚束辐射器的设计。在后续双频镜面系统设计中,本文基于标量衍射理论,并在KS迭代算法[20]中引入权重和最小均方法等方法完成了双频相位修正镜设计,进一步将准高斯波束修正为高斯波束。仿真结果显示所设计的准光模式变换器能满足MW级双频回旋管的要求。
1. 双频准光模式变换器设计
准光模式变换器包括一个预聚束辐射器和后续的反射镜面系统,如图1所示。辐射器将回旋管产生的TE0,n或TEm,n模式进行预聚束,并通过切口处辐射至后续镜面系统。后续镜面系统进一步对波束传播方向和相位进行修正,最终修正为高斯波束(TEM00)输出。针对目前以单一频率为优化目标的准光模式变换器设计方法会造成两个频率之间准光系统差异较大,本文将两个频率同时设为优化目标(既需要保持较低衍射损耗,同时获得尽可能高的高斯含量),并通过筛选圆波导内传播模型近似的模式,在迭代算法中引入权重、最小均方法分别完成了双频辐射器和双频相位修正镜的设计。
1.1 双频辐射器设计
辐射器主要包括Vlasov型辐射器[21-22]、Denisov型预聚束辐射器[23]、不规则微扰型预聚束辐射器[3]三种。Vlasov型辐射器损耗较大,聚束效果较差。Denisov型辐射器通过对两组周期微扰进行优化将高阶模式变换为该模式与8个卫星模式的混合模式,使得波导内的场呈现为准高斯分布。但Denisov型辐射器在过低阶模式和圆对称模式难以形成有效的卫星模式,过高阶的模式需要较长的微扰段。且对于一些
π/θ (θ 为波束角向传播方向与角向单位矢量的夹角)不接近于整数的高阶边廊模式,基于耦合模理论的Denisov辐射器无法获得足够的变换效率[16]。不规则微扰型预聚束辐射器通过数值方法在圆波导内壁引入不规则微扰,将圆波导口输入的高阶腔体模式转换为准高斯模式。不规则微扰型预聚束辐射器比Denisov型预聚束辐射器在模式选择上更具普适性,结构也更为紧凑,因此本文选择不规则微扰型辐射器作为双频准光模式变换器的辐射器。由于辐射器圆波导半径远大于回旋管的工作频率所对应的自由空间波长,因此电磁波在波导内的传播情况可以采用几何光学进行分析。可以考虑通过电磁波在圆波导内的传输参数逆向选择合适的传播模式。通过对105 GHz和140 GHz的多个模式在圆波导中的传播情况进行分析,我们最后选择了105 GHz(TE18,7)和140 GHz(TE24,9),两者在圆波导中的传播参数如表1所示,105 GHz(TE18,7)和140 GHz(TE24,9)在圆波导内传播的布里渊区参数、焦散圆半径等参数非常接近,两者在圆波导内的几何光学传播模型近似,有利于高效率双频辐射器的设计。
表 1 两种模式在圆波导中的传播参数Table 1. Propagation parameters of the circular waveguide for considered modesmode frequency/GHz waveguide radius/mm caustic radius/mm pitch distance/mm axial bounce angle/(°) TE18,7 105 21.5 8.76 41.1 73.1 TE24,9 140 21.5 8.80 42.6 72.4 利用标量衍射理论,结合KS迭代算法,可快速求解波导内壁电流分布和逆向求解辐射器内壁微扰分布。
u(r)=−∬[u(r0)∇G(r,r0)−G(r,r0)∇u(r0)]n0⋅ds0 (1) G(r,r0)=exp(±jk|r−r0|)4π|r−r0| (2) 式中:
n0 是波导壁的法向矢量;k 是波数;G(r,r0) 表示自由空间格林函数如式(2)中所示;u(r) 表示波导壁上的场分布[18]。两个工作频率的圆波导沿径向展开的壁电流分布如图2(图中红色线表示螺旋切口的位置和辐射场),辐射器内壁微扰分布如图3所示。辐射器长度140 mm,螺旋切口长度35 mm。经螺旋切口辐射,入射在与辐射器同圆心、半径为5 cm的圆柱面上的场分布如图4所示。由图2和图4可见从波导端口馈入的高阶腔体模式经过辐射器微扰修正,逐渐转换为准高斯波束,且辐射波束旁瓣较低,实现了预聚束。
1.2 双频相位修正镜设计
经过辐射器螺旋切口辐射出的电磁波经过第一个镜面的反射,还需利用相位修正镜将入射的准高斯波束精确修正为所需束腰大小的高斯波束。相位修正镜的原理类似于相控阵天线,镜面上每一点类似于相位控制元件,相控阵天线理论表明足够数量的相位控制元件可以控制波束的方向和方向图,同样通过对反射镜面进行赋形也可以改变镜面上的电流相位和分布以得到期望的波束[8]。
相位修正镜的设计采用标量衍射理论、KS迭代算法、几何光学等方法。相位修正镜面采用的设计流程如图5所示。首先利用衍射理论将入射波传播至镜面(如图中序号1,2所示),然后将理想高斯波束反向传播至镜面(如图中序号3,4所示),此时通过比较正向传播至镜面和反向传播至镜面上的场可以得到相位差。利用相位差可得到镜面的相位修正尺寸,再结合KS迭代算法就可以逆向得到相位修正镜镜面。
由图2可以看出,经由辐射器出射的场存在差异,仅针对某个单一频率进行优化的相位修正镜并不能同时适用于另一个频率。为了避免造成较大损耗和高斯含量的下降,减小两个工作频率之间准光模式变换器性能的差异,我们考虑将两个目标频率同时设为优化目标进行优化,同时在KS迭代算法中引入了权重和最小均方法优化以加快寻优。定义成本函数如下
P=∬∑m[wm|vmδy−δθm|2]dxdz (3) ∂P∂δy=0 (4) 给两个频率分别赋予权重
wm=|Em|2∑m|Em|2 (5) 式中:
δy 是镜面表面的相位修正的尺寸;wm 是第m 个频率的权重;θm 是第m 个频率的相位差;vm 是与频率有关的值,Em 是第m 个频率对应的电场。我们通过式(3)~(5)得出了双频镜面的修正尺寸δy 再结合前文提到的方法完成了双频相位修正镜的设计。2. 仿真分析
经过仿真软件(算法为MLFMM)计算105 GHz和140 GHz双频准光模式变换器的xz平面电场传播情况和回旋管窗片上的场分布如图6、图7所示。图6(a)为105 GHz时准光模式变换器截面的电场传播图,图6(b)为140 GHz时截面上的电场传播图。从图6中可以看出波导端输入的高阶腔体模式经过波导内壁微扰逐渐被转换为准高斯模式,从辐射器出射时电场幅值达到了最大值且实现了聚束,随后经后续镜面系统调整传播方向以及相位修正,将入射波束的束腰修正为期望的束腰大小,最终从回旋管窗片输出,电磁波在整个双频准光模式变换器中的传播过程中衍射损耗低于−30 dB,回旋管窗片(直径88 mm)边缘的电场幅度低于−27 dB,电场幅值也呈现高斯分布,如图7所示。图7(a)为105 GHz窗片上的电场分布图,图7(b)为140 GHz窗片上的电场分布情况。
经过分析计算得到结果如表2所示,本文设计的双频准光模式变换器在工作频率140 GHz(TE24,9)时能量传输效率为99.0%、高斯含量大于99.0%,场强最大值点偏移z向0.50 mm,y向0.50 mm;工作频率为105 GHz(TE18,7)时能量传输效率大于97.0%、高斯含量为98.0%,场强最大值点偏移z向2.00 mm,y向2.25 mm。较好地实现了模式转换和能量传输。其中能量传输效率的定义为
表 2 仿真结果Table 2. Results of simulationmode frequency/GHz Gaussian content/% conversion efficiency/% z-offset/mm y-offset/mm TE18,7 105 98.0 97.3 2.00 2.25 TE24,9 140 99.7 99.0 0.50 0.50 η=P1P2 (6) 高斯含量定义为
c=∬s|Ax||Bx|ds√∬s|Ax|2ds∬s|Bx|2ds (7) 式中:
P1 表示回旋管窗片位置处的功率;P2 表示辐射器入口处的输入功率。Ax 表示回旋管窗片位置处的电场分布,Bx 表示理想高斯分布。3. 结 论
本文通过对毫米波在圆波导内的传输参数进行分析,选择圆波导内传播模型近似的传播模式,并利用数值方法在圆波导内壁引入不规则微扰,将圆波导口输入的高阶腔体模式转换为准高斯模式,完成了双频预聚束辐射器的设计;考虑到两个工作频率下经双频辐射器出射的场分布有差异,在迭代算法中引入权重并结合最小均方法等方法完成了双频相位修正镜面的设计,最终实现将输入的波束修正为期望束腰的高斯波束,准光模式变换器中衍射损耗较低,能满足MW级双频回旋管的要求。今后将考虑引入新的优化方法对双频辐射器的设计进一步优化,同时探索多频准光模式变换器的设计方法。
-
表 1 MobileNet系列与VGG16的对比
Table 1. MobileNet series comparison to VGG16
network structure params/Mbyte MACs/106 ImageNet
accuracy/%VGG16 13.8 15300 71.5 MobieNetv1 4.2 569 70.6 MobileNetv2 3.4 300 72.0 MobileNetv3 5.4 219 75.2 表 2 用于检测的额外特征图及其尺寸
Table 2. Extra feature map layers for object detection
extra layers shape layer 1 39×39×512 layer 2 19×19×1024 layer 3 10×10×512 layer 4 5×5×256 layer 5 3×3×256 layer 6 1×1×256 表 3 SSDLite深层检测网络与SSD的对比
Table 3. SSDLite detection head comparison to SSD
network structure params/Mbyte MACs/106 mAP/% SSD 14.8 1250 19.3 SSDLite 2.1 350 22.2 表 4 不同手势的识别结果
Table 4. Recognition results of hand gestures
hand gesture accuracy/% 0 99.64 1 100.00 3 99.51 4 99.22 5 99.69 average 99.61 表 5 不同场景下手势识别结果
Table 5. Recognition results of hand gestureson various scenarios
scenarios average accuracy/% multiple hand gestures 96 complicated background 64 low light intensity 72 表 6 不同手势识别算法的比较
Table 6. Comparison of different hand gesture recognition algorithms.
algorithm params/Mbyte MACs/106 frame rate/(frame/s) mean accuracy/% VGG16-SSD 24.3 30654 2 91.75 MobieNetv1-SSD 7.2 1299 12 93.98 MobileNetv1-SSDLite 4.1 1130 16 93.86 MobileNetv2-SSDLite 3.1 656 36 91.01 MobileNetv3-SSDLite 2.2 526 58 99.61 -
[1] 陈壮炼, 林晓乐, 王家伟, 等. 基于卷积神经网络的手势识别人机交互系统的设计[J]. 现代计算机, 2021(6):57-62. (Chen Zhuanglian, Lin Xiaole, Wang Jiawei, et al. Design of human-computer interaction system for gesture recognition based on convolutional neural network[J]. Modern Computer, 2021(6): 57-62 doi: 10.3969/j.issn.1007-1423.2021.06.011 [2] 袁博, 查晨东. 手势识别技术发展现状与展望[J]. 科学技术创新, 2018(32):95-96. (Yuan Bo, Zha Chendong. Gesture recognition technology development status and outlook[J]. Scientific and Technological Innovation, 2018(32): 95-96 doi: 10.3969/j.issn.1673-1328.2018.32.056 [3] 时梦丽, 张备伟, 刘光徽. 基于深度图像的实时手势识别方法[J]. 计算机工程与设计, 2020, 41(7):2057-2062. (Shi Mengli, Zhang Beiwei, Liu Guanghui. Real-time gesture recognition method based on depth image[J]. Computer Engineering and Design, 2020, 41(7): 2057-2062 [4] 彭理仁, 王进, 林旭军, 等. 一种基于深度图像的静态手势神经网络识别方法[J]. 自动化与仪器仪表, 2020(1):6-9,15. (Peng Liren, Wang Jin, Lin Xujun, et al. A static gesture recognition method based on depth image and neural network[J]. Automation & Instrumentation, 2020(1): 6-9,15 [5] 吴轶凡, 郭剑辉. 一种基于肤色模型的改进型手势分割算法的实现[J]. 电子设计工程, 2020, 28(18):185-188,193. (Wu Yifan, Guo Jianhui. Implementation of an improved gesture segmentation algorithm based on skin color model[J]. Electronic Design Engineering, 2020, 28(18): 185-188,193 [6] Li Hui, Yang Lei, Wu Xiaoyu, et al. Static hand gesture recognition based on HOG with Kinect[C]//Proceedings of the 2012 4th International Conference on Intelligent Human-Machine Systems and Cybernetics. 2012: 271-273. [7] Liua C, Zhou Shuwang, Hu Sheng, et al. Hand gesture recognition based on sEMG signal and improved SVM voting method[C]//Proceedings of the 2020 IEEE 3rd International Conference on Information Systems and Computer Aided Education (ICISCAE). 2020: 605-608. [8] 石雨鑫, 邓洪敏, 郭伟林. 基于混合卷积神经网络的静态手势识别[J]. 计算机科学, 2019, 46(s1):165-168. (Shi Yuxin, Deng Hongmin, Guo Weilin. Static gesture recognition based on hybrid convolution neural network[J]. Computer Science, 2019, 46(s1): 165-168 [9] Hussain S, Saxena R, Han Xie, et al. Hand gesture recognition using deep learning[C]//Proceedings of the 2017 International SoC Design Conference (ISOCC). 2017: 48-49. [10] 郭紫嫣, 韩慧妍, 何黎刚, 等. 基于改进的YOLOV4的手势识别算法及其应用[J]. 中北大学学报(自然科学版), 2021, 42(3):223-231. (Guo Ziyan, Han Huiyan, He Ligang, et al. Gesture recognition algorithm and application based on improved YOLOV4[J]. Journal of North University of China (Natural Science Edition), 2021, 42(3): 223-231 [11] Chhajed R R, Parmar K P, Pandya M D, et al. Messaging and video calling application for specially abled people using hand gesture recognition[C]//Proceedings of the 2021 6th International Conference for Convergence in Technology (I2CT). 2021: 1-4. [12] Yi Chengming, Zhou Liguang, Wang Zhixiang, et al. Long-range hand gesture recognition with joint SSD network[C]//Proceedings of the 2018 IEEE International Conference on Robotics and Biomimetics (ROBIO). 2018: 1959-1963. [13] 孔维刚, 李文婧, 王秋艳, 等. 基于改进YOLOv4算法的轻量化网络设计与实现[J/OL]. 计算机工程, 1-10(2021-04-30)Kong Weigang, Li Wenjing, Wang Qiuyan, et al. Design and implementation of lightweight network based on YOLOv4 algorithm[J/OL]. Computer Engineering, 1-10(2021-04-30). https://doi.org/10.19678/j.issn.1000-3428.0060948 [14] Liu Wei, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. 2016: 21-37. [15] Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. doi: 10.1109/TPAMI.2016.2577031 [16] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016: 779-788. [17] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[DB/OL]. arXiv preprint arXiv: 1409.1556, 2014. [18] Howard A, Sandler M, Chen Bo, et al. Searching for MobileNetV3[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 1314-1324. [19] Howard A G, Zhu Menglong, Chen Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[DB/OL]. arXiv preprint arXiv: 1704.04861, 2017. [20] Sandler M, Howard A, Zhu Menglong, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520. [21] Hu Jie, Shen Li, Albanie S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. doi: 10.1109/TPAMI.2019.2913372 [22] 杨国威, 许志旺, 房臣, 等. 融合剪枝与量化的目标检测网络压缩方法[J/OL]. 计算机工程与应用, 1-12[2021-12-17]Yang Guowei, Xu Zhiwang, Fang Chen, et al. Object detection network compression method based on pruning and quantization[J/OL]. Computer Engineering and Applications, 1-12[2021-12-17]. http://kns.cnki.net/kcms/detail/11.2127.tp.20210918.1121.008.html -