人机交互语音识别发展及军事应用分析

(整期优先)网络出版时间:2023-09-14
/ 2

人机交互语音识别发展及军事应用分析

李耀伟黄传备任晨欣

北方自动控制技术研究所,山西 太原 030006

摘要:随着科学技术的进步和信息化的进步,人与人之间的互动已深入到人们的日常生活中。它不但使人类和电脑之间的互动变得简单,而且产生了许多新的应用,如面孔识别、虚拟现实等。基于此,本文以人机交互语音识别为切入点,阐述其发展,并进一步论述其在军事中的应用,仅供参考。

关键词:人机交互;语音识别技术;军事应用

引言:在工业社会中,按键、开关和拉杆等作为一种重要的操作方式被广泛地用于机械控制中。在电子信息化时代,人们又增加了感应式触摸屏、实体或虚拟数字键盘、软件菜单等多种人机交互方式,使人机交互方式变得更加丰富。在智能时代,以语音、肢体动作识别为基础的非接触式新型人机交互手段,因为其使用方式灵活、方便等优点,在商业领域中的发展与应用非常活跃。由于在激烈对抗的战场环境下,军用设备的人机交互方式不仅需要灵活、方便,还更加注重交互的快速、准确,这也是开发人机交互语音识别技术的关键所在。

一、语音识别技术的发展历程

(一)语音识别的兴起

对语音识别技术的研究始于上个世纪五十年代。1952年,三名贝尔实验室的研究员合作建立了一个名为“Audrey”的系统,它可以根据每一个字的能量波段确定谐振峰,这种系统可以识别超过10个英文数字。美国 RCA在1956年采用了元声谱法,取得了与之相似的成果。

(二)语音识别的重大突破

在60、70年代以前,语音识别技术主要有3种:第一种,以话音为基础的时序检测法,它是通过 ALT滤波器来获取声学特征;第二种,一种苏联的 Vintsyuk提出的可以把话音分为几个短的帧分别进行处理的动态时间规则(DTW)算法,它可以在200个字的词汇表上运算;第三种,由卡内基梅隆大学(Carnegie Mellon University)提出的一种用于对音位进行动态追踪的连续语音识别算法。日本名古屋大学板仓文忠教授于1966年提出一种新的语言编码方法:线性预测法,它是将单词信息用压缩的方式表示出来,并将其表示成一种语言信息的频谱包络。

二、人机交互语音识别技术在军事中的应用分析

在军事应用中,通过语音输入取代了传统的手工操作,使得作战人员能够专注于目标判断、攻击火力运用等关键的重要操作,从而最大限度地发挥战术优势。以声音为基础的人机对话方式,在军用方面得到了越来越多的重视与发展。

当前,语音识别技术在军事上的应用,多集中于电子侦查、语音情报分析、网络信息甄别、声纹身份鉴别等方面。但由于操作环境噪音较大,导致辨识精度较低,快速性不能适应高强度战斗对抗的节奏,在武器装备操作中尚未得到广泛应用。在此基础上,提出了一种基于人机对话的语音识别方法。多功能、高集成度是军用装备发展的一个方向,单个武器平台上由一人操作的装备种类繁多、结构复杂,对其进行平行、高效率操作的要求十分突出,而语音输入是一种有效的解决方法。随着无人驾驶技术的发展,大规模装备无人驾驶是军用装备发展的另一个重要方向,同构、异构的军用装备将被集中应用于战场,无论是在回路内还是在回路上,都存在着多个不同类型、不同类型的军用装备,如果单纯使用传统的控制方法,将会提高控制的难度、工作强度,无法满足高强度、快节奏的战斗需要,而基于声音的控制方法可以有效地解决这一问题。

目前,在诸如智能手机、智能电视、智能驾驶座舱等商业应用中,语音识别主要集中在对语义的理解上,大部分都需要借助互联网背景云的支持,才能获得正确的识别精度,并且识别响应时间很长(秒级以上)。虽然语义理解具有很强的应用弹性,但是它无法直接用于军用设备的声控输入。其原因是:第一,军用设备的无线网络覆盖范围受限;第二,由于安全性的原因,该应用被禁用。另外,军用设备的操作指令种类较少,缺乏基于自由语义理解的操作输入的紧迫性,更缺乏在轻量级(信息量和处理速率较低)技术条件下的有效控制。针对此问题,提出了一种基于关键字的语音控制命令识别方法,可以将预先设定好的命令从连续的话音数据流中提取出来,并转化为对设备的控制信息[1]

三、基于关键词识别的语音识别

(一)补白模型

补白模型也被认为是无用的垃圾模型,它把关键词的识别看作是一种连续的逐帧标签问题。关键字被标出为另一种标签,并在所有非关键字上加上一条“补白”标签。在此基础上,补白模型通过关键词建立隐马尔科夫模型,并利用混合高斯型或神经网络模型两种方法获得观察概率。以汉语408个音调为研究对象,并结合全联接神经网络为基础,通过 Softmax类分器的输出为后验概率,以 HMM/Filler为基础,首次将其与隐马尔科夫互补模型进行充分融合,并采用后验概率极大化的 HMM (HMM-MAP)方法解决样本数量小的问题,最终获得了87.88%的识别结果。

(二)基于样例关键词识别

在样本关键词分析的基础上,技术人员可以将关键词的问题简化为一个匹配问题,也就是对输入音频与样本词之间的相似性进行研究,当输入音频的词相似性达到了规定的阈值时,人们就可以认为该音频中包含了指定的词。本文将样本中的关键字识别分为两种类型,一种是 DTW算法,另一种是神经网络学习。DTW通过将两种语言的时序压缩和延时对齐,从而将两种语言之间的相似度问题转化为两种语言特征矢量之间的间隔问题。在距离计算方面,主要有欧式距离,余弦距离,对数内积距离,切比雪夫距离等几种方法,并对其进行了比较。该方法是最早用于语音识别的一种方法,从召回率和准确度来看,都只有40%左右,距离实际应用还差得很远,通过多模板匹配和加速算法,使模型在召回率上从46%提高到70%。与后一种算法相比, DTW模型对资源的消耗更少,虽未成为主流,但在算法的融合和近似查询等方面仍然有很大的优势。在此基础上,技术研发人员,提出了一种新的基于三层 BLSM神经网络的嵌入方法,通过将两种不同方向网络的输出矢量进行嵌入,并通过改进特征抽取方法,获得了86%的预测精度。

结论:综上所述,人机交互语音识别技术,从根本上改变了目前单一的单点串行设备的操作方式,凭借着远距离非接触、灵活方便的技术优势,可以有效地支持对复杂武器装备中的多个或多个设备的同时并行操作。噪声环境下的语音提取和多人环境下的声纹识别是军事应用开发中亟待解决的问题。随着语音识别技术的日益成熟和演进,提高召回率和响应速度,使得人机交互语音识别技术在军用设备操作中得到更多的应用。

参考文献:

[1]鹿哲源,牛小明,康林,李文才,刘歆浏.人机交互语音识别发展及军事应用分析[J].兵工自动化,2023,42(04):21-25.