自动语音识别新技术与模型优化-Seo优化-塔城地区网站建设公司

自动语音识别的新研究

作为致力于语音技术的最大会议，Interspeech一直是展示某中心语音助手在自动语音识别（ASR）领域最新研究成果的平台。今年，该语音助手的研究团队有12篇ASR论文被会议接受。

其中一篇题为**《基于自注意力和对抗训练的家庭场景说话人识别》的论文，报告了语音团队在说话人识别（即识别特定时刻是哪位说话人在讲话）方面的最新创新。另外两篇论文——《子词正则化：端到端自动语音识别的可扩展性与泛化性分析》和《用于端到端语音识别的RNN转换器的高效最小词错误率训练》**——则探讨了如何提高使用循环神经网络-转换器（RNN-T）架构的语音识别器的质量。在某中心语音识别部门负责人的主题演讲中，强调了说话人识别和RNN-T在ASR中的应用是近年来科学团队取得快速进展的领域。

说话人识别

说话人识别系统通常依赖循环神经网络或卷积神经网络来跟踪短时间跨度内语音信号的一致性。然而，在**《基于自注意力和对抗训练的家庭场景说话人识别》中，某中心的科学家及其合作者采用了一种注意力机制**来识别语音信号中更长范围的一致性。

在接收序列输入的神经网络中，注意力机制决定了序列中的哪些其他元素应该影响网络对当前元素的判断。语音信号通常被分成帧，代表短时间内不同声音频率的能量集中。对于给定的语音片段，研究人员的模型将每一帧表示为自身与语音片段中所有其他帧的加权和。权重取决于帧之间频率特性的相关性；相关性越大，权重越大。

这种表示的优点在于捕捉了由每一帧传递的说话人声音的独特属性，同时抑制了各个帧独有的、不太能代表说话人整体声音的偶然属性。这些表示被传递到一个神经网络，该网络在训练过程中学习哪些属性是说话人身份的最佳指标。最后，该网络的序列输出（每一帧对应一个输出）被平均在一起，产生整个语音片段的整体快照。这些快照与存储的配置文件进行比较以确定说话人的身份。

研究人员还使用了其他技巧来提高系统的可靠性，例如对抗训练。在测试中，研究人员将他们的系统与四个先前系统进行比较，发现其说话人识别的准确性在所有方面都更高。与四个基线中性能最佳的系统相比，该系统对于训练数据中包含的说话人，识别错误率降低了约12%；对于新遇到的说话人，错误率降低了约30%。

RNN-T架构

另一组论文探讨了如何提高使用日益流行的循环神经网络-转换器（RNN-T）架构的语音识别器的质量。RNN-T按顺序处理输入序列，因此每个输入对应的输出都考虑了其之前的输入和输出。在ASR应用中，RNN-T接收声学语音信号的帧并输出文本——一个子词序列。例如，对应于口语单词“subword”的输出可能是子词“sub”和“_word”。

在考虑的RNN-T架构中，时间t的输入（当前输入语音帧）传递到编码器网络，该网络提取对语音识别有用的声学特征。同时，当前不完整的输出子词序列传递到预测网络，其输出指示序列中下一个子词可能的语义属性。这两种表示——当前帧的编码和下一个子词的语义属性——传递到另一个网络，该网络基于这两种表示确定输出序列中的下一个词。

新方法

《子词正则化：端到端自动语音识别的可扩展性与泛化性分析》研究了模型中子词的正则化，即加强单词分割成子词的一致性。在实验中，研究人员表明，在训练期间对相同的语音转录使用多种分割方式，可以在使用5000小时语音数据训练的模型中将ASR错误率降低8.4%。

《用于端到端语音识别的RNN转换器的高效最小词错误率训练》研究了一种用于此类RNN-T ASR系统的新型损失函数。在实验中，它将系统的错误率降低了3.6%到9.2%。

对于每个输入，RNN-T输出多个可能的解决方案（或假设），并按概率排序。在ASR应用中，RNN-T通常被训练为最大化它们分配给输入语音正确转录的概率。然而，经过训练的语音识别器的评估标准是词错误率。研究人员研究了直接训练RNN-T ASR系统以最小化词错误率的高效方法。

这意味着，对于每个训练样本，最小化最可能假设的预期词错误。但计算这些假设的概率并不像听起来那么简单。这是因为完全相同的输出子词序列可以以不同的方式与输入帧序列对齐。计算假设的概率需要对其所有对齐方式的概率求和。

这个问题的暴力解决方案在计算上是不切实际的。但研究人员提出了使用前向-后向算法，该算法利用了对齐方式之间的重叠，存储可以重用的中间计算结果。结果是产生了一种计算高效的算法，使各种RNN-T模型的错误率降低了3.6%到9.2%。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）