人工智能语音识别应用

发布时间: 2023-01-12

来源: 科技服务团

截止日期:2023-01-12

价格双方协商

地区：重庆市市辖区永川区

需求方：重庆***公司

行业领域

电子信息技术,高技术服务业,高新技术改造传统产业,信息安全技术,计算机及网络技术,软件

需求背景

随着互联网的快速发展，以及手机等移动终端的普及应用，可以从多个渠道获取大量文本或语音方面的语料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。

在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一，但是语料的标注和分析需要长期的积累和沉淀，随着大数据时代的来临，大规模语料资源的积累将提到战略高度。

现如今，语音识别在移动终端上的应用最为火热，语音对话机器人、语音助手、互动工具等层出不穷，许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用，目的是通过语音交互的新颖和便利模式迅速占领客户群。

需解决的主要技术难题

把训练数据分成许多小块后并行地送到不同的机器来进行矩阵运算，从而实现并行训练。优化方案是：在模型的每遍迭代中，先将训练数据分成N个完全不相交的子集，然后在每个子集中训练一个sub-MLP，最后把这些sub-MLP进行合并网络结合。为了进一步提升并行效率，在上千个CPU核的计算集群实现了这种方式，深层网络的训练主要是利用异步梯度下降算法。将异步梯度下降算法应用到了多个GPU中。一种管道式的 BP 算法被提了出来，该方法利用不同的GPU单元来计算神经网络中不同层，实现并行训练的效果。实验证明，相对使用单个GPU训练，该方法通过使用4个GPU实现了3.1倍左右的效率提升。然而，不同计算单元之间极其频繁的数据传递成为该类方法提升训练效率的主要瓶颈。为此，为了更好地实现神经网络并行训练，一种新的基于状态聚类的多深层神经网络建模方法被提出，该方法先将训练数据在状态层面进行聚类，在状态层面进行不相交的子集划分，使得不同计算单元神经网络之间的数据传递规模大幅度减小

期望实现的主要技术目标

深度神经网络的模型参数非常稀疏，利用这个特点，将深度神经网络模型中超过 80%的较小参数都设置为 0，几乎没有性能损失，同时模型尺寸大大减少，但是训练时间并没有明显减小，原因是参数稀疏性带来的高度随机内存访问并没有得到太多的优化。进一步地，在深度神经网络中，用两个低秩矩阵的乘积表示权重矩阵，实现了30%～50%的效率提升

处理进度

提交需求

2023-01-12 14:22:15
确认需求

2023-01-12 15:56:13
需求服务

2023-01-12 15:56:13
需求签约
需求完成

服务方

“科创中国”重庆永川大数据产业科技服务团

科创中国

友情链接

国际技术贸易

海外专利信息资源系统

省级中心站