[发明专利]中文口语语义理解方法及系统有效
申请号: | 201910814333.0 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516253B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 朱苏;徐华;俞凯;张瑜 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 口语 语义 理解 方法 系统 | ||
本发明实施例提供一种中文口语语义理解方法。该方法包括:获取泛化的无标注文本序列训练集,依次对训练集进行正向预测、反向预测,训练字级别以及词级别的双向语言模型;接收用户输入的口语语音音频,进行序列分词,字序列以及词序列;分别使用字级别以及词级别的双向语言模型对字序列以及词序列解码,获得字级别以及词级别的隐层向量;对字序列和词序列的隐层向量进行向量对齐,得到语义理解模型输入的口语语音音频的隐层向量;将口语语音音频的隐层向量输入至语义理解模型,确定口语语音音频的语义。本发明实施例还提供一种中文口语语义理解系统。本发明实施例具有良好的泛化能力,将词、字序列相结合,提升了中文语义理解的性能。
技术领域
本发明涉及智能语音交互领域,尤其涉及一种中文口语语义理解方法及系统。
背景技术
语义理解在智能语音的交互中有着重要的作用,通常会使用以下几个方法来进行语义理解:
1、基于深度学习、有监督学习的口语语义理解:需要在自然文本或者语音识别文本上进行人工的语义标注,结合深度神经网络模型,以数据驱动的方式训练语义理解模型。
2、基于深度学习、有监督学习,结合预训练词向量的口语语义理解:需要在自然文本或者语音识别文本上进行人工的语义标注,同时使用外部预训练的词向量初始化输入层网络,训练语义理解模型。
3、基于深度学习、半监督学习的口语语义理解:需要在自然文本或者语音识别文本上进行人工的语义标注,同时还有大量未标注的自然文本或者语音识别文本,然后结合半监督学习方法(比如伪标签学习、对抗训练等)训练语义理解模型。
4、基于深度学习、多任务学习,利用语言模型和语义理解联合训练的口语语义理解:需要在自然文本或者语音识别文本上进行人工的语义标注,同时还有大量未标注的自然文本或者语音识别文本;利用有标签数据学习语义理解任务,利用无标签数据学习语言模型任务,同时两个任务的底层参数相互共享。
5、英文自然语言处理领域,利用预训练语言模型作为输入的自然语言处理技术:利用大量未标注的自然文本训练一个双向语言模型,然后将改语言模型作为后端自然语言处理任务的输入层。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
1、基于深度学习、有监督学习的口语语义理解:需要大量人工标注的数据,严重依赖数据量,且文本特征是有较大稀疏性的,这样训练出来的模型会有一定的过拟合现象和低泛化性。
2、基于深度学习、有监督学习,结合预训练词向量的口语语义理解:相比于1,此方法利用的预训练词向量可以适当提高模型的泛化性且降低过拟合的现象,但词向量只能表现单个词的特性,对于句子(词序列)的泛化起到的作用非常有限。
3、基于深度学习、半监督学习的口语语义理解:半监督学习依赖于大量高质量的未标注文本,但是很难获取大量高质量的未标注数据,尤其是在口语对话系统刚起步或者用户量不大的时候(口语语义理解理解作为口语对话系统的重要组成部分)。
4、基于深度学习、多任务学习,利用语言模型和语义理解联合训练的口语语义理解:语言模型的训练数据是非常巨大的,深度学习的模型训练时间统一非常长。相比较而言语义理解的训练数据一般都非常小,所以为了语义理解任务而同时训练语言模型,时间和金钱的代价是非常大的。
5、英文自然语言处理领域,利用预训练语言模型作为输入的自然语言处理技术:在中文自然语言处理中,尤其使用到中口语语义理解中,该模型结构没有考虑中文分词现象(且无法同时考虑字和词),对于中文分词错误的鲁棒性较差。
发明内容
为了至少解决现有技术中需要大量人工标注的数据,词向量智能表现单个此的特性,对于句子的泛化起到的作用非常有限,并且依赖于大量高质量的未标注文本,语言模型的训练数据巨大,训练时间非常长,语言模型无法同时考虑字和词,对中文分词效果欠佳的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910814333.0/2.html,转载请声明来源钻瓜专利网。