[发明专利]文本语义识别方法、装置、计算机设备和存储介质在审

申请号：	201910666457.9	申请日：	2019-07-23
公开（公告）号：	CN110569500A	公开（公告）日：	2019-12-13
发明（设计）人：	韩铃;张然	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/35;G06K9/62
代理公司：	44224 广州华进联合专利商标代理有限公司	代理人：	杨欢
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	向量文本字符特征向量拼接神经网络文本分词目标文本文本语义词向量自然语言处理技术计算机设备存储介质语义类型综合特征准确率申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及自然语言处理技术领域，提供了一种文本语义识别方法、装置、计算机设备和存储介质。所述方法包括：确定目标文本所包含的文本字符以及每个所述文本字符所属的文本分词；计算文本字符对应的字向量和文本分词对应的词向量；将每个文本字符的字向量与所属的文本分词的词向量拼接，得到相应文本字符的拼接向量；将所述字向量输入至第一神经网络层得到第一特征向量，将所述拼接向量输入至所述第一神经网络层得到第二特征向量；将所述第一特征向量与所述第二特征向量进行拼接得到的综合特征向量输入至第二神经网络层，得到所述目标文本的语义类型。采用本方法能够提高文本语义识别的准确率。

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种文本语义识别方法、装置、计算机设备和存储介质。

背景技术

基于智能客服、即时通讯等需求，常需要对文本数据进行语义识别。随着互联网的发展，文本语义识别技术得到越来越广泛的应用，尤其是在智能客服领域。比如在智能客服领域中，智能客服为了准确回答用户输入的文本数据，通常需要对用户输入的文本数据进行语义识别，判断文本数据所表达的真实含义，从而准确快速的回答用户所提出的问题。又比如在即时通讯领域，为了防止用户通过即时通讯平台传输脏话等不文明用语，通常计算机设备需要检测用户输入的文本数据，检测文本数据中出现的敏感词，以此避免在即时通讯过程中传播不文明用语的问题。

目前，大部分文本语义分析技术采用关键词匹配方法来实现，这种方式在文本数据中出现关键词库中未记录的关键词则无法准确识别其语义，即文本语义识别准确率受限于关键词覆盖率，导致文本语义识别的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种文本语义识别方法、装置、计算机设备和存储介质。

一种文本语义识别方法，所述方法包括：

确定目标文本所包含的文本字符以及每个所述文本字符所属的文本分词；

计算文本字符对应的字向量和文本分词对应的词向量；

将每个文本字符的字向量与所属的文本分词的词向量拼接，得到相应文本字符的拼接向量；

将所述字向量输入至第一神经网络层得到第一特征向量，将所述拼接向量输入至所述第一神经网络层得到第二特征向量；

将所述第一特征向量与所述第二特征向量进行拼接得到的综合特征向量输入至第二神经网络层，得到所述目标文本的语义类型。

在一个实施例中，所述方法还包括：

获取样本文本；

基于预训练的第一神经网络层提取所述样本文本的字向量及词向量；