[发明专利]一种基于用户真实意图的语意模糊识别方法有效
申请号: | 201910053862.3 | 申请日: | 2019-01-21 |
公开(公告)号: | CN109800296B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 杜忠和;刘楚雄;唐军 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 吴瑞芳 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 真实 意图 语意 模糊 识别 方法 | ||
本发明公开了一种基于用户真实意图的语意模糊识别方法,包括以下步骤:通过中文分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取,形成特征词列表;对同一用户的单条请求文本数据及预设时间段内的多条请求文本数据进行分词,得到分词列表;分别对不同领域构建隶属度函数,所述隶属度函数用于对分类失败的请求文本数据进行模糊模式识别;分别计算分类失败的请求文本数据对不同领域的隶属度,根据最大隶属度的原则对分类失败的请求文本数据进行领域分类。本发明针对语义解析失败的用户请求文本数据,通过最大隶属度原则对分类失败的请求文本数据进行模糊模式识别,从而进行领域分类,提高分类准确率,进而提高语义解析的准确率。
技术领域
本发明涉及计算机自然语言处理技术领域,特别是一种基于用户真实意图的语意模糊识别方法。
背景技术
随着信息技术的发展与人工智能概念的普及,越来越多的客户服务正朝着智能化的方向发展,人们可以通过简单的语音输入与智能设备进行人机交互。自然语言处理是计算机科学领域和人工智能领域中的一个重要方向,通过研究自然语言处理、语音语义识别及相关技术可以帮助人们更加方便有效地与智能设备进行交互,进而实现自己的真实意图。在语音人机交互的过程中,常见的方法是先将用户的语音信息转换为请求文本数据,然后对请求文本数据进行语义分析来理解用户的真实意图,然后将用户真实意图对应的内容传给终端设备进行后续处理。
目前语义识别存在的主要问题,一方面是由于用户说话语速快慢、声调高低、方言口音等问题引起的语音信号错误,导致请求文本数据失真,因此无法进行后续处理;另一方面,对语义的分析仅针对一条独立的语句,没有考虑情景的上文,缺少对用户真实意图的理解。由于上述缺陷,现阶段语义识别存在大量语义解析失败的请求文本,这些文本数据长度短、混淆性高、特征不明显、识别率低。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种基于用户真实意图的语意模糊识别方法,本发明针对语义解析失败的用户请求文本数据,根据已有的分类正确的历史数据进行特征提取,通过中文分词与词频矩阵,结合最大隶属度原则对解析失败的请求文本数据进行模糊模式识别,进而提高分类准确率。
为实现上述目的,本发明采用的技术方案是:一种基于用户真实意图的语意模糊识别方法,包括以下步骤:
步骤S10、通过中文分词工具及词频矩阵对大量领域分类正确的历史数据进行特征提取,形成特征词列表;
步骤S20、对同一用户的单条请求文本数据及预设时间段内的多条请求文本数据进行分词,得到分词列表;
步骤S30、分别对不同领域构建隶属度函数,所述隶属度函数用于对分类失败的请求文本数据进行模糊模式识别;
步骤S40、分别计算分类失败的请求文本数据对不同领域的隶属度,根据最大隶属度的原则对分类失败的请求文本数据进行领域分类。
作为一种优选的实施方式,所述步骤S10具体包括:
步骤S11、收集项目日志数据中语义解析成功且分类正确的请求文本数据,将该请求文本数据分为n个不同的领域,并以集合的形式记为D={d1,d2,…,dn},其中di(1≤i≤n)代表第i个领域;
步骤S12、通过中文分词工具和词频矩阵分别对领域集合D中的每一个领域di进行特征词提取,得到代表每一个领域di的特征词列表feature(di)=[fdi1,fdi1,…,fdim]。
作为另一种优选的实施方式,所述步骤S20具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910053862.3/2.html,转载请声明来源钻瓜专利网。