[发明专利]一种确定相似语句的方法、装置及电子设备在审
申请号: | 202111160667.4 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113869061A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 王斌斌;肖冰 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33;G06F16/35 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱琳爱义 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 相似 语句 方法 装置 电子设备 | ||
一种确定相似语句的方法、装置及电子设备,该方法包括:在接收到用户端输入的第一语句时,将所述第一语句放入包含意图识别文本的初始文本库中进行匹配,获得所述第一语句的N个相似语句,计算N个相似语句中每个相似语句与所述第一语句的相似度值,按照相似度值由大到小的规律对相似语句进行排序,并将排序后的相似语句返回至用户端。通过上述的方法,将意图识别文本中的语句作上标记并进行分类,将意图识别文本中的语句转化为向量,在语句匹配阶段,通过意图识别模型快速定位到语句的类别,从而避免了对全部语句进行检索造成匹配时间长的问题以及返回至用户端的相似语句不符合用户意图的问题,提高了返回至用户端的相似语句的准确度。
技术领域
本申请涉及数据处理领域,尤其涉及一种确定相似语句的方法、装置及电子设备。
背景技术
对于当前的一些问答系统以及检索系统,本质都是在计算用户端输入问句与系统存储的多个问句之间的相近程度。如果用户端输入问句和系统存储的某个问句很相似,系统则直接返回该问句对应的答案至用户端。
目前的匹配模型使用了较为粗糙的字面匹配模型,当用户端输入一个问句,现有的匹配模型首先会对这个问句进行分词,得到该问句的分词序列,再将分词序列中所有的词语作为关键词,去知识库里查找包含这些关键词的所有问句,知识库中包括系统存储的问题与答案,将其作为结果返回给系统,没有考虑用户端输入问句的意图,因此该结果与用户端输入问句的期望结果有较大差异,导致返回的问答结果不准确,从而影响用户的体验。
发明内容
本申请提供了一种确定相似语句的方法、装置及电子设备,通过对相似语句进行意图分类,将意图识别文本中的相似语句转化为向量,在进行相似语句的匹配时,通过意图识别文本快速定位到输入语句的相似语句,保证匹配到的相似语句是符合用户意图的语句,减少了大量与用户意图不符合的相似语句,提高了返回至用户端的相似语句的准确度。
第一方面,本申请提供了一种确定相似语句的方法,所述方法包括:
在接收到用户端输入的第一语句时,将所述第一语句放入包含意图识别文本的初始文本库中进行匹配,获得所述第一语句的N个相似语句,其中,N为正整数;
计算N个相似语句中每个相似语句与所述第一语句的相似度值;
按照相似度值由大到小的规律对相似语句进行排序,并将排序后的相似语句返回至用户端。
在一种可能的设计中,将所述第一语句放入包含意图识别文本的初始文本库中进行匹配,包括:
将标准语句库中的每个语句添加标签以及将标准语句库中的每个语句转化为特征向量,其中,标签包含关键字标签和/或关键词标签,标准语句库为去除标点符号以及未识别字符的语句;
在所述标准语句库中将特征向量对应的语句按照预设规则进行分类,将分类后的语句作为所述意图识别文本;
将所述第一语句放入包含意图识别文本的初始文本库中进行匹配。
在一种可能的设计中,将标准语句库中的每个语句转化为特征向量,包括:
获取每个语句的关键词和/或关键字标签,根据所述语句的关键字和/或关键词标签的所属类型生成类型名称集;
提取标准语句库中每个语句的关键字和/或关键词所属类型的类型名称,将所述类型名称与所有类型名称集进行匹配并将匹配结果转化为第一向量,以及将标准语句库中的每个语句转化为第二向量;
将第一向量以及第二向量进行组合得到特征向量。
在一种可能的设计中,将标准语句库中的每个语句转化为第二向量,包括:
去除每个语句的标签中的部分标签,获得纯文本语句;
将纯文本语句转化为预设维数的第二向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111160667.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:挂纱机械手
- 下一篇:一种酱腌菜智能数控脱水压榨设备