[发明专利]一种基于短会话的新词发现方法、存储介质和电子装置在审
申请号: | 201911268368.5 | 申请日: | 2019-12-11 |
公开(公告)号: | CN111125327A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 杨雷;李昱;王全礼;张晨;唐汇 | 申请(专利权)人: | 中国建设银行股份有限公司;建信金融科技有限责任公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/242;G06F40/289;B25J11/00 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 张峰 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 会话 新词 发现 方法 存储 介质 电子 装置 | ||
本发明公开一种基于短会话的新词发现方法,获取会话内容;分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;成词指标计算,计算所述候选词汇的互信息值和左右熵值;候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;输出新词,对所述候选新词按照词频排序,输出预定数量的新词。结合多重阈值筛选策略进行新词发现,覆盖了单一成词和组合成词的范围,提高了新词发现的可能性。
技术领域
本发明涉及人工智能领域,尤其是涉及一种基于短会话的新词发现方法、存储介质和电子装置。
背景技术
特定领域内的客服机器人使用场景中,例如购物、理财、政务等,客户会话内容通常具有简短、相似性高、干扰信息多、有一定的节奏性等特点。通过对这些短会话分析,及时准确发现新的业务词汇,能高效收集业务素材,有效促进问答知识库相关内容完善,更精准理解用户意图,提升客服机器人服务水平和交互体验。
中国专利CN106126606A公开了一种短文本新词发现方法,从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。
上述专利公开的技术方案主要针对文本中字符串做处理,具有一定的盲目性,对于大部分由组合词形成的新词不能做到很好的针对性。基于当前智能学习的深入和客服机器人自主学习要求的提高,亟待一种能够针对组合词形成的新业务词汇进行精准识别和发现的方法。
发明内容
为了改善相关技术中的不足,本发明致力于提供一种基于短会话的新词发现方法,包括以下内容,
获取会话内容;
分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;
候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;
成词指标计算,计算所述候选词汇的互信息值和左右熵值;
候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;
输出新词,对所述候选新词按照词频排序,输出预定数量的新词。
进一步的,所述目标词汇包括:一元词汇、二元词汇或者三元词汇,所述一元词汇为能单独成词且具有业务含义的基础单一词汇;所述二元词汇为由两个所述一元词汇组成的具有业务含义的词汇;所述三元词汇为一个所述一元词汇和一个所述二元词汇或者三个所述一元词汇组成具有业务含义的词汇。
进一步的,目标词汇的属性包括词名称、左邻词汇集或右邻词汇集。
进一步的,所述候选词汇的互信息值计算方式为:
其中Mi(x,y)为词汇x和词汇y的互信息值,x,y指两个相邻的目标词汇,P(x,y)代表词汇x和词汇y同时出现的概率,P(x)代表词汇x出现的概率,P(y)代表词汇y出现的概率;
所述候选词汇的左右熵值计算方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司;建信金融科技有限责任公司,未经中国建设银行股份有限公司;建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911268368.5/2.html,转载请声明来源钻瓜专利网。