[发明专利]一种基于短会话的新词发现方法、存储介质和电子装置在审
申请号: | 201911268368.5 | 申请日: | 2019-12-11 |
公开(公告)号: | CN111125327A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 杨雷;李昱;王全礼;张晨;唐汇 | 申请(专利权)人: | 中国建设银行股份有限公司;建信金融科技有限责任公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/242;G06F40/289;B25J11/00 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 张峰 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 会话 新词 发现 方法 存储 介质 电子 装置 | ||
1.一种基于短会话的新词发现方法,其特征在于:
获取会话内容;
分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;
候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;
成词指标计算,计算所述候选词汇的互信息值和左右熵值;
候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;
输出新词,对所述候选新词按照词频排序,输出预定数量的新词。
2.根据权利要求1所述的新词发现方法,其特征在于:所述目标词汇包括:一元词汇、二元词汇或者三元词汇,所述一元词汇为能单独成词且具有业务含义的基础单一词汇;所述二元词汇为由两个所述一元词汇组成的具有业务含义的词汇;所述三元词汇为一个所述一元词汇和一个所述二元词汇或者三个所述一元词汇组成具有业务含义的词汇。
3.根据权利要求1所述的新词发现方法,其特征在于:目标词汇的属性包括词名称、左邻词汇集或右邻词汇集。
4.根据权利要求1所述的新词发现方法,其特征在于:所述候选词汇的互信息值计算方式为:
其中Mi(x,y)为词汇x和词汇y的互信息值,x,y指两个相邻的词汇,P(x,y)代表词汇x和词汇y同时出现的概率,P(x)代表词汇x出现的概率,P(y)代表词汇y出现的概率;
所述候选词汇的左右熵值计算方式为:
其中El(w)为词汇w的左熵值,P(aw|w)为词汇a和词汇w组合的词汇aw出现频率与w的总出现频率的比值,a为词汇w左相邻词汇,Er(w)为词汇w的右熵值,P(wb|w)为词汇b和词汇w组合的词汇wb出现频率与w的总出现频率的比值,b为词汇w右相邻词汇。
5.根据权利要求1所述的新词发现方法,其特征在于:筛选所述候选新词还需要满足预设词频。
6.根据权利要求1至5任一项所述的新词发现方法,其特征在于:在分词处理之前还包括会话内容过滤,滤除包含小于预定长度、特殊字符或者数字的会话内容。
7.根据权利要求1至5任一项所述的新词发现方法,其特征在于:在分词处理后,滤除分词结果中的动名词、副词、语气词或属于预设业务词汇库中的词。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
9.一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于短会话的新词发现程序,该程序被所述处理器执行时实现如下步骤:
获取会话内容;
分词处理,对所述获取的会话内容进行分词,对分词结果进行处理得到具有业务含义的目标词汇,所述目标词汇由基础单一词汇独立或组合形成;
候选词汇筛选,获取所述目标词汇的属性和词频,根据所述目标词汇的属性和词频将符合预定条件的目标词汇作为候选词汇;
成词指标计算,计算所述候选词汇的互信息值和左右熵值;
候选新词筛选,将满足预设互信息阈值和左右熵阈值的候选词汇作为候选新词;
输出新词,对所述候选新词按照词频排序,输出预定数量的新词。
10.根据权利要求9所述的电子装置,其特征在于:在分词处理之前还包括会话内容过滤,滤除包含小于预定长度、特殊字符或者数字的会话内容;在分词处理后,滤除分词结果中的属于预设业务词汇库中的词、动名词、名词、副词或语气词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司;建信金融科技有限责任公司,未经中国建设银行股份有限公司;建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911268368.5/1.html,转载请声明来源钻瓜专利网。