[发明专利]一种确定新词的方法、装置,计算机设备和介质有效
申请号: | 202011211560.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112329443B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 张涛;黄少波;曾增烽 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 新词 方法 装置 计算机 设备 介质 | ||
本申请实施例属于数据分析技术领域,涉及一种确定新词的方法,包括:获取目标文本数据;利用N‑gram算法对目标文本数据进行切分处理,得到多个词片段;统计字符长度大于1的每个词片段在目标文本数据中出现的次数,确定每个词片段在多个词片段中出现的第一概率;利用EM算法对第一概率进行更新,确定每个词片段对应的第二概率;根据第二概率和预设的互信息计算公式,计算每个词片段的互信息;根据第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式,分别计算每个词片段的左邻接熵和右邻接熵;将互信息、左邻接熵和右邻接熵输入预设的新词评价算法,根据输出结果确定每个词片段是否为新词。本申请还涉及区块链技术,以使新词存储于区块链中。
技术领域
本申请涉及数据分析技术领域,尤其涉及一种确定新词的方法、装置,计算机设备和介质。
背景技术
随着互联网技术的不断发展,每天都有大量的信息从互联网当中产生。大量的新事件、新热点、新闻资讯丰富着互联网世界。随之而来的是大量的新词也在这个过程当中产生。这些新词不在已有的词库当中,也被称为未登录词。这些未登录词在实际业务当中会产生一定的负面影响,表现在切词、词的识别等实际的业务场景当中。基于此问题,一种优秀的新词发现算法具有较大的实际应用价值和业务需求。
基于统计的无监督新词发现方法是一种较为常见的新词发现方法,其在预处理时采用N-gram算法对于原始语料的文本进行切分,生成并计算不同词片段的频率。之后,采用互信息、邻接熵等方式进行新词发现。其基本思想为,例如“创可贴”出现的频率远大于“创”、“可”、“贴”随机组合出现在一起的概率,于是我们可以知道“创可贴”大概率为一个独立词。但从实际结果来看,依然还存在一些问题,主要表现为N-gram在切分当中产生大量的无意义词片段。例如对于文本当中出现的“创可贴”一词,在2-gram切分得到了“创可”、“可贴”,出现的频率与“创可贴”频率相近,但我们知道“创可”不能作为一个独立词,其对应的频率应该得到修正,应远小于“创可贴”。
由上可见,目前基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况,而导致的难以后续区分新词的缺陷。
发明内容
本申请实施例的目的在于提出一种确定新词的方法、用以解决现有技术中基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况,而导致的难以后续区分新词的缺陷。
为了解决上述技术问题,本申请实施例提供一种确定新词的方法、识别设备、计算机设备和计算机可读存储介质,采用了如下该的技术方案:
第一方面,本申请实施例提供了一种确定新词的方法,可以包括:
获取目标文本数据;
利用N-gram算法对该目标文本数据进行切分处理,得到多个词片段;
统计字符长度大于1的每个词片段在该目标文本数据中出现的次数,确定该每个词片段在该多个词片段中出现的第一概率;
利用EM算法对该第一概率进行更新,确定该每个词片段对应的第二概率;
根据该第二概率和预设的互信息计算公式,计算该每个词片段的互信息;
根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式,分别计算该每个词片段的左邻接熵和右邻接熵;
将该互信息、该左邻接熵和该右邻接熵输入预设的新词评价算法,根据输出结果确定该每个词片段是否为新词。
在一些可能的实现方式中,该利用EM算法对该第一概率进行更新,确定该每个词片段对应的第二概率,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211560.3/2.html,转载请声明来源钻瓜专利网。