[发明专利]一种确定新词的方法、装置,计算机设备和介质有效

专利信息
申请号: 202011211560.3 申请日: 2020-11-03
公开(公告)号: CN112329443B 公开(公告)日: 2023-07-21
发明(设计)人: 张涛;黄少波;曾增烽 申请(专利权)人: 中国平安人寿保险股份有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/284
代理公司: 深圳市世联合知识产权代理有限公司 44385 代理人: 汪琳琳
地址: 518000 广东省深圳市福田区益田路5033号*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 确定 新词 方法 装置 计算机 设备 介质
【说明书】:

本申请实施例属于数据分析技术领域,涉及一种确定新词的方法,包括:获取目标文本数据;利用N‑gram算法对目标文本数据进行切分处理,得到多个词片段;统计字符长度大于1的每个词片段在目标文本数据中出现的次数,确定每个词片段在多个词片段中出现的第一概率;利用EM算法对第一概率进行更新,确定每个词片段对应的第二概率;根据第二概率和预设的互信息计算公式,计算每个词片段的互信息;根据第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式,分别计算每个词片段的左邻接熵和右邻接熵;将互信息、左邻接熵和右邻接熵输入预设的新词评价算法,根据输出结果确定每个词片段是否为新词。本申请还涉及区块链技术,以使新词存储于区块链中。

技术领域

本申请涉及数据分析技术领域,尤其涉及一种确定新词的方法、装置,计算机设备和介质。

背景技术

随着互联网技术的不断发展,每天都有大量的信息从互联网当中产生。大量的新事件、新热点、新闻资讯丰富着互联网世界。随之而来的是大量的新词也在这个过程当中产生。这些新词不在已有的词库当中,也被称为未登录词。这些未登录词在实际业务当中会产生一定的负面影响,表现在切词、词的识别等实际的业务场景当中。基于此问题,一种优秀的新词发现算法具有较大的实际应用价值和业务需求。

基于统计的无监督新词发现方法是一种较为常见的新词发现方法,其在预处理时采用N-gram算法对于原始语料的文本进行切分,生成并计算不同词片段的频率。之后,采用互信息、邻接熵等方式进行新词发现。其基本思想为,例如“创可贴”出现的频率远大于“创”、“可”、“贴”随机组合出现在一起的概率,于是我们可以知道“创可贴”大概率为一个独立词。但从实际结果来看,依然还存在一些问题,主要表现为N-gram在切分当中产生大量的无意义词片段。例如对于文本当中出现的“创可贴”一词,在2-gram切分得到了“创可”、“可贴”,出现的频率与“创可贴”频率相近,但我们知道“创可”不能作为一个独立词,其对应的频率应该得到修正,应远小于“创可贴”。

由上可见,目前基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况,而导致的难以后续区分新词的缺陷。

发明内容

本申请实施例的目的在于提出一种确定新词的方法、用以解决现有技术中基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况,而导致的难以后续区分新词的缺陷。

为了解决上述技术问题,本申请实施例提供一种确定新词的方法、识别设备、计算机设备和计算机可读存储介质,采用了如下该的技术方案:

第一方面,本申请实施例提供了一种确定新词的方法,可以包括:

获取目标文本数据;

利用N-gram算法对该目标文本数据进行切分处理,得到多个词片段;

统计字符长度大于1的每个词片段在该目标文本数据中出现的次数,确定该每个词片段在该多个词片段中出现的第一概率;

利用EM算法对该第一概率进行更新,确定该每个词片段对应的第二概率;

根据该第二概率和预设的互信息计算公式,计算该每个词片段的互信息;

根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式,分别计算该每个词片段的左邻接熵和右邻接熵;

将该互信息、该左邻接熵和该右邻接熵输入预设的新词评价算法,根据输出结果确定该每个词片段是否为新词。

在一些可能的实现方式中,该利用EM算法对该第一概率进行更新,确定该每个词片段对应的第二概率,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011211560.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top