[发明专利]一种确定新词的方法、装置，计算机设备和介质有效

申请号：	202011211560.3	申请日：	2020-11-03
公开（公告）号：	CN112329443B	公开（公告）日：	2023-07-21
发明（设计）人：	张涛;黄少波;曾增烽	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/284
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	汪琳琳
地址：	518000 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种确定新词方法装置计算机设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例属于数据分析技术领域，涉及一种确定新词的方法，包括：获取目标文本数据；利用N‑gram算法对目标文本数据进行切分处理，得到多个词片段；统计字符长度大于1的每个词片段在目标文本数据中出现的次数，确定每个词片段在多个词片段中出现的第一概率；利用EM算法对第一概率进行更新，确定每个词片段对应的第二概率；根据第二概率和预设的互信息计算公式，计算每个词片段的互信息；根据第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算每个词片段的左邻接熵和右邻接熵；将互信息、左邻接熵和右邻接熵输入预设的新词评价算法，根据输出结果确定每个词片段是否为新词。本申请还涉及区块链技术，以使新词存储于区块链中。

技术领域

本申请涉及数据分析技术领域，尤其涉及一种确定新词的方法、装置，计算机设备和介质。

背景技术

随着互联网技术的不断发展，每天都有大量的信息从互联网当中产生。大量的新事件、新热点、新闻资讯丰富着互联网世界。随之而来的是大量的新词也在这个过程当中产生。这些新词不在已有的词库当中，也被称为未登录词。这些未登录词在实际业务当中会产生一定的负面影响，表现在切词、词的识别等实际的业务场景当中。基于此问题，一种优秀的新词发现算法具有较大的实际应用价值和业务需求。

基于统计的无监督新词发现方法是一种较为常见的新词发现方法，其在预处理时采用N-gram算法对于原始语料的文本进行切分，生成并计算不同词片段的频率。之后，采用互信息、邻接熵等方式进行新词发现。其基本思想为，例如“创可贴”出现的频率远大于“创”、“可”、“贴”随机组合出现在一起的概率，于是我们可以知道“创可贴”大概率为一个独立词。但从实际结果来看，依然还存在一些问题，主要表现为N-gram在切分当中产生大量的无意义词片段。例如对于文本当中出现的“创可贴”一词，在2-gram切分得到了“创可”、“可贴”，出现的频率与“创可贴”频率相近，但我们知道“创可”不能作为一个独立词，其对应的频率应该得到修正，应远小于“创可贴”。

由上可见，目前基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况，而导致的难以后续区分新词的缺陷。

发明内容

本申请实施例的目的在于提出一种确定新词的方法、用以解决现有技术中基于统计的无监督新词发现方法存在由于N-gram算法生成的词片段中包含无意义词片段的情况，而导致的难以后续区分新词的缺陷。

为了解决上述技术问题，本申请实施例提供一种确定新词的方法、识别设备、计算机设备和计算机可读存储介质，采用了如下该的技术方案：

第一方面，本申请实施例提供了一种确定新词的方法，可以包括：

获取目标文本数据；

利用N-gram算法对该目标文本数据进行切分处理，得到多个词片段；

统计字符长度大于1的每个词片段在该目标文本数据中出现的次数，确定该每个词片段在该多个词片段中出现的第一概率；

利用EM算法对该第一概率进行更新，确定该每个词片段对应的第二概率；

根据该第二概率和预设的互信息计算公式，计算该每个词片段的互信息；

根据该第二概率、预设的左邻接熵计算公式和预设的右邻接熵计算公式，分别计算该每个词片段的左邻接熵和右邻接熵；

将该互信息、该左邻接熵和该右邻接熵输入预设的新词评价算法，根据输出结果确定该每个词片段是否为新词。