[发明专利]包含近似词语的文本的分组方法、装置及介质在审
申请号: | 202011253358.7 | 申请日: | 2020-11-11 |
公开(公告)号: | CN114491009A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 杨诗友 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 张荣海 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 包含 近似 词语 文本 分组 方法 装置 介质 | ||
本公开涉及包含近似词语的文本的分组方法、装置及介质。提供了一种对包含近似词语的多个文本进行分组的方法,包括:对多个文本进行初始分组,包括:计算多个文本中的任意两个文本之间的相似度;将相似度大于第一相似度阈值的文本归类为一个初始分组,形成一个或多个初始分组;在存在多个初始分组的情况下,对多个初始分组进行第一层分组,包括:计算多个初始分组中的任意两个初始分组之间的相似度;对于每个初始分组,找到与该初始分组相似度最高的相似初始分组,如果该初始分组与相似初始分组之间的相似度大于第二相似度阈值,则将该初始分组与相似初始分组归类为一个第一层分组,形成一个或多个第一层分组。
技术领域
本公开总体上涉及包含近似词语的文本的分组方法、装置及介质。
背景技术
随着信息化时代发展越来越迅速,对信息安全的需求也越来越高,而信息安全保护是要建立在对资产分类分级的基础上的,所以对信息的存储、管理及分类分级也就变得尤为重要。尤其是在电信等大规模数据行业,资产梳理也就变得尤为困难。目前许多知识的分类由于缺乏更多信息特征,因而涉及到针对含专有名词的近似短词组或文本进行分类。例如针对不同省份相同或相似系统的分类分级就涉及到需要通过系统名进行分类,系统本身可能存在其他特征信息可以使用,但信息缺失或错误,分类不准,或者简介五花八门都使得针对系统名直接进行分类反而更为高效和精准。
主流自然语言处理方法很难解决短词组的分类问题:目前主流的自然语言处理方法大多需要大量训练样本训练监督学习模型,或者使用语义模型对文本进行向量转换计算两两相似度或对它们进行聚类,它们大多数针对的是信息量较大的文章或者短句,对这些有一定篇幅的文字进行处理后可以对处理后的数据进行特征提取,比如TF-IDF (词频-逆向文件频率)的转换来形成一个多维特征的语义空间,然后在这个空间里可以进行相似度计算或者将这些特征进行聚类以对文章进行聚类,但此类方法对短词组并不适用,短词组本身分词较少,且由于基数较小,干扰词及多义词较多,词频及逆向文件频率等特征无法精准体现词组的核心意义,尤其是若含有专有名词或者分词存在错误,此类方法就很难达到可以使用的准确率
针对短词组的分类方法主要以监督学习为主且需要大量前期资源投入:目前针对缺乏信息量但含专有名词及行业术语的文本或短词组的分类/分组方法相对较少,仅有的几个使用的也都是通过业务逻辑或其他特征归纳(比如词性)或通过训练分类模型的方式对短词组进行硬性归类和打标,这些方法需要获取大量的有标签数据,术语词库,业务专家知识,或者算法专家调参进行训练,且打标不具备灵活性(需要确定固定几个分类),若改变规则重新分类,则需要重新训练(而且有时无法清楚了解到底有几类)。硬性打标的方式也很难保证分类的准确率,若需要检查准确率,则又需要对一个个数据进行检查比对,效率较低。
发明内容
根据本公开的一个方面,提供一种对包含近似词语的多个文本进行分组的方法,包括:对所述多个文本进行初始分组,包括:计算所述多个文本中的任意两个文本之间的相似度;将相似度大于第一相似度阈值的文本归类为一个初始分组,从而形成一个或多个初始分组;在存在多个初始分组的情况下,对所述多个初始分组进行第一层分组,包括:计算所述多个初始分组中的任意两个初始分组之间的相似度;对于每个初始分组,找到与该初始分组相似度最高的相似初始分组,如果该初始分组与所述相似初始分组之间的相似度大于第二相似度阈值,那么将该初始分组与所述相似初始分组归类为一个第一层分组,从而形成一个或多个第一层分组。
根据本公开的另一个方面,提供一种对包含近似词语的多个文本进行分组的装置,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行如上所述的方法。
根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011253358.7/2.html,转载请声明来源钻瓜专利网。