首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]包含近似词语的文本的分组方法、装置及介质在审

申请号：	202011253358.7	申请日：	2020-11-11
公开（公告）号：	CN114491009A	公开（公告）日：	2022-05-13
发明（设计）人：	杨诗友	申请（专利权）人：	中国电信股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F40/289
代理公司：	中国贸促会专利商标事务所有限公司 11038	代理人：	张荣海
地址：	100033 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	包含近似词语文本分组方法装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种对包含近似词语的多个文本进行分组的方法，包括：

对所述多个文本进行初始分组，包括：

计算所述多个文本中的任意两个文本之间的相似度；

将相似度大于第一相似度阈值的文本归类为一个初始分组，从而形成一个或多个初始分组；

在存在多个初始分组的情况下，对所述多个初始分组进行第一层分组，包括：

计算所述多个初始分组中的任意两个初始分组之间的相似度；

对于每个初始分组，找到与该初始分组相似度最高的相似初始分组，如果该初始分组与所述相似初始分组之间的相似度大于第二相似度阈值，那么将该初始分组与所述相似初始分组归类为一个第一层分组，从而形成一个或多个第一层分组。

2.根据权利要求1所述的方法，还包括：

在存在多个较低层分组的情况下，对该多个较低层分组进行后续层分组，包括：

计算所述多个较低层分组中的任意两个较低层分组之间的相似度；

对于每个较低层分组，找到与该较低层分组相似度最高的相似较低层分组，如果该较低层分组与所述相似较低层分组之间的相似度大于对应的相似度阈值，那么将该较低层分组与所述相似较低层分组归类为一个较高层分组，从而形成一个或多个较高层分组；以及

重复进行后续层分组，直到无法继续对较低层分组进行归类，或者已将所有较低层分组归类到同一组。

3.根据权利要求2所述的方法，还包括：

针对每一层分组，按照分组中的成员数量、分组的组号以及相似度高低，以从上级到下级的顺序排序。

4.根据权利要求2所述的方法，其中，较高层的分组步骤中使用的相似度阈值小于较低层的分组步骤中使用的相似度阈值。

5.根据权利要求1所述的方法，其中，通过将每个文本转换成向量，并利用向量来计算两个文本之间的相似度。

6.根据权利要求2所述的方法，其中，对于每一层中的每个分组，通过生成分组中的各分组成员的组代表分词，将组代表分词转换成向量，并利用向量来计算每一层中的两个分组之间的相似度。

7.根据权利要求2所述的方法，其中，将每一层中的一个分组中的各成员与另一分组中的各成员之间的相似度的中位值或平均值，作为这两个分组之间的相似度。

8.根据权利要求1所述的方法，还包括：

在进行所述初始分组之前，对每个文本进行关键词提取处理，从而获得与所述多个文本分别对应的多个词组，以及

基于所述多个词组计算所述多个文本中的任意两个文本之间的相似度。

9.根据权利要求8所述的方法，对每个文本进行关键词提取处理包括：

去除停用词或高频词，以及增加所获得的关键词的关联词或将所获得的关键词替换为关联词。

10.一种对包含近似词语的多个文本进行分组的装置，包括：

存储器，其上存储有指令；以及

处理器，被配置为执行存储在所述存储器上的指令，以执行以根据权利要求1至9中的任一项所述的方法。

11.一种计算机可读存储介质，包括计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1至9中的任意一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司，未经中国电信股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011253358.7/1.html，转载请声明来源钻瓜专利网。

上一篇：电子卡号码资源回收方法、装置和系统、存储介质
下一篇：一种基于分组模式的预防性维修工单批量触发方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top