[发明专利]词语的聚类划分方法和装置、设备以及存储介质有效
申请号: | 201811162529.8 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110968690B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 周旭辉 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 划分 方法 装置 设备 以及 存储 介质 | ||
本发明实施例公开了一种词语的聚类划分方法和装置、设备以及存储介质。所述方法包括:根据样本文本中词语之间的关系确定各个词语的词语向量;根据设定范围内的各词语的词语向量确定各词语的层级聚类划分结果,其中,层级聚类划分结果包括至少两层聚类结果,每层聚类结果对所有词语采用对应的聚类尺度进行聚类,各层聚类结果对应的聚类尺度不同。本发明实施例的技术方案解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷,实现了在引用人类知识的同时,可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。
技术领域
本发明实施例涉及词语划分技术领域,尤其涉及一种词语的聚类划分方法和装置、设备以及存储介质。
背景技术
一般来说,许多模型的训练样本使用的都是具有不同属性的很多组词语,那么,该具有不同属性的很多组词语的划分准确度对模型的训练结果的好坏有着决定性的影响。
现有技术中的词语分类方法,一种是通过人工分析样本,然后将人类知识融入到计算方法中提取特征,最后分析相关性并引入模型训练查看是否分类结果的有效性;另外一种是根据Ngram方法进行词语分类。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:通过人工分析方样本的方法费时费力,同时极度依赖开发人员的知识,不能大规模推广;由于Ngram方法在3阶以上算法开销指数级增长。
发明内容
有鉴于此,本发明实施例提供了一种词语的聚类划分方法和装置、设备以及存储介质,以优化现有的词语分类方法,实现了省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。
在第一方面,本发明实施例提供了一种词语的聚类划分方法,包括:
根据样本文本中词语之间的关系确定各个词语的词语向量;
根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果,其中,所述层级聚类划分结果包括至少两层聚类结果,每层聚类结果对所有词语采用对应的聚类尺度进行聚类,各层聚类结果对应的聚类尺度不同。
在第二方面,本发明实施例提供了一种词语的聚类划分装置,包括:
词语向量确定模块,用于根据样本文本中词语之间的关系确定各个词语的词语向量;
层级聚类划分模块,用于根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果,其中,所述层级聚类划分结果包括至少两层聚类结果,每层聚类结果对所有词语采用对应的聚类尺度进行聚类,各层聚类结果对应的聚类尺度不同。
在第三方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的方法。
在第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的方法。
本发明实施例提供了一种词语的聚类划分方法和装置、设备以及存储介质,依据根据词语关系所确定的词语向量,将词语集合以不同的聚类尺度进行至少两个层级的整体划分,解决了现有技术中词语分类划分费时费力、计算量大的技术缺陷,实现了在引用人类知识的同时,可以省时省力、准确、有效且小计算量地对词语集合进行不同聚合度的划分。
附图说明
图1是本发明实施例一提供的一种词语的聚类划分方法的流程图;
图2是本发明实施例二提供的一种词语的聚类划分方法的流程图;
图3是本发明实施例三提供的一种词语的聚类划分方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811162529.8/2.html,转载请声明来源钻瓜专利网。