[发明专利]词语的聚类划分方法和装置、设备以及存储介质有效
申请号: | 201811162529.8 | 申请日: | 2018-09-30 |
公开(公告)号: | CN110968690B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 周旭辉 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 划分 方法 装置 设备 以及 存储 介质 | ||
1.一种词语的聚类划分方法,其特征在于,包括:
根据样本文本中词语之间的关系确定各个词语的词语向量;
根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果,其中,所述层级聚类划分结果包括至少两层聚类结果,每层聚类结果对所有词语采用对应的聚类尺度进行聚类,各层聚类结果对应的聚类尺度不同;
根据对验证文本进行分词处理得到的分词序列,以及所述层级聚类划分结果,获取所述验证文本对应的层级特征;
将所述层级特征输入聚类结果验证模型,获取所述验证文本的分类结果;
根据所述分类结果以及所述验证文本的属性,确定所述层级聚类划分结果的准确性;
所述根据设定范围内的各词语的所述词语向量确定各词语的层级聚类划分结果包括:
根据由设定范围内的各词语的所述词语向量所确定词语间的向量距离,以及当前层的词语聚合度阈值,将所述设定范围内的各词语划分为多个聚类词包,其中,所述多个聚类词包为所述各词语的层级聚类划分结果中的第一层聚类划分结果;
更新下一层为当前层;
根据上一层聚类划分结果中的各聚类词包间的词包聚合度,以及当前层的词语聚合度阈值,对上一层聚类划分结果中的各聚类词包进行合并,得到当前层的层级聚类划分结果;
返回当前层更新操作,直至上一层聚类划分结果中的任意两个聚类词包间的词语聚合度均大于当前层的词语聚合度阈值时停止聚类。
2.根据权利要求1所述的方法,其特征在于,根据样本文本中词语之间的关系确定各个词语的词语向量包括:
采用关联词语集合对自编码器进行训练,其中,每个关联词语集合包括至少三个词语,其中一个词语作为自编码器的编码输出,其他词语作为自编码器的编码输入;
根据训练完成的自编码器,确定关联词语集合中每个词语的词语向量。
3.根据权利要求2所述的方法,其特征在于,根据训练完成的自编码器,确定关联词语集合中每个词语的词语向量包括:
将所述关联词语集合中的每个不同的词语同时作为所述自编码器的一个编码输入和编码输出,以提取所述自编码器的隐层中所有神经元的当前数值,作为该词语的词语向量。
4.根据权利要求2或3所述的方法,其特征在于,采用关联词语集合对自编码器进行训练之前,还包括:
将至少两个样本文本进行分词处理得到词语序列;
对各词语序列进行拼接,得到样本词语序列;
从所述样本词语序列中顺序截取设定数量的词语形成所述关联词语集合。
5.根据权利要求4所述的方法,其特征在于,所述从所述样本词语序列中顺序截取设定数量的词语形成所述关联词语集合,包括:
采用设定数量长度的滑窗,按顺序从所述样本词语序列中选取设定数量的词语作为关联词语集合。
6.根据权利要求2或3所述的方法,其特征在于,所述词语的数值为唯一性编码规则确定的数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811162529.8/1.html,转载请声明来源钻瓜专利网。