[发明专利]文本标签的确定方法及装置有效
申请号: | 201611216674.0 | 申请日: | 2016-12-26 |
公开(公告)号: | CN106611052B | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李玉信 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F17/27 |
代理公司: | 11348 北京鼎佳达知识产权代理事务所(普通合伙) | 代理人: | 刘喆;刘铁生<国际申请>=<国际公布>= |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 确定 方法 装置 | ||
1.一种文本标签的确定方法,其特征在于,所述方法包括:
将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型,所述词向量训练模型为将词转换为词向量的模型;
根据所述词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;
根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组,每个标签组对应一类标签词向量;
为每个标签组分配一个聚类词,确定聚类词与所述标签词的对应关系,所述聚类词用来代替对应标签组中所有的标签词;
根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。
2.根据权利要求1所述的方法,其特征在于,所述预设聚类算法为K均值K-means聚类算法,所述根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组包括:
从所有标签词向量中随机选择预设数量的标签词向量确定为第一聚类质心向量,每个第一聚类质心向量对应一个第一标签组;
将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组;
计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
计算所有标签词向量分别与对应的第一聚类质心向量的第一距离总和以及与对应的第二聚类质心向量的第二距离总和;
若所述第二距离总和与第一距离总和的差值小于等于预设阈值,则将多个第一标签组确定为聚类后的多个标签组。
3.根据权利要求2中所述的方法,其特征在于,所述方法还包括:
若所述第二距离总和与第一距离总和的差值大于预设阈值,则以第二聚类质心向量作为新的第一聚类质心向量从执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组开始,继续执行后续步骤,直至确定聚类后的多个标签组为止。
4.根据权利要求2所述的方法,其特征在于,在计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量之后,所述方法还包括:
以第二聚类质心向量作为新的第一聚类质心向量迭代执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组以及计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
当迭代的次数超过预设次数,则将最后一次归类得到的多个第一标签组确定为聚类后的多个标签组。
5.根据权利要求3或4所述的方法,其特征在于,所述为每个标签组分配一个聚类词包括:
计算每个标签组中所有标签词向量的均值向量;
将每个标签组中与对应的均值向量距离最小的标签词向量确定为聚类词向量;
将所述聚类词向量对应的标签词分配给对应标签组,作为对应标签组的聚类词。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在对预设语料库分词前,判断用于分词的分词器对应的预设词典中是否包含预设语料库中所有的标签词;
若不包含所有的标签词,则将未包含的标签词添加到预设词典中。
7.一种文本标签的确定装置,其特征在于,所述装置包括:
模型获取单元,用于将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型,所述词向量训练模型为将词转换为词向量的模型;
转换单元,用于根据所述词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;
聚类单元,用于根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组,每个标签组对应一类标签词向量;
分配单元,用于为每个标签组分配一个聚类词,确定聚类词与所述标签词的对应关系,所述聚类词用来代替对应标签组中所有的标签词;
第一确定单元,用于根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611216674.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:增加歇后语属性键的人机对话平台
- 下一篇:一种数据清理、索引方法