[发明专利]文本标签的确定方法及装置有效
申请号: | 201611216674.0 | 申请日: | 2016-12-26 |
公开(公告)号: | CN106611052B | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李玉信 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F17/27 |
代理公司: | 11348 北京鼎佳达知识产权代理事务所(普通合伙) | 代理人: | 刘喆;刘铁生<国际申请>=<国际公布>= |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 确定 方法 装置 | ||
本发明公开了一种文本标签的确定方法及装置,涉及自然语言处理技术领域,解决了文本标签不规范影响模型准确性的问题。本发明的方法包括:将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型;根据词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组;为每个标签组分配一个聚类词,确定聚类词与标签词的对应关系;根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。本发明应用于文本分析处理的过程中。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本标签的确定方法及装置。
背景技术
在自然语言处理过程中,在对语料库中的文本进行分析时,使用到的一些监督学习算法需要带有标签的文本作为训练模型的训练语料库,而文本对应的标签的规范性决定训练出来模型的准确性。目前语料库通常是从互联网上爬取的文本组成的,但是从互联网上获取到的语料库中文本的标签多而杂,没有规范化的标签。比如同一个语义的标签有多种表现形式,比如谷歌、Google;父亲、爸爸、爹、father等,因此根据获取到的不规范的标签进行模型的训练通常会影响模型的准确性。
发明内容
鉴于上述问题,本发明提供一种文本标签的确定方法及装置,用以解决现有的文本标签不规范影响模型准确性的问题。
为解决上述技术问题,第一方面,本发明提供了一种文本标签的确定方法,所述方法包括:
将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型,所述词向量训练模型为将词转换为词向量的模型;
根据所述词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;
根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组,每个标签组对应一类标签词向量;
为每个标签组分配一个聚类词,确定聚类词与所述标签词的对应关系;
根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。
可选的,所述预设聚类算法为K均值K-means聚类算法,所述根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组包括:
从所有标签词向量中随机选择预设数量的标签词向量确定为第一聚类质心向量,每个第一聚类质心向量对应一个第一标签组;
将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组;
计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量;
计算所有标签词向量分别与对应的第一聚类质心向量的第一距离总和以及与对应的第二聚类质心向量的第二距离总和;
若所述第二距离总和与第一距离总和的差值小于等于预设阈值,则将多个第一标签组确定为聚类后的多个标签组。
可选的,所述方法还包括:
若所述第二距离总和与第一距离总和的差值大于预设阈值,则以第二聚类质心向量作为新的第一聚类质心向量从执行将标签词向量归类到与标签词向量距离最近的第一聚类质心向量对应的第一标签组中,得到多个第一标签组开始,继续执行后续步骤,直至确定聚类后的多个标签组为止。
可选的,在计算每个第一标签组中包含的所有标签词向量的均值向量,得到第二聚类质心向量之后,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611216674.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:增加歇后语属性键的人机对话平台
- 下一篇:一种数据清理、索引方法