[发明专利]文本标签的确定方法及装置有效
申请号: | 201611216674.0 | 申请日: | 2016-12-26 |
公开(公告)号: | CN106611052B | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李玉信 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F17/27 |
代理公司: | 11348 北京鼎佳达知识产权代理事务所(普通合伙) | 代理人: | 刘喆;刘铁生<国际申请>=<国际公布>= |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本标签的确定方法及装置,涉及自然语言处理技术领域,解决了文本标签不规范影响模型准确性的问题。本发明的方法包括:将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型;根据词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组;为每个标签组分配一个聚类词,确定聚类词与标签词的对应关系;根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。本发明应用于文本分析处理的过程中。 | ||
搜索关键词: | 文本 标签 确定 方法 装置 | ||
【主权项】:
1.一种文本标签的确定方法,其特征在于,所述方法包括:/n将分词后的预设语料库作为基于语义的词转换向量工具用于训练词向量模型的训练语料库,得到词向量训练模型,所述词向量训练模型为将词转换为词向量的模型;/n根据所述词向量训练模型将语料库中文本对应的标签词转换对应的标签词向量;/n根据预设聚类算法对语料库中所有标签词对应的标签词向量进行聚类,得到多个标签组,每个标签组对应一类标签词向量;/n为每个标签组分配一个聚类词,确定聚类词与所述标签词的对应关系,所述聚类词用来代替对应标签组中所有的标签词;/n根据标签词与聚类词的对应关系,将语料库中每个文本的标签词对应的聚类词确定为对应文本的新的标签词。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611216674.0/,转载请声明来源钻瓜专利网。
- 上一篇:增加歇后语属性键的人机对话平台
- 下一篇:一种数据清理、索引方法