[发明专利]基于词标签的词语标注方法、装置、服务器及存储介质有效
申请号: | 201710581312.X | 申请日: | 2017-07-17 |
公开(公告)号: | CN107480200B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 梁予之;曲强 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/332 |
代理公司: | 深圳智趣知识产权代理事务所(普通合伙) 44486 | 代理人: | 王策 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 词语 标注 方法 装置 服务器 存储 介质 | ||
1.一种基于词标签的词语标注方法,其特征在于,所述方法包括下述步骤:
在输入的文本文档中查找待标注词语;
通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;
将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注;
在输入的文本文档中查找待标注词语的步骤之前,所述方法还包括:
在预先构建的训练数据集中查找样本词语;
在预设的词条注释库中查询所述样本词语的注释,提取所述注释的关键词,将在所述已知词库中出现过的所述关键词设置为所述样本词语的标签词;
分别计算所述样本词语与所述已知词库中每个已知词的关系特征,根据所述关系特征和所述样本词语的标签词,训练得到所述词语分类器;
在预设的词条注释库中查询所述样本词语的注释,提取所述注释的关键词,将在所述已知词库中出现过的所述关键词设置为所述样本词语的标签词的步骤,包括:
在所述词条注释库中查询所述样本词语的注释,对所述注释进行分词处理和词性标注,在所述词性标注后的所述注释中提取候选标签词;
根据所述注释的每部分内容对应的自定义权重、在所述注释的每部分内容中所述候选标签词出现的频率,计算所述候选标签词对应的百科词频;
根据所述已知词库计算所述候选标签词对应的逆向档案频率,根据所述候选标签词对应的所述百科词频、所述逆向档案频率,计算所述候选标签词的关键词分数;
当所述候选标签词的关键词分数超过预设分数阈值时,将所述候选标签词设置为所述样本词语的标签词;
根据所述注释的每部分内容对应的自定义权重、在所述注释的每部分内容中所述候选标签词出现的频率,计算所述候选标签词对应的百科词频的步骤,包括:
根据所述注释中每部分内容的自定义权重,对所述注释的每部分内容的权重进行重新定义,对所述注释的第j部分内容的权重进行重新定义的公式为:
其中,所述βj为所述注释中第j部分内容的自定义权重,所述pj为所述第j部分内容,所述为所述注释,所述αj为对所述第j部分内容的权重进行重新定义后得到的值;
根据所述注释中每部分内容重新定义后的权重、所述注释的每部分内容中所述候选标签词出现的频率,计算所述候选标签词对应的百科词频,计算公式为:
其中,所述为所述第i个候选标签词wi的百科词频,所述wk为所述第k个候选标签词,所述f(wi,pj)和所述f(wk,pj)分别为在所述第j部分内容pj中所述第i个、第k个候选标签词出现的频率,所述Φ为所述候选标签词的集合,所述A为所述注释所有部分内容的权重集合。
2.如权利要求1所述的方法,其特征在于,分别计算所述样本词语与所述已知词库中每个已知词的关系特征的步骤,包括:
分别将所述样本词语、所述已知词库中每个已知词转换为对应的词向量;
根据所述样本词语的词向量和所述已知词的词向量,计算所述样本词语与所述每个已知词的词距离和词余弦相似度,计算所述样本词语和所述已知词在所述训练数据集中的词同时出现频率;
将所述词距离、所述词余弦相似度以及所述词同时出现频率组合为所述样本词语和所述已知词的关系特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710581312.X/1.html,转载请声明来源钻瓜专利网。