[发明专利]一种实体词的标注方法、装置、存储介质及设备在审
申请号: | 201911417133.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111160034A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 李玉信;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵晓荣 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体词 标注 方法 装置 存储 介质 设备 | ||
1.一种实体词的标注方法,其特征在于,包括:
获取待标注的目标实体词;所述目标实体词具有至少三种不同的人工标注结果:第一人工标注结果、第二人工标注结果和第三人工标注结果;
根据所述目标实体词的第一人工标注结果生成第一标注特征;根据所述目标实体词的第二人工标注结果生成第二标注特征;根据所述目标实体词的第三人工标注结果生成第三标注特征;
利用预先构建的实体词标注模型,对所述目标实体词的第一标注特征、所述第二标注特征、所述第三标注特征进行标注,获得所述目标实体词的最终标注结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体词的第一人工标注结果生成第一标注特征,包括:
在所述目标实体词所属的第一目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第一标注特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体词的第二人工标注结果生成第二标注特征,包括:
在所述目标实体词所属的第二目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第二标注特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体词的第三人工标注结果生成第三标注特征,包括:
在所述目标实体词所属的第三目标文本中,选取所述目标实体词之前第一预设个数的词语,以及选取所述目标实体词之后第二预设个数的词语;
对选取出的所有词语进行向量化,获得每一所述选取出的词语的词向量;
将获得的词向量构成一组词向量集合,作为所述目标实体词的第三标注特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
获取所述训练实体词所属的样本文本;所述样本文本中训练实体词具有至少三种人工标注的训练标注结果:第一训练标注结果、第二训练标注结果和第三训练标注结果,其中,所述至少三种人工标注的训练标注结果中至少过半数种类的训练标注结果是相同的;
利用所述训练实体词所属的样本文本,对预先构建的初始实体词标注模型进行训练,得到所述实体词标注模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述样本文本中训练实体词的第一训练标注结果生成第一训练标注特征;根据所述样本文本中训练实体词的第二训练标注结果生成第二训练标注特征;根据所述样本文本中训练实体词的第三训练标注结果生成第三训练标注特征;
根据所述样本文本中训练实体词的第一训练标注特征、第二训练标注特征和第三训练标注特征,构建对应的分类器模型,作为初始实体词标注模型。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取验证实体词所属的验证文本;所述验证文本中验证实体词具有至少三种人工标注的验证标注结果:第一验证标注结果、第二验证标注结果和第三验证标注结果,其中,所述至少三种人工标注的验证标注结果中至少过半数种类的验证标注结果是相同的;
根据所述验证文本中的验证实体词的第一验证标注结果生成第一验证标注特征;根据所述验证文本中的验证实体词的第二验证标注结果生成第二验证标注特征;根据所述验证文本中的验证实体词的第三验证标注结果生成第三验证标注特征;
将所述验证文本中验证实体词的第一验证标注特征、第二验证标注特征以及第三验证标注特征输入所述实体词标注模型,获得所述验证文本中验证实体词的标注结果;
当所述验证文本中验证实体词的标注结果与所述验证文本中验证实体词对应的类别标记结果不一致时,将所述验证实体词所属的验证文本重新作为所述训练实体词所属的样本文本,对所述实体词标注模型进行参数更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911417133.8/1.html,转载请声明来源钻瓜专利网。