[发明专利]一种基于回译的文本三元组标注样本增强方法有效
申请号: | 202011207598.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112380864B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 范祚军;杨禄海;夏文祥;何欢;陈瑶雯 | 申请(专利权)人: | 广西大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06F40/211;G06F16/33;G06K9/62 |
代理公司: | 广东慧图知识产权代理事务所(普通合伙) 44741 | 代理人: | 余俊磊 |
地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于回译的文本三元组标注样本增强方法,包括以下步骤,为标注三元组添加实体类型,根据标注实体和回译中间语言对原文本进行预处理,将预处理后的三元组标注样本按字串长度限制,通过分隔符组成一个预处理批次;根据原始文本中三元组各命名实体的标识标签,将回译后多样化的命名实体及其添加的标识标签,还原成原命名实体或替换为其他同类型命名实体;同时,也将回译后句子和三元组标注的对应部分做相同操作,以得到增强样本;通过对比增强样本和原始文本中句子的相似度,按阈值过滤掉相似句子,保留句子的多样性。 | ||
搜索关键词: | 一种 基于 文本 三元 标注 样本 增强 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011207598.3/,转载请声明来源钻瓜专利网。