[发明专利]一种跨语种实体标注方法、装置、设备及存储介质在审
申请号: | 202011487631.2 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112507718A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 苏志铭;刘权;严涵;陈志刚 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张柳 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 实体 标注 方法 装置 设备 存储 介质 | ||
本申请提供了一种跨语种实体标注方法、装置、设备及存储介质,方法包括:获取标注出实体词的源语种文本和对应的目标语种文本,根据源语种文本和目标语种文本获取正样例集、负样例集和候选数据集,正样例集中的每个正样例表征源语种文本中的一个实体词,负样例集中的每个负样例表征源语种文本中的一个非实体词,候选数据集中的每个候选数据表征目标语种文本中的一个候选实体词,通过将候选数据集中的候选数据与正样例集和负样例集中的样例匹配,从候选数据集中的候选数据所表征的候选实体词中确定出实体词,并对确定出的实体词进行标注。本申请可从目标语种文本中标注出实体词,且标注过程不需要人工参与,具有较高的标注效率和标注质量。
技术领域
本申请涉及数据抽取技术领域,尤其涉及一种跨语种实体标注方法、装置、设备及存储介质。
背景技术
跨语种实体标注指的是,根据源语种文本中的实体信息,标注出目标语种文本中的实体词。比如,源语种文本为中文句子“小明(PER)今天很高兴”,其对应的目标语种文本为英文句子“Xiao Ming is very happy today”,跨语种实体标注指的是,根据中文句子中人物(PER)类型的实体词“小明”,从英文句子中确定出实体词“Xiao Ming”,并将其标注为PER类型的实体词。
目前的跨语种实体标注方法多为基于人工的实体标注方法,即,由语言学家将源语种文本翻译为目标语种,然后根据源语种文本中的实体对翻译文本进行实体标注,进而根据翻译文本的实体标注结果对源语种文本对应的目标语种文本进行标注。
基于人工的实体标注方法虽然可实现实体标注,但是,需要投入大量人力和时间,人工成本和时间成本较高,并且,人工标注易受主观因素影响,标注易出错。
发明内容
有鉴于此,本申请提供了一种跨语种实体标注方法、装置、设备及存储介质,用以解决现有技术中基于人工的实体标注方法人工成本和时间成本较高,且标注结果的准确性无法保证的问题,其技术方案如下:
一种跨语种实体标注方法,包括:
获取标注出实体词的源语种文本和对应的目标语种文本;
根据所述源语种文本和所述目标语种文本,获取正样例集、负样例集和候选数据集,其中,所述正样例集中的每个正样例表征所述源语种文本中的一个实体词,所述负样例集中的每个负样例表征所述源语种文本中的一个非实体词,所述候选数据集中的每个候选数据表征所述目标语种文本中的一个候选实体词;
通过将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配,从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词,并对确定出的实体词进行标注。
可选的,所述根据所述待处理文本获取正样例集、负样例集和候选数据集,包括:
将所述源语种文本与所述目标语种文本拼接,拼接后的文本作为待处理文本,并基于预先建立的实体标注模型和所述待处理文本,获取正样例集、负样例集和候选数据集;
所述通过将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配,从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词,包括:
利用所述实体标注模型,将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配,并根据匹配结果从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词;
其中,所述实体标注模型采用训练数据集中的训练数据训练得到,每条训练数据由一标注出实体词的源语种训练文本与对应的目标语种训练文本拼接而成。
可选的,所述基于预先建立的实体标注模型和所述待处理文本,获取正样例集、负样例集和候选数据集,包括:
利用所述实体标注模型对所述待处理文本进行编码,得到所述待处理文本的句向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011487631.2/2.html,转载请声明来源钻瓜专利网。