[发明专利]数据处理方法和装置在审
申请号: | 201910199138.1 | 申请日: | 2019-03-15 |
公开(公告)号: | CN111694962A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 马春平;谢朋峻;王潇斌;李林琳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本申请公开了一种数据处理方法和装置。其中,该方法包括:获取第一语料,其中,第一语料是至少依据原始语料中目标类别的实体而得到的;利用文本分类模型对第一语料进行处理,得到第一语料的概率值,其中,概率值用于表征第一语料和原始语料的匹配程度;在概率值大于等于预设概率值的情况下,确定第一语料作为训练语料。本申请解决了相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体,重新对其他民族的人名或其他国家实体的译名进行标注,耗费成本和资源较大的技术问题。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
背景技术
实体识别是指识别文本中具有特定意义的实体,一般包括人名、地名、机构名、专有名词等,是自然语言处理的基本任务之一,通常包括实体边界识别和确定实体类别两个部分。在实体识别任务中,一般常用的实体指人名、地名、机构名等,公开的中文实体识别训练语料中均同时包含这三类实体。但是,这类实体一般都是中文的人名(如张三)、地名(杭州市)、机构名(阿里巴巴有限公司),如果遇到其他民族或者国家实体的译名,例如少数民族人名(如买买提)、日本公司组织(如**株式会社)、英国地名(如曼彻斯特郡)等等的译名,往往识别准确率会大大下降。
为了解决上述问题,通常可以根据所需场景重新标注一批包含这类实体的语料进行模型训练,但是,重新标注语料需要耗费大量人力、财力;不能充分利用现有语料,浪费资源;泛化性比较弱,只能识别特定类型实体。
针对相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体,重新对其他民族的人名或其他国家实体的译名进行标注,耗费成本和资源较大的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据处理方法和装置,以至少解决相关技术中实体识别模型的训练语料仅包含中文人名、地名、机构名等实体,重新对其他民族的人名或其他国家实体的译名进行标注,耗费成本和资源较大的技术问题。
根据本申请实施例的一个方面,提供了一种数据处理方法,包括:获取第一语料,其中,第一语料是至少依据原始语料中目标类别的实体而得到的;利用文本分类模型对第一语料进行处理,得到第一语料的概率值,其中,概率值用于表征第一语料和原始语料的匹配程度;在概率值大于等于预设概率值的情况下,确定第一语料作为训练语料。
根据本申请实施例的另一方面,还提供了一种数据处理方法,包括:获取原始语料和实体集合,其中,实体集合包括:目标类别的多个实体,多个实体与原始语料中的实体不同;利用实体集合中的实体对原始语料中相同类别的实体进行替换,得到第一语料;利用文本分类模型对第一语料进行处理,得到第一语料的概率值,其中,概率值用于表征第一语料和原始语料的匹配程度;在概率值大于等于预设概率值的情况下,确定第一语料作为训练语料。
根据本申请实施例的另一方面,还提供了一种数据处理装置,包括:第一获取模块,用于获取第一语料,其中,第一语料是至少依据原始语料中目标类别的实体而得到的;第一处理模块,用于利用文本分类模型对第一语料进行处理,得到第一语料的概率值,其中,概率值用于表征第一语料和原始语料的匹配程度;确定模块,用于在概率值大于等于预设概率值的情况下,确定第一语料作为训练语料。
根据本申请实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取原始语料和实体集合,其中,实体集合包括:目标类别的多个实体,多个实体与原始语料中的实体不同;处理模块,用于利用实体集合中的实体对原始语料中相同类别的实体进行替换,得到第一语料;处理模块,用于利用文本分类模型对第一语料进行处理,得到第一语料的概率值,其中,概率值用于表征第一语料和原始语料的匹配程度;确定模块,用于在概率值大于等于预设概率值的情况下,确定第一语料作为训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910199138.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种五段式SVPWM实现方法
- 下一篇:抗辐射胶的披覆结构及其方法