[发明专利]语言序列标注方法、装置存储介质及计算机设备有效
申请号: | 201811481219.2 | 申请日: | 2018-12-05 |
公开(公告)号: | CN111274813B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 黄睿;李辰;王涛;包祖贻;李林琳;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/088;G06N3/049;G06N3/0475;G06N3/094;G06N3/0464;G06N3/0442 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 序列 标注 方法 装置 存储 介质 计算机 设备 | ||
本发明公开了一种语言序列标注方法、装置存储介质及计算机设备。其中,该方法包括:基于源语言向量和目标语言向量生成跨语言向量;根据跨语言向量生成语言对应关系,其中,语言对应关系包括将源语言和目标语言对应起来的关系;根据语言对应关系将源语言序列标注数据转换成转换数据;源语言序列标注数据以及转换数据进行训练,得到跨语言序列标注模型;基于跨语言序列标注模型对目标语言进行序列标注。本发明解决了相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种语言序列标注方法、装置存储介质及计算机设备。
背景技术
在一些应用场景中,需要在各种不同种类的语言上进行序列标注。例如,输入文本(比如,我今天去了安徽歙县)识别出实体(比如,安徽歙县是地名);又例如,输入文本(比如,我买了一个歙砚)识别出实体(比如,歙砚是商品),但是换成输入另一种语言的“我今天去了安徽歙县,或者我买了一个歙砚”(例如,英语,泰语,越南语,阿拉伯语等),在该语言为没有人工标注数据的语言(资源匮乏语言,例如,越南语,泰语)的情况下,也就无法对应地识别出商品名“安徽歙县是地名”或者“歙砚是商品”。
相关技术中,可以采用自动生成在目标语言(资源匮乏语言)上的标注数据,例如,在源语言(资源丰富语言)与目标语言(资源匮乏语言)之间存在平行语料X和X’的情况下,若语料X拥有标注数据Y,则可以采用标注映射的方式将语料X上的标注数据Y映射到语料X’上生成标注数据Y’,但是平行语料的情况并不能涵盖所有的语料,在非平行语料的情况下,无法实施。还可以根据翻译工具,将源语言的标注数据翻译到目标语言上,但是需要目标语言具有相应的翻译工具,没有标注数据的目标语言一般也缺乏相应的翻译工具的资源。另外,还可以在源语言中训练一个序列标注模型,并直接将该模型应用到目标语言上。这种方法在上述源语言和目标语言相似度很低的情况下(如英语和越南语),效果极差,容易出错,并且对目标语言原有的少量标注数据造成影响。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语言序列标注方法、装置存储介质及计算机设备,以至少解决相关技术中的语言序列标注方法,由于目标语言的标注资源匮乏,造成标注不准确,不完整的技术问题。
根据本发明实施例的一个方面,提供了一种语言序列标注方法,包括:基于源语言向量和目标语言向量生成跨语言向量;根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;根据所述语言对应关系将源语言序列标注数据转换成转换数据;对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;基于所述跨语言序列标注模型对目标语言进行序列标注。基于所述跨语言序列标注模型对目标语言进行序列标注。
根据本发明实施例的另一方面,还提供了另一种语言序列标注方法,包括:接收目标语言序列标注请求;响应于所述请求,基于跨语言序列标注模型对目标语言进行序列标注,其中,所述跨语言序列标注模型通过对源语言序列标注数据以及转换数据进行训练得到,所述转换数据根据由所述源语言序列标注数据转换得到,所述语言对应关系包括将源语言和目标语言对应起来的关系。
根据本发明实施例的另一方面,还提供了一种语言序列标注装置,包括:第一生成模块,用于基于源语言向量和目标语言向量生成跨语言向量;第二生成模块,用于根据所述跨语言向量生成语言对应关系,其中,所述语言对应关系包括将源语言和目标语言对应起来的关系;转换模块,用于根据所述语言对应关系将源语言序列标注数据转换成转换数据;训练模块,用于对所述源语言序列标注数据以及所述转换数据进行训练,得到跨语言序列标注模型;标注模块,用于基于所述跨语言序列标注模型对目标语言进行序列标注。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的语言序列标注方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811481219.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:快递柜
- 下一篇:一种信息传输方法、装置、系统、消防车及可读存储介质