[发明专利]文本处理方法和装置在审

专利信息
申请号: 201910111565.X 申请日: 2019-02-12
公开(公告)号: CN111563381A 公开(公告)日: 2020-08-21
发明(设计)人: 黄睿;李辰;包祖贻;刘恒友;李林琳;司罗 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 钱秀茹
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置
【说明书】:

本申请公开了文本处理方法和装置。其中,文本处理方法包括:至少从包括未标注文本处理结果的第一源语言语料集和目标语言语料集的语料合集中,学习得到语言模型;从已标注文本处理结果的第二源语言语料集中学习得到文本处理模型;获取待处理文本;通过语言模型确定待处理文本包括的至少一个词的跨语言对齐的上下文相关词向量;通过文本处理模型,根据跨语言对齐的上下文相关词向量获取待处理文本的文本处理结果。采用这种处理方式,使得将源语言和目标语言之间对应的包含上下文信息的内容进行深度语义向量的对齐,基于对齐的包含上下文信息的深度语义向量进行跨语言模型迁移;因此,可以有效提升迁移后模型的准确度,从而提升文本处理的准确度。

技术领域

本申请涉及自然语言处理技术领域,具体涉及文本处理方法和装置。

背景技术

在与文本处理相关的业务场景中,随着业务的不断发展,需要在多种语言上执行同种文本处理任务。以在中文上做命名实体识别的文本处理任务为例,要从文本“我今天买了一个苹果手机”中识别出商品名“苹果手机”;以在中文上做情感分类的文本处理任务为例,要识别出用户评论“质量很好,超出预期”属正向情感,可将这些文本处理任务扩展到中文以外的其它语言上。

对于人工标注数据资源较为丰富的语言(如中文,英文等等),可直接根据训练数据训练文本处理模型(如命名实体识别或者情感分类模型);对于人工标注数据资源较为匮乏的语言(如越南语、泰语等小语种),由于没有足够的训练数据来训练模型,因而通常采用跨语言模型迁移方案,即:将在人工标注数据资源较为丰富语言(简称源语言)上训练的模型迁移到人工标注数据资源较为匮乏语言(简称目标语言)上使用。

目前,一种典型的跨语言模型迁移的方案主要通过对齐的词向量来实现,简称为跨语言词向量对齐的方法。该方法首先从源语言和目标语言各自独立的词向量空间出发,试图将源语言和目标语言之间对应的词汇映射到空间中的一个区域,以中文和英文为例,跨语言词向量对齐的方法试图将中文“苹果”与英文“apple”、中文“男人”与英文“man”映射到词向量空间的同一位置;然后,再基于这个对齐的词向量空间,在源语言上训练文本处理模型,并将该模型可以直接迁移到目标语言上使用。

然而,在实现本发明过程中,发明人发现现有方案至少存在如下问题:由于不同语言在词级别可能并不精确对应,如英文中的“brown”作为人名和颜色分别对应到中文里的“布朗”和“棕色”,基于上述跨语言词向量的词粒度对齐无法解决词语义信息对不齐的问题,因此仅仅考虑词级别的对齐进行跨语言的模型迁移是不充分的,将导致迁移后模型的准确度较低。

发明内容

本申请提供文本处理方法,以解决现有技术存在的迁移后模型的准确度较低的问题。本申请另外提供文本处理装置。

本申请提供一种文本处理方法,包括:

至少从包括未标注文本处理结果的第一源语言语料集和目标语言语料集的语料合集中,学习得到语言模型;以及,从已标注文本处理结果的第二源语言语料集中学习得到文本处理模型;

获取源语言或目标语言的待处理文本;

通过所述语言模型,确定所述待处理文本包括的至少一个词的跨语言对齐的上下文相关词向量;

将所述跨语言对齐的上下文相关词向量作为所述文本处理模型的输入数据,通过所述文本处理模型获取所述待处理文本的文本处理结果。

可选的,所述语言模型采用如下步骤学习得到:

获取所述语料合集;

构建所述语言模型的神经网络;所述神经网络包括至少一个语义向量提取层,所述语义向量提取层后包括语言类别判别器,所述判别器用于判别相邻的上一个语义向量提取层输出的词向量的语言类别,所述语言类别包括源语言和目标语言;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910111565.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top