[发明专利]多语言文本的序列标注方法、装置及电子设备在审

申请号：	202011112593.2	申请日：	2020-10-16
公开（公告）号：	CN114386395A	公开（公告）日：	2022-04-22
发明（设计）人：	王新宇;蒋勇;阮巴赫;王涛;黄非;黄忠强	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/30;G06K9/62
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	周嗣勇
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言文本序列标注方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书一个或多个实施例提供一种多语言文本的序列标注方法、装置及电子设备，包括：获得多个单一语言模型对于相应语言数据集的训练结果；根据全部语言数据集及其训练结果构建训练样本集；使用所述训练样本集对多语言模型进行训练，直至所述多语言模型收敛；使用所述收敛的多语言模型对文本进行序列标注。

技术领域

本说明书一个或多个实施例涉及计算机应用技术领域，尤其涉及一种多语言文本的序列标注方法、装置及电子设备。

背景技术

在服务于国际买家的电商平台上，商品描述信息通常包含各个国家的语言。买家在搜索想要购买的商品时，可以在平台提供的客户端中输入用于描述实际需求的句子，以由平台基于相关性算法检索出最相关的商品。序列标注是相关性计算中重要的一环，即通过对买家输入的句子进行标注来提取关键信息，并基于提取出的关键信息进行匹配计算，得到各个商品与实际需求的相关性评分。

现有的序列标注模块通常采用一种语言对应一个序列标注模型的方式，但是这样会导致模型对其对应的语言之外的输入的计算的准确度差，难以满足业务需求。

发明内容

本说明书提出一种多语言文本的序列标注方法，所述方法包括：

获得多个单一语言模型对于相应语言数据集的训练结果；

根据全部语言数据集及其训练结果构建训练样本集；

使用所述训练样本集对多语言模型进行训练，直至所述多语言模型收敛；

使用所述收敛的多语言模型对文本进行序列标注。

可选地，所述获得多个单一语言模型对于相应语言数据集的训练结果之前，所述方法还包括：

为第一种语言获得数据集，所述数据集中的数据为已有序列标注结果的句子；

使用第一种语言的单语言模型对所述数据集进行序列标注，计算标注损失；

根据所述标注损失更新所述第一种语言的单语言模型的模型参数，直至所述第一种语言的单语言模型收敛。

可选地，所述获得多个单一语言模型对于相应语言数据集的训练结果，包括：