[发明专利]多语言文本的序列标注方法、装置及电子设备在审
申请号: | 202011112593.2 | 申请日: | 2020-10-16 |
公开(公告)号: | CN114386395A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 王新宇;蒋勇;阮巴赫;王涛;黄非;黄忠强 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 文本 序列 标注 方法 装置 电子设备 | ||
本说明书一个或多个实施例提供一种多语言文本的序列标注方法、装置及电子设备,包括:获得多个单一语言模型对于相应语言数据集的训练结果;根据全部语言数据集及其训练结果构建训练样本集;使用所述训练样本集对多语言模型进行训练,直至所述多语言模型收敛;使用所述收敛的多语言模型对文本进行序列标注。
技术领域
本说明书一个或多个实施例涉及计算机应用技术领域,尤其涉及一种多语言文本的序列标注方法、装置及电子设备。
背景技术
在服务于国际买家的电商平台上,商品描述信息通常包含各个国家的语言。买家在搜索想要购买的商品时,可以在平台提供的客户端中输入用于描述实际需求的句子,以由平台基于相关性算法检索出最相关的商品。序列标注是相关性计算中重要的一环,即通过对买家输入的句子进行标注来提取关键信息,并基于提取出的关键信息进行匹配计算,得到各个商品与实际需求的相关性评分。
现有的序列标注模块通常采用一种语言对应一个序列标注模型的方式,但是这样会导致模型对其对应的语言之外的输入的计算的准确度差,难以满足业务需求。
发明内容
本说明书提出一种多语言文本的序列标注方法,所述方法包括:
获得多个单一语言模型对于相应语言数据集的训练结果;
根据全部语言数据集及其训练结果构建训练样本集;
使用所述训练样本集对多语言模型进行训练,直至所述多语言模型收敛;
使用所述收敛的多语言模型对文本进行序列标注。
可选地,所述获得多个单一语言模型对于相应语言数据集的训练结果之前,所述方法还包括:
为第一种语言获得数据集,所述数据集中的数据为已有序列标注结果的句子;
使用第一种语言的单语言模型对所述数据集进行序列标注,计算标注损失;
根据所述标注损失更新所述第一种语言的单语言模型的模型参数,直至所述第一种语言的单语言模型收敛。
可选地,所述获得多个单一语言模型对于相应语言数据集的训练结果,包括:
将所述第一种语言的数据集中的第一句子输入收敛的所述第一种语言的单语言模型,得到所述第一句子的序列标注结果。
可选地,所述序列标注结果包括所述第一句子中各个单词对应的标注的后验概率分布。
可选地,通过以下方式判断所述第一种语言的单语言模型是否收敛:
如果所述标注损失小于预设阈值,则确定所述第一种语言的单语言模型收敛。
可选地,所述使用所述训练样本集对多语言模型进行训练,直至所述多语言模型收敛,包括:
使用所述多语言模型对所述训练样本集进行序列标注,计算第一标注损失;
使用所述多语言模型对所述训练结果进行序列标注,计算第二标注损失;
基于预设的权重对所述第一标注损失和所述第二标注损失进行加权处理,并在加权处理得到的损失小于预设阈值情况下,确定所述多语言模型收敛。
可选地,所述单语言模型为条件随机场。
可选地,所述多语言模型为基于BERT模型的条件随机场;
所述使用所述训练样本集对多语言模型进行训练,包括:
由所述BERT模型对所述训练样本集中的句子进行语义表示计算,并将所述句子的语义表示结果输入所述条件随机场,由所述条件随机场基于所述语义表示结果对所述句子进行序列标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011112593.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熏香炉以及控制方法
- 下一篇:用于轨道车辆的无线传感器轮对轴承装置