[发明专利]一种平行语料句子级对齐系统和方法在审
申请号: | 202210648199.3 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115345127A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 曾辉;李光华 | 申请(专利权)人: | 甲骨易(北京)语言科技股份有限公司 |
主分类号: | G06F40/109 | 分类号: | G06F40/109;G06F40/126 |
代理公司: | 北京金蓄专利代理有限公司 11544 | 代理人: | 马贺 |
地址: | 101399 北京市顺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平行 语料 句子 对齐 系统 方法 | ||
1.一种平行语料句子级对齐系统,其特征在于,包括:预训练多语种语言表示模型、相似度搜索算法和语种识别工具;
所述预训练多语种语言表示模型,用于将各个语种的段落或句子文本转化为数学向量;
所述相似度搜索算法,用于执行批量向量搜索,给定一批向量,在另外一批向量中找到与每个给定向量最相似的前N个向量;
所述语种识别工具,识别给定的段落是否为某种特定语言。
2.一种平行语料句子级对齐方法,其特征在于,包括如下步骤:
步骤一,读取源语言句子和目标语言句段;
步骤二,利用预训练多语种语言表示模型将源语言句段表示为数学向量,利用预训练多语种语言表示模型将目标语言句段表示为数学向量;
步骤三,执行批量向量搜索,为每个源句段向量找出对应的匹配目标句段向量,得到句段级别的对齐结果;
步骤四,遍历对齐结果,对已对齐句段的源语言侧和目标语言侧进行分句,如果两侧的分句数均大于1,转入句子级对齐流程;
步骤五,列出源语言和目标语言侧的所有可能的分句组合,找出源语言分句数最多的组合,确定源语言分句数;
步骤六,根据源语言的最大分句数,列出目标语言在此给定分句数情况下的所有可能分句组合,并列出源语言分句与目标语言分句的对应组合;
步骤七,根据分句组合的对应位置关系,列出所有可能的待匹配句对,生成一个匹配列表,一侧为源语言句子,另一侧为待匹配的目标语言句子;
步骤八,将源语言侧拆出来形成一个独立的列表,经过多语言预训练模型编码形成源语言向量列表;将目标语言侧拆出来形成一个独立的列表,经过多语言预训练模型编码形成目标语言向量列表;
步骤九,利用向量检索方法对源语言向量列表和目标语言向量列表进行批量相似度计算,得到每一个匹配句对的对齐度得分;
步骤十,计算出所有匹配组合的对齐度总分,选择分数最高的一个组合作为最终的分句对齐结果。
3.根据权利要求2所述的平行语料句子级对齐方法,其特征在于,还包括:步骤十一,将段落级对齐结果与分句级对齐结果融合,生成最终的平行句对对齐结果。
4.根据权利要求2或3所述的平行语料句子级对齐方法,其特征在于,读取源语言句子和目标语言句段时,如果是双文档对齐,在上传文件时指定源语言和目标语言;如果是单文档对齐,遍历文档中的每个句段,由语种识别工具判断句段的语种。
5.根据权利要求2或3所述的平行语料句子级对齐方法,其特征在于,所述步骤七具体为:源语言句段的第1个分句匹配目标语言分句组合1中的第1个分句,源语言句段的第2个分句匹配目标语言分句组合1中的第2个分句,以此类推,确保目标语言分句组合都得到匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨易(北京)语言科技股份有限公司,未经甲骨易(北京)语言科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210648199.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种火灾智能预警装置
- 下一篇:一种泄漏电流补偿方法、装置、电子设备及介质