[发明专利]一种平行语料句子级对齐系统和方法在审
申请号: | 202210648199.3 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115345127A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 曾辉;李光华 | 申请(专利权)人: | 甲骨易(北京)语言科技股份有限公司 |
主分类号: | G06F40/109 | 分类号: | G06F40/109;G06F40/126 |
代理公司: | 北京金蓄专利代理有限公司 11544 | 代理人: | 马贺 |
地址: | 101399 北京市顺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平行 语料 句子 对齐 系统 方法 | ||
本发明具体涉及一种平行语料句子级对齐系统和方法,该系统包括预训练多语种语言表示模型、相似度搜索算法和语种识别工具;该方法包括读取源语言句子和目标语言句段;利用预训练多语种语言表示模型将源语言句段和目标语言句段表示为数学向量;执行批量向量搜索,得到句段级别的对齐结果;遍历对齐结果,转入句子级对齐流程;确定源语言分句数;列出目标语言分句组合,列出可能的待匹配句对,生成一个匹配列表;形成源语言向量列表和目标语言向量列表;得到匹配句对的对齐度得分;计算出匹配组合的对齐度总分,选择分数最高的作为最终的分句对齐结果。本发明能够将不同句子数的源语言和目标语言段落准确对齐为句子级的平行语料。
技术领域
本发明属于数据处理技术领域,具体涉及一种平行语料句子级对齐系统和方法。
背景技术
在制作翻译记忆库或者准备机器翻译训练数据时都需要进行语料对齐,在进行语料对齐时,首先进行段落级别的对齐,常见的对齐算法都能取得不错的效果。在段落对齐完成之后,需要对较长的源语言段落和目标语言段落进行分句,然后将拆分而来的分句对齐,以获得句子级别的对齐结果。
然而,由于各个语种的分词、断句等等有极大差异,拆出的源语言和目标语言分句数可能有较大差异。例如,中文源语言段落拆分为3个中文句子,而英文目标语言拆分出6个英文句子。3个中文句子无论如何也无法与6个英文句子对齐,因此常规方法只能保证段落级别对齐,无法更好地处理句子级别对齐。
目前的对齐工具大多只能实现段落级的对齐。如果遇到较长句段需要拆分再对齐,就只能对齐源语言侧和目标语言侧分句数相同的段落,如果分句数不同就无法准确对齐。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种平行语料句子级对齐系统和方法,能够建立不同数目分句之间的准确对应关系,并给出对应的匹配分数,将不同句子数的源语言和目标语言段落准确对齐为句子级的平行语料。
本发明要解决的技术问题通过以下技术方案实现:
一种平行语料句子级对齐系统,包括:预训练多语种语言表示模型、相似度搜索算法和语种识别工具;
所述预训练多语种语言表示模型,用于将各个语种的段落或句子文本转化为数学向量;
所述相似度搜索算法,用于执行批量向量搜索,给定一批向量,在另外一批向量中找到与每个给定向量最相似的前N个向量;
所述语种识别工具,识别给定的段落是否为某种特定语言。
一种平行语料句子级对齐方法,包括如下步骤:
步骤一,读取源语言句子和目标语言句段;
步骤二,利用预训练多语种语言表示模型将源语言句段表示为数学向量,利用预训练多语种语言表示模型将目标语言句段表示为数学向量;
步骤三,执行批量向量搜索,为每个源句段向量找出对应的匹配目标句段向量,得到句段级别的对齐结果;
步骤四,遍历对齐结果,对已对齐句段的源语言侧和目标语言侧进行分句,如果两侧的分句数均大于1,转入句子级对齐流程;
步骤五,列出源语言和目标语言侧的所有可能的分句组合,找出源语言分句数最多的组合,确定源语言分句数;
步骤六,根据源语言的最大分句数,列出目标语言在此给定分句数情况下的所有可能分句组合,并列出源语言分句与目标语言分句的对应组合;
步骤七,根据分句组合的对应位置关系,列出所有可能的待匹配句对,生成一个匹配列表,一侧为源语言句子,另一侧为待匹配的目标语言句子;
步骤八,将源语言侧拆出来形成一个独立的列表,经过多语言预训练模型编码形成源语言向量列表;将目标语言侧拆出来形成一个独立的列表,经过多语言预训练模型编码形成目标语言向量列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨易(北京)语言科技股份有限公司,未经甲骨易(北京)语言科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210648199.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种火灾智能预警装置
- 下一篇:一种泄漏电流补偿方法、装置、电子设备及介质