[发明专利]语料匹配方法、装置、设备及存储介质在审
申请号: | 202210213892.8 | 申请日: | 2022-03-04 |
公开(公告)号: | CN114610864A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 聂香国;邴孝娟;吴翰清;周凤鸣 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 匹配 方法 装置 设备 存储 介质 | ||
本申请实施例提供了语料匹配方法、装置、设备及存储介质,所述方法包括:获取待匹配的语料以及所述待匹配的语料的需求匹配类型;根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库;所述语料库中所包含的每个句对具有多重的属性设置;根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料。基于对语料库中各个句对的多重属性设置,在实现语料匹配的同时,还可对语料库中语料的细粒度划分,基于最小粒度的语料匹配实现最大化语料复用的准确率,同时可基于多维度复用实现语料复用的最大化,便于提高语料匹配的效率。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种语料匹配方法、相应的一种语料匹配装置、相应的一种电子设备以及一种计算机存储介质。
背景技术
目前,通常可利用语料建立知识体系,例如语料库等,在应用多种不同领域时基于所建立的语料库提供进行语料分析、语料匹配等操作的支持。其中,所应用的领域可以包括翻译领域,即在翻译领域中可借助语料库进行语料匹配,实现语料匹配准确度和语料复用的最大化。
然而,在翻译领域进行语料匹配时,通常存在一句多匹配(即同一句源语言对应不同的目标语言的句子。以中翻英为例,存在同样一句中文对应不同的英文句子),因为同样一句话,在不同的产品的文档以及同一产品的不同文档类型需要翻译成同一语种中的不同句子。对于这种情况,相关的采用语料库中混合语料匹配的方式将会导致语料匹配不准确,且不利于翻译效率的提高。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语料匹配方法、相应的一种语料匹配装置、相应的一种电子设备以及一种计算机存储介质。
本申请实施例公开了一种语料匹配方法,所述方法包括:
获取待匹配的语料以及所述待匹配的语料的需求匹配类型;
根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库;所述语料库中所包含的每个句对具有多重的属性设置;
根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料。
可选地,所述方法还包括:
获取多个语料库以及各个语料库中所包含的各个句对,确定每个句对所涉及的至少一个应用场景;
基于每个句对涉及的应用场景的信息,对每个句对设置多重的属性;所设置的多重的属性包括句对涉及的产品编码、句对涉及的文档类型以及句对涉及的文档主题标识;其中,同一产品编码下具有多种文档类型的文档,每种文档类型的文档由多个文档主题标识的文档组成。
可选地,所述根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库,包括:
获取基于所述需求匹配类型进行多层分级设置的主语料库和参考语料库;
其中,所述获取基于所述需求匹配类型进行多层分级设置的主语料库和参考语料库,包括:
获取与所述需求匹配类型相符的语料库,所述需求匹配类型包括匹配属性范围;
采用所述匹配属性范围对与所述需求匹配类型相符的语料库进行设置,并按照所设置的各个语料库的优先级将设置匹配属性范围后的语料库划分为主语料库和参考语料库。
可选地,所述根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料,包括:
基于所获取的主语料库和参考语料库中所包含的每个句对的多重的属性,从主语料库和参考语料库中匹配得到符合匹配属性范围的目标语料。
可选地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210213892.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:马达
- 下一篇:一种企业经济效率与能耗的计算比较方法