[发明专利]语料匹配方法、装置、设备及存储介质在审
申请号: | 202210213892.8 | 申请日: | 2022-03-04 |
公开(公告)号: | CN114610864A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 聂香国;邴孝娟;吴翰清;周凤鸣 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 匹配 方法 装置 设备 存储 介质 | ||
1.一种语料匹配方法,其特征在于,所述方法包括:
获取待匹配的语料以及所述待匹配的语料的需求匹配类型;
根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库;所述语料库中所包含的每个句对具有多重的属性设置;
根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个语料库以及各个语料库中所包含的各个句对,确定每个句对所涉及的至少一个应用场景;
基于每个句对涉及的应用场景的信息,对每个句对设置多重的属性;所设置的多重的属性包括句对涉及的产品编码、句对涉及的文档类型以及句对涉及的文档主题标识;其中,同一产品编码下具有多种文档类型的文档,每种文档类型的文档由多个文档主题标识的文档组成。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库,包括:
获取基于所述需求匹配类型进行多层分级设置的主语料库和参考语料库;
其中,所述获取基于所述需求匹配类型进行多层分级设置的主语料库和参考语料库,包括:
获取与所述需求匹配类型相符的语料库,所述需求匹配类型包括匹配属性范围;
采用所述匹配属性范围对与所述需求匹配类型相符的语料库进行设置,并按照所设置的各个语料库的优先级将设置匹配属性范围后的语料库划分为主语料库和参考语料库。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料,包括:
基于所获取的主语料库和参考语料库中所包含的每个句对的多重的属性,从主语料库和参考语料库中匹配得到符合匹配属性范围的目标语料。
5.根据权利要求4所述的方法,其特征在于,还包括:
在匹配的过程中,若所获取的主语料库和/或参考语料库设置有针对其自身的新增句对自动导入功能,则自动导入新增句对至设置有新增句对自动导入功能的相应数据库,并为所导入的新增句对增加属性设置;其中,所导入的新增句对为在去重后保存的在历史匹配过程中得到的语料。
6.根据权利要求4或5所述的方法,其特征在于,所获取的语料库中所包含的句对包括语料库中历史导入句对和所导入的新增句对;
所述基于所获取的主语料库和参考语料库中所包含的每个句对的多重的属性,从主语料库和参考语料库中匹配得到符合匹配属性范围的目标语料,包括:
获取在主语料库和参考语料库中符合匹配属性范围的历史导入句对和/或所导入的新增句对;
计算所述符合匹配属性范围的历史导入句对和/或所导入的新增句对,与所述待匹配的语料的相似程度;
若存在多个句对与所述待匹配语料的相似程度相同,则基于所述相似程度相同的多个句对所设置的多重的属性,分别对所述相似程度相同的多个句对的相似程度进行加权;
采用加权后的相似程度对所述相似程度相同的多个句对从高到低进行排序,并确定所述排序中相似程度位于首位的句对作为与所述待匹配的语料匹配的目标语料。
7.根据权利要求6所述的方法,其特征在于,所述计算与所述待匹配的语料的相似程度,包括:
获取所述符合匹配属性范围的所导入的新增句对和/或所述历史导入句对的原文信息,以及所述待匹配的语料所在的待检索句子;
确定所述原文信息与所述待匹配的语料所在的待检索句子的文本相似程度;
在所计算得到的文本相似程度达到预设程度时,基于所述原文信息与所述待检索句子中存在的相同句子的数量增加相应句对与待匹配的语料的相似程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210213892.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:马达
- 下一篇:一种企业经济效率与能耗的计算比较方法