[发明专利]跨语言检索及模型训练方法、装置、设备和存储介质在审
申请号: | 202011504125.X | 申请日: | 2020-12-18 |
公开(公告)号: | CN112528681A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 王硕寰;欧阳轩;庞超;孙宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06F40/216;G06K9/62;G06N20/20 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 检索 模型 训练 方法 装置 设备 存储 介质 | ||
本公开公开了一种跨语言检索及模型训练方法、装置、设备、存储介质和程序产品,涉及计算机技术领域,具体涉及自然语言处理、深度学习等人工智能技术领域。跨语言检索方法包括:接收用户输入的检索词;根据所述检索词的检索词语义表示,在包含多种语言文档的文档库中,获取与所述检索词匹配的候选文档;对所述候选文档进行排序,将排序后的候选文档作为检索结果,返回给所述用户。本公开可以提高检索结果的准确度,降低时间复杂度。
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理、深度学习等人工智能技术领域,尤其涉及一种跨语言检索及模型训练方法、装置、设备和存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是涉及计算机科学、人工智能(Artificial Intelligence,AI)和语言学的交叉技术,目的是让计算机处理或“理解”自然语言,以执行诸如语言翻译和问题回答等任务。随着语音接口和聊天机器人的兴起,NLP成为了信息时代最重要的技术之一,是人工智能的重要组成部分。
跨语言检索是指用户输入的检索词是一种语言,返回的检索结果是另一种或者多种语言。在信息日益全球化的今天,跨语言检索技术变得越来越重要。
相关技术中,跨语言检索一般基于机器翻译技术,即将源语言的检索词,翻译成目标语言的检索词,然后再使用目标语言的检索词在目标语言文档库中检索,返回检索结果。
发明内容
本公开提供了一种跨语言检索及模型训练方法、装置、设备、存储介质和程序产品。
根据本公开的一方面,提供了一种跨语言检索方法,包括:接收用户输入的检索词;根据所述检索词的检索词语义表示,在包含多种语言文档的文档库中,获取与所述检索词匹配的候选文档;对所述候选文档进行排序,将排序后的候选文档作为检索结果,返回给所述用户。
根据本公开的另一方面,提供了一种跨语言语义表示模型的训练方法,包括:获取跨语言训练语料,所述跨语言训练语料包括:机器翻译的平行语料,以及,单语言的检索词和文档对语料;采用所述跨语言训练语料,对跨语言语义表示模型进行训练。
根据本公开的另一方面,提供了一种跨语言检索装置,包括:接收模块,用于接收用户输入的检索词;召回模块,用于根据所述检索词的检索词语义表示,在包含多种语言文档的文档库中,获取与所述检索词匹配的候选文档;排序模块,用于对所述候选文档进行排序,将排序后的候选文档作为检索结果,返回给所述用户。
根据本公开的另一方面,提供了一种跨语言语义表示模型的训练装置,包括:获取模块,用于获取跨语言训练语料,所述跨语言训练语料包括:机器翻译的平行语料,以及,单语言的检索词和文档对语料;训练模块,用于采用所述跨语言训练语料,对跨语言语义表示模型进行训练。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,通过根据检索词的检索词语义表示,获取与检索词匹配的候选文档并排序,可以在跨语言检索时不需要进行翻译,可以提高检索结果不准确,并且在包含多种语言文档的文档库中检索,而不是分别在多个文档库中检索,可以降低时间复杂度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011504125.X/2.html,转载请声明来源钻瓜专利网。