[发明专利]文本搜索方法、装置、可读介质及电子设备有效
申请号: | 202110726639.8 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113407814B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 王鑫宇;张永华 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/289 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贺晓蕾 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 搜索 方法 装置 可读 介质 电子设备 | ||
本公开涉及一种文本搜索方法、装置、可读介质及电子设备。该方法包括:将待搜索的第一文本按照多种预设划分方式划分,得到多组目标划分文本集;将该多组目标划分文本集输入预先训练的文本向量模型,得到第一文本向量;根据该第一文本向量从预先建立的文本知识库的第二文本向量中获取目标文本向量,该文本知识库包括一个或多个第二文本向量,以及该第二文本向量对应的第二文本;将该目标文本向量对应的第二文本作为目标搜索结果,并展示该目标搜索结果。这样,可以提高文本搜索的准确率,从而避免由于用户拼写错误导致的搜索结果错误或不完整的情况发生,提高用户的体验。
技术领域
本公开涉及人工智能领域,具体地,涉及一种文本搜索方法、装置、可读介质及电子设备。
背景技术
随着互联网内容的爆炸性增长,如何从海量的网络信息中搜索到需要的文本成为信息处理技术关注的热点,例如文章、歌词、网页的搜索。搜索引擎可以根据用户输入的待搜索文本,通过文本搜索的方式,搜索得到与待搜索文本相匹配的搜索结果。而对于文本搜索,相关技术中一般基于倒排索引的方式进行,但是,基于倒排索引的方式在某些场景下难以准确匹配到用户预期的搜索结果,会出现搜索结果错误或不完整的情况,降低了用户的体验。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供了一种文本搜索方法,所述方法包括:
将待搜索的第一文本按照多种预设划分方式划分,得到多组目标划分文本集;
将所述多组目标划分文本集输入预先训练的文本向量模型,得到第一文本向量;
根据所述第一文本向量从预先建立的文本知识库的第二文本向量中获取目标文本向量,所述文本知识库包括一个或多个第二文本向量,以及所述第二文本向量对应的第二文本;
将所述目标文本向量对应的第二文本作为目标搜索结果,并展示所述目标搜索结果。
第二方面,本公开提供了一种文本搜索装置,所述装置包括:
第一文本划分模块,用于将待搜索的第一文本按照多种预设划分方式划分,得到多组目标划分文本集;
第一文本向量获取模块,用于将所述多组目标划分文本集输入预先训练的文本向量模型,得到第一文本向量;
目标文本向量获取模块,用于根据所述第一文本向量从预先建立的文本知识库的第二文本向量中获取目标文本向量,所述文本知识库包括一个或多个第二文本向量,以及所述第二文本向量对应的第二文本;
目标文本搜索模块,用于将所述目标文本向量对应的第二文本作为目标搜索结果,并展示所述目标搜索结果。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110726639.8/2.html,转载请声明来源钻瓜专利网。