[发明专利]基于BERT语言模型的搜索方法、装置、计算机设备及存储介质有效
申请号: | 201911285760.0 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111160007B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 朱俊祺 | 申请(专利权)人: | 中国平安财产保险股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/258;G06F40/30;G06F40/247;G06F16/338;G06F16/35;G06F16/9535 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区益田路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 语言 模型 搜索 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种基于BERT语言模型的搜索方法、装置、设备及存储介质,属于大数据处理技术领域,该方法包括:获取原始搜索字段;对获取的原始搜索字段进行字段分析,基于字段分析结果生成搜索字段集;将搜索字段集作为查询条件进行搜索,获得预选集;基于预选集中元素的资源链接获取标题集;将标题集中的元素和搜索字段集中的元素两两组合生成文本对集合,并将文本对集合作为模型输入集,输入BERT语言模型进行处理,获得搜索结果集;基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容,并发送获得的内容到用户界面进行展示。本申请有助于提高用户的搜索效率和准确性,给用户提供更加良好的搜索结果。
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种基于BERT语言模型的搜索方法、装置、计算机设备及存储介质。
背景技术
文章内容搜索是大多数应用中一个重要的功能,当前字节跳动、百度、腾讯等各大互联网企业都有多款爆款互联网应用,里面一个重要的功能就是搜索推荐。该功能会分析理解用户的搜索关键词内容,从自有数据库中挑出用户最可能点击查看的文章内容展示给用户。现有搜索推荐方法框架主要包含召回流程和排序流程:召回流程的主要工作是从拥有上千万数据的内容库中挑出一定数量的相关内容,给到后续排序流程进行排序;排序流程包含精排和重排序,重点是针对召回来的内容进行一个排序,使得最终内容排序结果中,用户最关注、最可能点击的内容排列在靠前位置。
目前的搜索方法主要使用神经网络训练作为推荐方式,需要大量的标注数据进行训练,这会耗费大量的人力物力来构造数据;而且网络文章的不断更新,使用传统的语义相似性模型难以覆盖到大量新建的文章。由此可知,现有技术进行搜索时,具有消耗资源过多和搜索结果不够准确的问题。
发明内容
本申请实施例的目的在于提出一种基于BERT语言模型的搜索方法、装置、计算机设备及存储介质,以解决现有技术中用户进行搜索时网络资源消耗过多和搜索结果不够准确的问题。
为了解决上述技术问题,本申请实施例提供一种基于BERT语言模型的搜索方法,采用了如下所述的技术方案:
一种基于BERT语言模型的搜索方法,包括:
获取原始搜索字段;
对获取的所述原始搜索字段进行字段分析,基于字段分析结果生成搜索字段集,其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析;
将所述搜索字段集作为查询条件进行搜索,基于搜索结果获得预选集;
基于所述预选集中元素的资源链接获取资源标题,得到标题集;
将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合,并将所述文本对集合作为模型输入集,输入BERT语言模型进行处理,获得搜索结果集;
基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容,并发送获得的内容到用户界面进行展示。
进一步的,所述基于BERT语言模型的搜索方法,所述原始搜索字段分类包括:
基于预先设定的语义分类模型对所述原始搜索字段进行语义识别,解析出所述原始搜索字段的语义信息;
基于预先设定的分类类别和解析出的语义信息,对所述原始搜索字段进行分类。
进一步的,所述基于BERT语言模型的搜索方法,所述同义词扩写包括:
基于预先配置的同义词数据表和所述解析出的语义信息,获取与所述原始搜索字段语义相同的字段,得到扩写字段。
进一步的,所述基于BERT语言模型的搜索方法,所述句法分析包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安财产保险股份有限公司,未经中国平安财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911285760.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车垂直网站水军甄别方法
- 下一篇:为初创型企业估值的方法及系统