[发明专利]企业信息搜索方法及装置有效
申请号: | 201911222316.4 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111008265B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 司徒健聪;张甸 | 申请(专利权)人: | 腾讯云计算(北京)有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业信息 搜索 方法 装置 | ||
本申请公开了企业信息搜索方法及装置,预先对企业信息的全文中包含的预设索引字词进行自动标注,创建得到标注后的企业信息,而且,标注后的企业信息基于企业信息的全文内容进行标注,标注深度深。用户进行搜索时,可以输入自然语言作为搜索内容,该方案解析该搜索内容得到对应的搜索关键字词。然后,从全文检索库中搜索与该搜索关键字词相匹配的企业信息。该方案不需要额外限定该搜索关键字词对应的企业数据的属性,因此,用户不需要在搜索前明确搜索关键字词所属的数据属性,降低了用户的搜索负担。同时,不需要限定搜索关键字词的数据属性,而是从基于全文内容进行标注后的企业信息进行搜索匹配,搜索结果的准确率更高。
技术领域
本申请涉及搜索技术领域,尤其涉及企业信息搜索方法及装置。
背景技术
目前的企业信息搜索方案主要是基于企业数据的不同属性进行关键字检索。用户在查询时必须明确知道需要查询的内容对应的属性,例如,需要查询某公司名称则必须把公司名称填入对应的标题的文本框中,如果填入其它标题的文本框中则无法查询到匹配的内容。
但是,不同企业的信息对应的属性数据差异很大,用户使用时很难确定查询关键字所对应的属性,例如,用户知道该公司的电话但是不知道该电话是法人电话还是公司电话或是分公司电话,用户使用时必须获知查询内容所匹配的属性,因此使用负担重。而且,此种方式的查询结果准确率较低。
发明内容
有鉴于此,本申请提供了企业信息搜索方法及装置,以解决传统方案中搜索结果准确率低的问题,其公开的具体技术方案如下:
一方面,本申请提供了一种企业信息搜索方法,包括:
获取搜索内容;
解析所述搜索内容获得对应的搜索关键字词;
从预先创建的全文检索库中搜索与所述搜索关键字词相匹配的企业信息,所述全文检索库中存储标注有索引字词的企业信息;
其中,所述索引字词通过对企业信息的全文进行分词处理并对与预设索引词相匹配的字词进行标注得到,所述预设索引词包括表征政务和商务意义的企业术语。
在一种可能的实现方式中,对企业信息进行自动标注的过程,包括:
对待标注企业信息的全文进行分词处理得到分词结果;
将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词;
建立所述目标索引字词与所述待标注企业信息之间的关联关系,得到标注后的企业信息。
在另一种可能的实现方式中,将所述分词结果与预设索引词库中的索引词进行对比,确定与所述索引词相匹配的分词为目标索引字词,包括:
对于所述分词结果中的每一个分词,计算该分词与所述预设索引词库中的任一索引词之间的相似度;
当所述相似度大于或等于相似度阈值范围时,确定分词与所述索引词相匹配;
获取所述索引词对应的预先设定的权重,以及与所述索引词相匹配的分词在所述待标注企业信息中出现的频率;
依据分词出现的频率及与该分词相匹配的索引词的权重,选取目标索引字词。
在另一种可能的实现方式中,所述方法还包括:
从预设时间段内获得的搜索关键字词中查找无命中字词,所述无命中字词表征从所述全文检索库中未搜索到相匹配的企业信息的搜索关键字词;
统计所述无命中字词在所述预设时间段内出现的次数;
当所述次数大于或等于预设次数范围时,将该无命中字词添加至所述预设索引词库中,得到更新后的预设索引词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(北京)有限责任公司,未经腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911222316.4/2.html,转载请声明来源钻瓜专利网。