[发明专利]一种信息处理方法、装置、服务器及存储介质在审
申请号: | 201910700866.6 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110413738A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 卓达城 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F17/27 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索指令 文本信息 文本 匹配 词语 特征向量 词库 特征向量集合 存储介质 倒排索引 信息处理 服务器 信息处理装置 参数确定 分词处理 网络资源 保证 统一 | ||
本发明提供了一种信息处理方法,包括:获取与用户的搜索指令相对应的搜索指令文本;对搜索指令文本进行分词处理,形成与搜索指令文本相对应的词语级特征向量集合,确定与搜索指令文本相对应的词语级特征向量相匹配的分词库的参数;根据分词库参数确定相应的文本倒排索引;通过文本倒排索引,获取与词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息;根据每一个词语级特征向量相匹配的文本信息,确定与搜索指令相匹配的文本信息。本发明还提供了信息处理装置、服务器及存储介质。本发明能够实现了用户的搜索指令和网络资源中不同文本信息的分词库的统一,保证了用户能够获得与搜索指令相匹配的文本信息,有效提升了用户的使用体验。
技术领域
本发明涉及信息处理技术,尤其涉及信息处理方法、装置、服务器及存储介质。
背景技术
随着计算机技术的不断发展,分词技术已经广泛应用于搜索系统、机器翻译、语音合成、自动摘要等领域。其中,分词技术是指将一句或者一段文字切分成一个一个词语的技术。
相关技术中,通常是利用基于统计的分词模型或基于单词词典的分词模型,对待分词语句进行分词处理。但是,当前的分词模型,往往是通过对特定语言的语料训练后得到的,从而对其它语言进行分词处理时,准确性较低,用户体验差,同时,由于用户的搜索指令和互联网资源中的不同文本信息所使用的分词库版本不一致,可能导致搜索结果质量下降,影响用户的使用体验。
发明内容
有鉴于此,本发明实施例提供一种信息处理方法、装置、服务器及存储介质,能够实现分词库版本一致,有效提升搜索结果的质量,提高用户的使用体验。
本发明实施例的技术方案是这样实现的:
本发明提供了一种信息处理方法,所述方法包括:
获取与用户的搜索指令相对应的搜索指令文本;
对所述搜索指令文本进行分词处理,形成与所述搜索指令文本相对应的词语级特征向量集合,其中,所述词语级特征向量集合包括至少一个词语级特征向量;
确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数;
根据所述分词库参数确定相应的文本倒排索引;
通过所述文本倒排索引,获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息;
根据所述每一个词语级特征向量相匹配的文本信息,确定与所述搜索指令相匹配的文本信息。
本发明还提供了一种信息处理装置,所述装置包括:
信息传输模块,用于获取与用户的搜索指令相对应的搜索指令文本;
信息处理模块,用于对所述搜索指令文本进行分词处理,形成与所述搜索指令文本相对应的词语级特征向量集合,其中,所述词语级特征向量集合包括至少一个词语级特征向量;
所述信息处理模块,用于确定与所述搜索指令文本相对应的词语级特征向量相匹配的分词库的参数;
所述信息处理模块,用于根据所述分词库参数确定相应的文本倒排索引;
所述信息处理模块,用于通过所述文本倒排索引,获取与所述词语级特征向量集合中的每一个词语级特征向量相匹配的文本信息;
所述信息处理模块,用于根据所述每一个词语级特征向量相匹配的文本信息,确定与所述搜索指令相匹配的文本信息。
上述方案中,
所述信息处理模块,用于根据所述搜索指令文本所携带的搜索指令参数信息,触发相应的分词库;
所述信息处理模块,用于通过所触发的所述分词库单词词典对所述搜索指令文本进行分词处理,形成不同的词语级特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910700866.6/2.html,转载请声明来源钻瓜专利网。