[发明专利]搜索方法、装置及智能终端在审

专利信息
申请号: 201810788995.0 申请日: 2018-07-17
公开(公告)号: CN109063046A 公开(公告)日: 2018-12-21
发明(设计)人: 马建华;杨晴龙 申请(专利权)人: 广州资宝科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 王文红
地址: 510000 广东省广州市白云区同和街同沙路*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索 分词 语句 分词结果 智能终端 准确度 模糊搜索 语句输入 输出
【说明书】:

发明提供了一种搜索方法、装置及智能终端,涉及搜索技术领域,该方法包括获取待搜索的语句;将语句输入至预先训练得到的分词模型;获取分词模型针对语句输出的分词结果;基于分词结果进行模糊搜索。本发明通过对语句进行合理分词,能够有效提升搜索准确度。

技术领域

本发明涉及搜索技术领域,尤其是涉及一种搜索方法、装置及智能终端。

背景技术

目前网络发展迅速,通过网络搜索所需信息已成为人们获知信息的常用方式。而目前的网络在对用户输入的语句进行搜索时,大多采用字符串匹配方式,但这种方式难以处理具有中文歧义的语句,容易造成语句理解错误。诸如,用户输入“西安市长安区”,理想的语句分词结果是“西安市/长安区”,并基于“西安市/长安区”进行搜索;但网络有可能得到的分词结果为“西安/市长/安区”,从而导致搜索结果并不准确,用户体验度不高。

发明内容

有鉴于此,本发明的目的在于提供一种搜索方法、装置及智能终端,通过对语句进行合理分词,能够有效提升搜索准确度。

为了实现上述目的,本发明实施例采用的技术方案如下:

第一方面,本发明实施例提供了一种搜索方法,该方法包括:获取待搜索的语句;将语句输入至预先训练得到的分词模型;获取分词模型针对语句输出的分词结果;其中,分词模型是根据语句的语境对语句进行分词处理的;且分词结果包括标注有词性的短词;基于分词结果进行模糊搜索。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,获取待搜索的语句的步骤,包括:获取搜索系统的基础数据;基础数据包括商品应用日志和/或用户搜索日志;从基础数据中提取待搜索的语句。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据语句的语境对语句进行分词处理的步骤,包括:根据词义对语句进行划分,得到至少一个短词;获取每个短词的多种词性,以及语句的多种语境;计算短词的每种词性在各种语境下的先验概率;根据先验概率,确定短词对应的状态转移矩阵;根据状态转移矩阵,确定短词对应的混淆矩阵;根据先验概率、状态转移矩阵和混淆矩阵,确定短词的每种词性对应的词性概率;根据短词的每种词性对应的词性概率,确定短词的当前词性;根据短词的当前词性,对短词进行词性标注。

结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,分词模型的训练过程包括:从预先建立的语料词库中获取训练语句;每个训练语句均表示为标注有词性的短句;采用训练语句对待训练的分词模型进行训练,直至确定待训练的分词模型的模型参数时,停止训练。

结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,分词模型的模型参数包括先验概率、状态转移矩阵和混淆矩阵;其中,先验概率为:短词的不同词性在不同语境下的概率;状态转移矩阵为:短词在不同语境下,由一种语境中的一种词性转移到另一种语境中的一种词性的概率形成的矩阵;混淆矩阵为:短词的不同词性在不同语境下的概率形成的矩阵。

结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,先验概率的计算公式为:

其中,Ai表示A事件集合的第i个事件,B表示B事件集合,n表示A事件集合的事件总数。

结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,状态转移矩阵的计算公式为:

其中,#(St-1,St)表示不同的两个词性前后出现的次数,#(St-1)表示词性St-1出现的次数。

结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,混淆矩阵的计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州资宝科技有限公司,未经广州资宝科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810788995.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top