[发明专利]基于SVM分类模型的用户查询信息及意图提取方法及装置有效
申请号: | 202010600199.7 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111488451B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 杨贻宏 | 申请(专利权)人: | 上海飞旗网络技术股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332;G06F16/35;G06K9/62 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨俊华 |
地址: | 200120 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 svm 分类 模型 用户 查询 信息 意图 提取 方法 装置 | ||
本发明提供了一种基于SVM分类模型的用户查询信息及意图提取方法及装置。在执行上述方法时,通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词,避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息,能够将终端设备的历史目标查询记录考虑在内,进而确保目标主题信息能够准确地表达终端设备的意图。如此,通过对关键词进行挖掘和分类,能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息,这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。
技术领域
本发明涉及大数据健康信息搜索查询技术领域,具体而言,涉及一种基于SVM分类模型的用户查询信息及意图提取方法及装置。
背景技术
随着大健康时代的到来,越来越多的用户通过网络进行健康信息的搜索和咨询。搜索引擎作为常用的网络搜索工具之一,可以基于用户输入的查询词句进行健康信息的搜索和展示。但是搜索引擎接收到的查询词句大多是简短且不具有逻辑信息的多个关键词,若直接通过这些关键词进行健康信息的搜索,得到的搜索结果可能与用户的搜索需求和搜索意图存在偏差。
发明内容
为了改善上述问题,本发明提供了一种基于SVM分类模型的用户查询信息及意图提取方法及装置。
所述方案揭示一种基于SVM分类模型的用户查询信息及意图提取方法,应用于搜索引擎,所述方法包括:
获取终端设备发送的多个关键词以及所述终端设备的设备标识;
将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词;
确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息;
提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量;
计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息;
基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
优选地,所述方法还包括:
计算所述目标主题信息和预设主题信息之间的词向量相似度;
判断所述词向量相似度是否超过设定阈值;
若所述词向量相似度超过所述设定阈值,则向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
优选地,确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息,包括:
确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息;
在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词;
将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
优选地,从预设的运行日志中确定与所述设备标识对应的目标查询记录,包括:
获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录;
在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息;其中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库;
若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海飞旗网络技术股份有限公司,未经上海飞旗网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010600199.7/2.html,转载请声明来源钻瓜专利网。