[发明专利]基于频繁项集的模板自动挖掘系统及其方法在审

专利信息
申请号: 201911382005.4 申请日: 2019-12-28
公开(公告)号: CN111597322A 公开(公告)日: 2020-08-28
发明(设计)人: 何立华;贺小勇 申请(专利权)人: 华南理工大学
主分类号: G06F16/335 分类号: G06F16/335;G06F40/289
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍;江裕强
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 频繁 模板 自动 挖掘 系统 及其 方法
【说明书】:

本发明公开了基于频繁项集的模板自动挖掘系统及其方法。所述系统包括意图识别模块、类目词替换模块、频繁项集挖掘模块、筛选模板模块、模板排序模块;意图识别模块对用户的历史搜索记录进行意图识别;类目词替换模块用于对经过意图识别以后的记录进行切词,替换类目词;频繁项集挖掘模块用于对替换类目词后的记录进行频繁项集挖掘;所述筛选模板模块根据频繁项集挖掘模块得到的结果对替换类目词后的记录进行筛选;模板排序模块并根据熵值、相似度、搜索记录次数对模板进行排序,得到最终的模板。本发明利用FP‑growth算法挖掘搜索模板,相对于已有技术,可以保留一些长尾的低支持度但是高质量的记录。

技术领域

本发明涉及搜索模板自动挖掘领域,尤其涉及基于频繁项集的模板自动挖掘系统及其方法。

背景技术

在垂直搜索中,当用户的搜索关键词与数据库中的规则词匹配时,就会返回数据库中的相关数据。实际应用中,用户的搜索关键词是多样的,很难手动配置所有的匹配词,随着搜索种类数目的增加,手动配置显然是一个不现实的做法,因此设计算法自动挖掘出用户常用的搜索模板就很有必要。当前的研究主要是从用户的历史数据中挖掘搜索模板,典型的代表为百度的搜索技术专利《需求识别模板的自动挖掘方法、需求识别方法及对应装置》,该技术提供了一种识别模板的自动挖掘方法。具体的步骤为:在搜索日志中确定预设类型对应的记录集合;从集合中选择对应预设类型被点击次数超过预设次数的记录,组成种子模板;将种子模板中的预设类型词与预设词典的词语进行匹配,替换成类型属性词;得到模板。

该技术的缺陷主要表现在:会丢弃一些具有潜在模板意图的记录。比如“七天酒店多少钱”,“如家酒店多少钱”这两个记录公共的部分就是“酒店多少钱”,按照现有技术,如果两个记录的点击量比较低就会剔除在外,实际上是有模板意图的。

发明内容

为解决上述现有技术存在的问题,本发明提出了基于频繁项集的模板自动挖掘系统及其方法,首先把记录切词,然后挖掘频繁项,这里的频繁项是“酒店”,“多少钱”,然后把同时包含着两个频繁项的记录都保留下来,因此可以保持一些长尾低支持度高质量的记录。

本发明的目的至少通过如下技术方案之一实现。

基于频繁项集的模板自动挖掘系统,包括意图识别模块、类目词替换模块、频繁项集挖掘模块、筛选模板模块、模板排序模块;

所述意图识别模块用于对用户的历史搜索记录进行意图识别,并将经过意图识别后的记录发送至类目词替换模块;

所述类目词替换模块用于对经过意图识别以后的记录进行切词,替换类目词,并将替换类目词后的记录发送至频繁项集挖掘模块;

所述频繁项集挖掘模块用于对替换类目词后的记录进行频繁项集挖掘并将挖掘的结果发送至筛选模板模块;

所述筛选模板模块根据频繁项集挖掘模块得到的结果对替换类目词后的记录进行筛选,得到初步的模板并将其发送至模板排序模块;

所述模板排序模块计算最初的模板的熵值以及与已有匹配词的相似度,并根据熵值,相似度以及搜索记录的次数对模板进行排序,得到最终的模板。

进一步地,所述意图识别模块中,采用相关记录训练意图识别模型,所述相关记录指的是用户的搜索记录,所述意图识别模型包括fasttext模型,采用训练完的意图识别模型对历史搜索记录进行意图识别;

所述训练意图模型是输入带有类目标签的数据,模型的输出为对应的类目标签,比如输入有:‘酒店多少钱’,标签是‘酒店’;‘天气怎么样’,标签是‘天气’,训练的时候给模型的输入是‘酒店多少钱’,‘天气怎么样’,输出是‘酒店’,‘天气’,输入大量带标签的数据后这个模型就会去学习其中的参数,经过训练使得意图模型根据输入的记录计算该记录分别属于各个类目的概率并输出其中概率最大的类目,比如新输入‘附近酒店’,模型给出的概率中,酒店类的概率最大,就把这个分到酒店类,属于其他的概率比较小,就不会分到其他类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911382005.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top