[发明专利]基于频繁项集的模板自动挖掘系统及其方法在审

专利信息
申请号: 201911382005.4 申请日: 2019-12-28
公开(公告)号: CN111597322A 公开(公告)日: 2020-08-28
发明(设计)人: 何立华;贺小勇 申请(专利权)人: 华南理工大学
主分类号: G06F16/335 分类号: G06F16/335;G06F40/289
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍;江裕强
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 频繁 模板 自动 挖掘 系统 及其 方法
【权利要求书】:

1.基于频繁项集的模板自动挖掘系统,其特征在于,包括意图识别模块、类目词替换模块、频繁项集挖掘模块、筛选模板模块、模板排序模块;

所述意图识别模块用于对用户的历史搜索记录进行意图识别,并将经过意图识别后的记录发送至类目词替换模块;

所述类目词替换模块用于对经过意图识别以后的记录进行切词,替换类目词,并将替换类目词后的记录发送至频繁项集挖掘模块;

所述频繁项集挖掘模块用于对替换类目词后的记录进行频繁项集挖掘并将挖掘的结果发送至筛选模板模块;

所述筛选模板模块根据频繁项集挖掘模块得到的结果对替换类目词后的记录进行筛选,得到初步的模板并将其发送至模板排序模块;

所述模板排序模块计算最初的模板的熵值以及与已有匹配词的相似度,并根据熵值、相似度以及搜索记录次数对模板进行排序,得到最终的模板;

所述意图识别模块中,采用相关记录训练意图识别模型,所述相关记录指的是用户的搜索记录,所述意图识别模型包括fasttext模型,采用训练完的意图识别模型对历史搜索记录进行意图识别;

所述训练意图识别模型是输入带有类目标签的数据,模型的输出为对应的类目标签,经过训练使得意图模型根据输入的记录计算该记录分别属于各个类目的概率并输出其中概率最大的类目;

所述类目词替换模块中,采用结巴分词对经过意图识别的记录进行切词,将记录中和固定类相关的词语替换成固定类目词;

所述频繁项集挖掘模块中,对替换类目词后的记录进行切词;对切词以后得到的单词进行去重并且去掉标点符号作为待挖掘的项,利用关联规则挖掘算法进行挖掘,然后将挖掘得到的结果发送至筛选模板模块;

所述筛选模板模块中,对满足置信度的频繁项保留下来,然后把包括特定频繁项的记录保留得到挖掘模板,所述置信度的计算公式如下:

其中P(A)指的是A出现的概率,P(AB)指的是A和B同时出现的概率;

所述模板排序模块中,计算同一类型模板中配模词的可能性,利用熵值来评价模板的通用性,所述熵值排序,衡量的是带有固定类目词所包括的可能性个数,熵值S的计算公式如下:

S=-∑p(A)log(p(A));

用余弦相似度计算与已有词表的相似度,根据熵值,与已有词表的相似度以及搜索记录的次数,训练LR模型即排序模型对模板进行排序,排序模型用到的是LR算法首先训练模型得到排序优先度占比参数,再根据熵值、与已有词表的相似度以及搜索记录次数的优先度占比参数对模板进行排序;

所述排序模型的训练方法是,首先人工收集历史记录数据,与训练类目相关的数据打上标签‘1’,不相关的打上标签‘0’,然后输入到排序模型里面去训练,得到排序模型的优先度占比参数,下次输入新的记录安装该参数进行排序。

2.根据权利要求1所述的基于频繁项集的模板自动挖掘系统,其特征在于,所述关联规则挖掘算法,包括FP-Growth算法。

3.利用权利要求1所述的基于频繁项集的模板自动挖掘系统的模板自动挖掘方法,其特征在于,包括以下步骤:

S1:输入用户的历史记录,采用意图识别模块对用户的历史记录进行意图识别;

S2:采用类目词替换模块对经过意图识别的记录用结巴分词进行切词,将记录中和固定类相关的词语替换成固定类目词,得到替换类目词后的记录;

S3、采用频繁项集挖掘模块对替换类目词后的记录用结巴分词进行切词并且进行去重,把切词以后得到的词语作为待挖掘的项;

S4:把经过S3处理的项输入FP-Growth算法,筛选指标选择支持度以及置信度,采用筛选模板模块把满足支持度,置信度阈值的结果筛选出来;

S5:遍历S1中处理得到的记录,把同时包含S4中频繁项的结果保留下来得到初步的模板;

S6:根据S5得到的模板,采用模板排序模块根据模板的熵值、与已有词表的相似度、搜索记录的次数,训练排序模型进行排序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911382005.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top