[发明专利]主题挖掘方法、装置及存储介质、计算机设备在审
申请号: | 201910008641.4 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109800429A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 于凤英;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳市立智方成知识产权代理事务所(普通合伙) 44468 | 代理人: | 王增鑫 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会议论文 分词 主题挖掘 团体 计算机设备 数据库 语义 存储介质 相关信息 会议 加权 潜在语义分析 分组 定向数据 关联性 研究 集合 追踪 支撑 | ||
1.一种基于会议团体的主题挖掘方法,其特征在于,包括:
获取历史多篇会议论文的相关信息,根据所述相关信息得到会议论文数据库;所述相关信息包括会议论文作者以及会议论文标题;
根据关联性规则从所述会议论文数据库中获取会议作者团体;所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合;
根据所述会议作者团体将会议论文进行分组,获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值;
对所述分词进行潜在语义分析,获取每个所述分词在对应会议论文中的语义;
根据每个所述分词的加权值和每个所述分词对应的所述语义,确定所述会议作者团体的主题。
2.根据权利要求1所述的方法,其特征在于,所述关联性规则包括频繁模式算法;所述根据关联性规则从所述会议论文数据库中获取会议作者团体,包括:
通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者,根据所述关联性的会议论文作者得到所述会议作者团体。
3.根据权利要求2所述的方法,其特征在于,所述频繁模式算法包括Apriori算法或FP-Growth算法;所述通过所述频繁模式算法中的频繁项集方式获取所述会议论文数据库中存在关联性的会议论文作者,包括:
将每篇所述会议论文中的会议论文作者与会议论文标题进行关联,
通过所述频繁模式算法中的频繁项集方式获取同一会议论文标题的会议论文作者,得到所述关联性的会议论文作者。
4.根据权利要求1所述的方法,其特征在于,所述根据所述会议作者团体将会议论文进行分组,包括:
获取所述会议作者团体中每个会议论文作者参与的会议论文的第一主题信息;
统计所述会议作者团体对应所有的所述第一主题信息,确定出所述会议作者团体的第二主题信息;
根据所述第二主题信息将将会议论文进行分组。
5.根据权利要求1所述的方法,其特征在于,所述获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值,包括:
获取每个分组的会议论文中的分词,采用TF-IDF算法获取每个所述分词的加权值。
6.根据权利要求5所述的方法,其特征在于,所述对所述分词进行潜在语义分析,获取每个所述分词在对应会议论文中的语义,包括:
采用LSA算法对每个所述分词进行潜在语义分析,得到每个所述分词在对应会议论文中的语义。
7.根据权利要求6所述的方法,其特征在于,所述根据每个所述分词的加权值和每个所述分词对应的所述语义,确定所述会议作者团体的主题,包括:
根据每个所述分词的加权值筛选出加权值大于预设值的分词作为第一待选取主题词;
根据每个所述分词在对应会议论文中的语义,确定第二待选取主题词;
将所述第一待选取主题词和所述第二待选取主题词进行对比,根据对比结果确定所述会议作者团体的主题。
8.一种基于会议团体的主题挖掘装置,其特征在于,包括:
第一获取模块,用于获取历史多篇会议论文的相关信息,根据所述相关信息得到会议论文数据库;所述相关信息包括会议论文作者以及会议论文标题;
第二获取模块,用于根据关联性规则从所述会议论文数据库中获取会议作者团体;所述会议作者团体为所述会议论文数据库中多个所述会议论文作者构成的集合;
第三获取模块,用于根据所述会议作者团体将会议论文进行分组,获取每个分组对应的所述会议论文标题的分词以及每个分词的加权值;
第四获取模块,用于对所述分词进行潜在语义分析,获取每个所述分词在对应会议论文中的语义;
确定模块,用于根据每个所述分词的加权值和每个所述分词对应的所述语义,确定所述会议作者团体的主题。
9.一种存储介质,其特征在于,其上存储有计算机程序;所述计算机程序适于由处理器加载并执行上述权利要求1至7中任一项所述的基于会议团体的主题挖掘方法。
10.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行根据权利要求1至7任一项所述的基于会议团体的主题挖掘方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910008641.4/1.html,转载请声明来源钻瓜专利网。