[发明专利]一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质有效

专利信息
申请号: 202110242927.6 申请日: 2021-03-05
公开(公告)号: CN112861990B 公开(公告)日: 2022-11-04
发明(设计)人: 朱宇坤;何礼仁;陈林;蒋留振;潘格非;赵彬恒;莫洋;陈瑞东 申请(专利权)人: 电子科技大学
主分类号: G06K9/62 分类号: G06K9/62;G06F40/216;G06F40/289
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关键词 实体 主题 方法 设备 计算机 可读 存储 介质
【权利要求书】:

1.一种基于关键词和实体的主题聚类方法,其特征在于,所述方法包括:

对待处理的新闻进行文本预处理,提取当前新闻的关键词;以及对新闻的关键词进行实体识别处理,获取实体词及其类型,并对识别出的实体进行实体重定向处理;

所述实体重定向处理为:预构建一个实体名称库,对当前识别出的实体名称,若检索到未储存的实体名称,则将该实体名称上传到指定的检索网站匹配对应的检索实体名称,作为最佳实体名称;同时将该检索到的实体名称存入实体名称库;

基于所提取的新闻的关键词进行第一次聚类处理,获取新闻的子主题:

第一配置步骤:基于当前子主题库中各子主题的关键词库,得到关键词集合K;确定当前新闻的至少一个关键词是否属于关键词集合K,若是,则执行相似度匹配步骤,否则执行子主题新建步骤;

子主题新建步骤:新建一个子主题,并基于当前新闻的所有关键词得到其关键词库的初始值,并将该子主题及其关键词库存入子主题库中;

第一相似度匹配步骤:基于指定的相似度度量策略,基于关键词计算新闻与各子主题之间的相似度,将最大相似度的子主题作为当前新闻的子主题匹配结果,当与所匹配的子主题间的相似度大于第一相似度阈值时,则执行第一融合步骤;当与所匹配的子主题间的相似度小于或等于第一相似度阈值时,执行子主题新建步骤;

第一融合步骤:将当前新闻的所有关键词添加到与当前新闻匹配的子主题的关键词库中;

并确定该子主题的关键词库的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该子主题的关键词库中抽取出出现频率前T个最大的关键词作为新的子主题的关键词库,并将该新的子主题及其关键词库存入子主题库中;

基于子主题所包含的实体词,进行第二次聚类处理,获取新闻主题。

2.如权利要求1所述的方法,其特征在于,进行文本预处理时,确定文本语言种类,若为英文文本,则文本预处理包括:分词、词性标注、词性还原和词过滤;若为中文文本,则文本预处理包括:分词、词性标注和词过滤;其中,词过滤的对象包括:无用词及符号、停用词。

3.如权利要求1所述的方法,其特征在于,提取当前新闻的关键词具体为:将词过滤后得到词作为新闻的候选关键词,并对候选关键词进行词频统计,基于词频统计结果,将前T个词频最高的候选关键词作为该文本的关键词,其中,T为正整数。

4.如权利要求1所述的方法,其特征在于,基于子主题所包含的实体词,进行第二次聚类处理,获取新闻主题具体包括:

第二配置步骤:

基于子主题的关键词库,提取当前子主题的关键实体,作为当前子主题的新闻点;

基于当前主题库中各主题的新闻点集合,得到总新闻点集合E;

确定当前子主题新闻的至少一个新闻点是否属于总新闻点集合E,若是,则执行第二相似度匹配步骤;否则执行主题新建步骤;

主题新建步骤:

新建一个主题,直接将当前子主题的所有新闻点作为该新建的主题的新闻点集合,并将主题及其新闻点集合存入主题库中;

第二相似度匹配步骤:

基于指定的相似度度量策略,基于新闻点计算子主题与各主题之间的相似度,将最大相似度的主题作为当前子主题的主题匹配结果,当与所匹配的主题间的相似度大于第二相似度阈值时,则执行第二融合步骤;当与所匹配的主题间的相似度小于或等于第二相似度阈值时,执行主题新建步骤;

第二融合步骤:

将当前子主题的所有新闻点添加到与当前子主题匹配的主题的新闻点集合中;

并确定该主题的新闻点集合的最近更新时间距离当前时间的天数是否超过指定天数,若是,则从该主题的新闻点集合中抽取出出现频率前T′个最大的新闻点作为新的主题的新闻点集合,并将该主题及其新闻点集合存入主题库中。

5.如权利要求4所述的方法,其特征在于,第一相似度阈值小于第二相似度阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110242927.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top