[发明专利]热点话题检测方法及装置有效

申请号：	201811260532.3	申请日：	2018-10-26
公开（公告）号：	CN109582783B	公开（公告）日：	2020-10-02
发明（设计）人：	徐常胜;方全;李泳锡	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/34;G06F16/36
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	热点话题检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种热点话题检测方法，其特征在于，所述方法包括：

基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要；

使用LSH算法计算所述摘要的文档指纹；

基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别；

其中，所述预设实体知识库是基于知识图谱结构构建的知识库；

其中，“基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要”的具体步骤包括：

对所述目标文本进行分割得到若干个句子；

根据评分算法计算所述目标文本中每个句子的得分；

将每个句子按照得分进行排序，选取排名靠前的设定数量的句子作为摘要；

其中，“根据评分算法计算所述目标文本中每个句子的得分”的具体步骤包括：

按照下式计算句子的得分：

其中，α、β、γ、θ是预设的权重因子；f_g是句子seq_i中包含的所述实体知识库中实体的数量；seq_i是所述目标文本分割后得到的句子的集合中第i个句子，也是当前待评分句子；title是所述目标文本的标题；S(title,seq_i)表示句子seq_i与所述目标文本的标题的相似度；集合U是预设训练集中与所述目标文本相同内容源的文本的句子的集合；seq_u是所述集合U中第u个句子，S(seq_i,seq_u)是句子seq_i与句子seq_u的相似度；集合S是预设训练集中与所述目标文本不同内容源的文本的句子的集合；seq_s是所述集合S中第s个句子，S(seq_i,seq_s)是句子seq_i与句子seq_s的相似度。

2.根据权利要求1所述的热点话题检测方法，其特征在于，所述方法包括：

按照下式分别计算所述S(seq_i,seq_u)和所述S(seq_i,seq_s)：

其中，|{w_k│w_k∈titlew_k∈seq_i}|是在句子seq_i和所述目标文本的标题中同时出现的单词数量；|{w_k│w_k∈seq_iw_k∈seq_u}|是在句子seq_i与句子seq_u中同时出现的单词数量；|{w_k│w_k∈seq_iw_k∈seq_s}|是在句子seq_i与句子seq_s中同时出现的单词数量；f_i是句子seq_i的特征向量；f_t是所述目标文本的标题的特征向量；f_u是句子seq_u的特征向量；f_s是句子seq_s的特征向量；S(f_i,f_t)是特征向量f_i与特征向量f_t的相似度；S(f_i,f_u)是特征向量f_i与特征向量f_u的相似度；S(f_i,f_s)是特征向量f_i与特征向量f_s的相似度；|seq_i|是句子seq_i的单词数量；|title|是所述目标文本的标题的单词数量；|seq_u|是句子seq_u的单词数量；|seq_s|是句子seq_s的单词数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811260532.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于用弱监督深度学习的文本聚类方法
下一篇：文本分类方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]热点话题检测方法及装置有效

专利文献下载