[发明专利]一种基于新闻文本的话题提取方法有效
申请号: | 201510887551.9 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105354333B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 雷涛;吕慧;张鹏起 | 申请(专利权)人: | 天云融创数据科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100025 北京市朝阳区东四环中路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于新闻文本的话题提取方法。操作步骤如下:第一,设置用户自定义词典,并对文本进行预处理,生成词语文本,词性和分词序列向量。第二,根据词频等词语信息进行权重计算并排序,从新闻标题和内容中提取出权重较大的词语作为该文章的主题词序列。第三,根据所有文章的主题词权重获取文本集合的热点主题词序列。第四,通过主题词组合形成话题的主题词表达向量。第五,利用文章标题、主题词、内容与话题的主题词表达向量中线索词的包含关系进行话题聚合,最终获得多个热点话题。本发明通过利用文章主题词来表达文章主题并进行相关文章聚合,最终利用两个线索词表示当前的一个热点新闻话题。 | ||
搜索关键词: | 一种 基于 新闻 文本 话题 提取 方法 | ||
【主权项】:
1.一种基于新闻文本的话题提取方法,其特征在于包括如下步骤:1)构建用户自定义词典:确保提取的词语能够覆盖到新闻领域的常用词和新词;2)文本预处理:对文本分词,生成包含词语文本,词性的分词序列向量;3)词语权重计算:根据词频,文档频率,词性,词语长度以及词语首次在文章中出现的位置进行词语的权重计算;4)提取每篇文章的主题词序列:根据词语的权重,从文章标题和文章内容的词语集合中提取出六个权重最大的词表示文章主题;5)获取文本集合的热点主题词序列:将文本集合中所有主题词进行合并以获取文本集合的热点主题词序列;6)获取热点话题主题词表达向量:依序从热点主题词序列中取出主题词作为线索词构建不同的话题主题词表达向量,用两个主题词表示一个热点话题,热点话题中包含的文本数量越多,则话题越热;具体包括:取出热点主题词序列中权重最高的词作为线索词,获取包含线索词的所有文章构成文章集合,从该文章集合中提取主题词,按照相同主题词权重相加并排序的方法取排序前5的主题词,所述线索词和每个所述主题词形成一个话题主题词表达向量,共获得5个话题主题词表达向量;依序取出热点主题词序列中权重排序次重、再次、…的词作为线索词,依上述步骤生成对应的话题主题词表达向量;将获得的所有话题主题词表达向量加入向量列表;7)基于话题主题词表达向量进行话题凝聚:利用文章标题、文章主题词、文章内容与话题主题词表达向量中线索词的包含关系进行话题凝聚。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天云融创数据科技(北京)有限公司,未经天云融创数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510887551.9/,转载请声明来源钻瓜专利网。
- 上一篇:标签剥离机
- 下一篇:具有不同器件外延层的集成电路技术