[发明专利]一种基于新闻文本的话题提取方法有效
申请号: | 201510887551.9 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105354333B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 雷涛;吕慧;张鹏起 | 申请(专利权)人: | 天云融创数据科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100025 北京市朝阳区东四环中路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新闻 文本 话题 提取 方法 | ||
本发明涉及一种基于新闻文本的话题提取方法。操作步骤如下:第一,设置用户自定义词典,并对文本进行预处理,生成词语文本,词性和分词序列向量。第二,根据词频等词语信息进行权重计算并排序,从新闻标题和内容中提取出权重较大的词语作为该文章的主题词序列。第三,根据所有文章的主题词权重获取文本集合的热点主题词序列。第四,通过主题词组合形成话题的主题词表达向量。第五,利用文章标题、主题词、内容与话题的主题词表达向量中线索词的包含关系进行话题聚合,最终获得多个热点话题。本发明通过利用文章主题词来表达文章主题并进行相关文章聚合,最终利用两个线索词表示当前的一个热点新闻话题。
技术领域
本发明涉及自然语言处理,人工智能领域,具体涉及一种基于新闻文本的话题提取方法。
背景技术
随着互联网的普及,人们获取信息的方式越来越多,网络逐渐成为社会中各种信息的载体。特别是随着中国经济的不断发展,网上新闻产品逐渐成为人们获取信息的重要渠道,越来越多的人通过网络获取实时新闻及其相关信息。Web文本已成为我们获取信息的重要来源,每天都有大量的新闻热点产生,如何从海量的新闻文本中获取当前讨论的热点话题已经成为新闻文本处理必备的基础技术。
一般的文本聚类技术大多采用机器学习算法中的自动文本聚类方法,首先对文本进行预处理,将文本表示成特征词的向量表示,然后根据文本的相似性进行聚类。对文本进行聚类多采用single-pass算法,K最邻近结点算法(KNN),k-means算法等。这些聚类算法都存在着各种各样的缺点,single-pass算法与文章输入的顺序相关性很大;KNN算法则存在时间复杂度较高;而k-means算法则必须提前确定聚类个数,但是这点通常是比较困难的。并且这些算法在聚类完成以后得到的聚类结果往往不知所云,我们无法用具体的词汇或内容来表示聚类结果。
发明内容
大多数网络新闻产品往往只是简单地将实时新闻报道或信息展现给用户,很难对新闻按照内容进行组织归类,而且通过人工的方式来提取当前热点新闻是一件非常繁琐和困难的事情。本发明基于文本主题词的提取算法,通过热点词组合的聚类技术来获取当前文本集合的热点话题。用两个热点主题词表示一个话题,即克服了一个热点词表示话题的片面性,同时又将相关的文章进行了聚合。
本文提供了一种文本聚类的方法,用于提取当前文本集合的热点话题,帮助用户更好的掌握当前新闻的热点。从互联网上采集近期的新闻文本,然后通过主题词提取算法,从各篇文章中提取出主题词形成该文章的主题词序列,通过各篇文章的主题词序列综合计算出当前文本集合的热点主题词序列,并用热点主题词组合的方式表示热点话题;一般两个热点主题词就可以表示当前的一个热点话题。如:“GDP”和“增速”,通过这两个词我们就可以知道当前讨论的一个热点是与我国的GDP增长速度相关的新闻话题。
上述发明包括如下步骤:
步骤1:通过人工添加或新词识别的方法,构建新闻领域词典,确保提取的词语能够覆盖到新闻领域的常用词和新词。
步骤2:文本预处理。对当前新闻文本集合中所有文本进行分词处理,并进行停用词过滤,得到分词后的包含词语和词性的分词序列向量。
步骤3:统计词语频率,文档频率,以及每篇文章中每个词语在文章中首次出现的位置。
步骤4:根据词语权重抽取每篇文章的主题词。文章的主题词定义为通过一定方式从文章标题和内容中抽取出来的,能够简要精准地表达该文章主要思想的词语集合。词语权重计算过程为:根据统计信息计算文章中各个词语的权重,词语的权重代表了词语在文章中的表达性重要程度,每个词语对文章的权重影响由两部分组成,可表示为,
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天云融创数据科技(北京)有限公司,未经天云融创数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510887551.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:标签剥离机
- 下一篇:具有不同器件外延层的集成电路技术