[发明专利]一种基于新闻文本的话题提取方法有效
申请号: | 201510887551.9 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105354333B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 雷涛;吕慧;张鹏起 | 申请(专利权)人: | 天云融创数据科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100025 北京市朝阳区东四环中路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新闻 文本 话题 提取 方法 | ||
1.一种基于新闻文本的话题提取方法,其特征在于包括如下步骤:
1)构建用户自定义词典:确保提取的词语能够覆盖到新闻领域的常用词和新词;
2)文本预处理:对文本分词,生成包含词语文本,词性的分词序列向量;
3)词语权重计算:根据词频,文档频率,词性,词语长度以及词语首次在文章中出现的位置进行词语的权重计算;
4)提取每篇文章的主题词序列:根据词语的权重,从文章标题和文章内容的词语集合中提取出六个权重最大的词表示文章主题;
5)获取文本集合的热点主题词序列:将文本集合中所有主题词进行合并以获取文本集合的热点主题词序列;
6)获取热点话题主题词表达向量:依序从热点主题词序列中取出主题词作为线索词构建不同的话题主题词表达向量,用两个主题词表示一个热点话题,热点话题中包含的文本数量越多,则话题越热;具体包括:取出热点主题词序列中权重最高的词作为线索词,获取包含线索词的所有文章构成文章集合,从该文章集合中提取主题词,按照相同主题词权重相加并排序的方法取排序前5的主题词,所述线索词和每个所述主题词形成一个话题主题词表达向量,共获得5个话题主题词表达向量;依序取出热点主题词序列中权重排序次重、再次、…的词作为线索词,依上述步骤生成对应的话题主题词表达向量;将获得的所有话题主题词表达向量加入向量列表;
7)基于话题主题词表达向量进行话题凝聚:利用文章标题、文章主题词、文章内容与话题主题词表达向量中线索词的包含关系进行话题凝聚。
2.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(1)构建用户自定义词典,包括通过新词识别或者人工添加的方式扩充的新闻领域常用词、专用词或者新词。
3.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(2)文本预处理需要对每一个待处理的文本进行分词,并对文本进行停用词过滤,将文本表示成词及词性的向量形式。
4.根据权利要求1所述基于新闻文本的话题提取方法,其特征在于:所述步骤(3)词语权重计算方法分别对文章中的每个词语进行权重计算,计算步骤如下:
1)首先计算每篇文章中各个词的词频,文档频率和词性对文章的影响权重
Wa(t,d)=log2(tf(t,d))*log2(Nd/nt)*W(POS(t))
式中:tf(t,d)表示词语t在文档d中出现的频率;Nd表示文档集合中文档数目,nt表示包含该词语的文档数目;W(POS(t))表示词语t的词性权重,当词性为名词时权重为2,当词性为用户自定义时权重为1.8,当词性为动词时权重为1.5,其余词性权重为1;
2)计算词语长度和词语在文章中首次出现的位置对词语权重影响:
Wb(t,d)=len(t)*W(pos(t,d))
式中:len(t)表示词语t的长度;W(pos(t,d))表示词语t在文章d中的位置权重,W(pos(t,d))=(N-firstpos(t))/N,其中N为文章词语总数,firstpos(t)表示词语t在文章中首次出现的位置;
3)对词语权重两部分分别进行归一化处理如下:
4)计算出词语在文章中的权重:
W(t,d)=a*norm(Wa(t,d))+b*norm(Wb(t,d))
式中:W(t,d)表示词语t在文章d中的权重;a,b表示权重系数,其中a+b=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天云融创数据科技(北京)有限公司,未经天云融创数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510887551.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:标签剥离机
- 下一篇:具有不同器件外延层的集成电路技术