[发明专利]一种基于NER与复杂网络特征的新闻关键词提取方法有效
申请号: | 201910790303.0 | 申请日: | 2019-08-26 |
公开(公告)号: | CN110532390B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 纪明轩;宋玉蓉 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/295 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于NER与复杂网络特征的新闻关键词提取方法,将命名实体识别(Named Entities Recognition,NER)与自然语言中的复杂网络(Complex Networks,CN)特性相结合,提出了新型的关键词抽取方法——基于NER结合复杂网络特征的方法(NER‑CN),该方法首先对句子进行标注进行命名实体识别分析,然后构建文本复杂网络并根据网络中的节点的全局度量值进行关键词抽取。本发明所提出的关键词抽取方法相较于传统方法在文本分类的精确率,召回率和F1值等指标上有着显著的提高。 | ||
搜索关键词: | 一种 基于 ner 复杂 网络 特征 新闻 关键词 提取 方法 | ||
【主权项】:
1.一种基于NER与复杂网络特征的新闻关键词提取方法,其特征在于,包括以下步骤:/n步骤1:收集新闻内容,将新闻内容生成原始预料文件夹下文件列表,设置过滤阈值,字符数小于过滤阈值的内容被过滤掉,对于每个语料,正则匹配出url和content;所有的新闻内容将按照url中的类别分别保存在各个txt文件中;/n步骤2:对各个txt文件中的内容进行分词,使用结巴分词去停用词;/n步骤3:利用基于神经网络的命名实体识别方法对句子进行标注,而后进行日期识别,人名识别以及地名识别,提取出文本中重要的命名实体;/n步骤4:构建词语复杂网络;将步骤3得到的词语进行数字编码,将编码结果作为节点,使用距离2作为词语关联关系的距离,即距离在2以内的词语之间有连边,对每个句子循环判断;/nV={v1,v2…vn}为一有N个节点的集合,(vi,vj)表示节点vi∈V与vj∈V之间的边,G(V,E)是以V为节点集合,以 为边集合的图,节点vi的度中心性DCi为:/n /n其中,ki为节点的度,即与其相连的节点的个数,N为网络中节点的个数;/n计算一个节点vi到网络中所有节点的距离的平均值,记为di,即有:/n /n其中,dij是节点vi到节点vj的距离,网络中,所有节点间的距离平均值L用下面的公式进行计算:/n /n将di的倒数定义为节点vi的接近中心性,用记号CCi来表示:/n /n将接近中心性和度中心性进行结合得到新的节点重要度评价指标全局度量值,将节点vi的全局度量值用记号CMi表示:/nCMi=αDCi+βCCi (5)/n其中,DCi为网络中节点vi的度中心性,CCi为节点vi的接近中心性,α为度中心性可调节参数,β为接近中心性可调节参数,且α+β=1,根据得到的全局度量值提取出关键词。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910790303.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种文本聚类方法、装置和计算设备
- 下一篇:一种文本词性标注的方法及装置