[发明专利]一种基于NER与复杂网络特征的新闻关键词提取方法有效
申请号: | 201910790303.0 | 申请日: | 2019-08-26 |
公开(公告)号: | CN110532390B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 纪明轩;宋玉蓉 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/295 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ner 复杂 网络 特征 新闻 关键词 提取 方法 | ||
1.一种基于NER与复杂网络特征的新闻关键词提取方法,其特征在于,包括以下步骤:
步骤1:收集新闻内容,将新闻内容生成原始语料 文件夹下文件列表,设置过滤阈值,字符数小于过滤阈值的内容被过滤掉,对于每个语料,正则匹配出url和content;所有的新闻内容将按照url中的类别分别保存在各个txt文件中;
步骤2:对各个txt文件中的内容进行分词,使用结巴分词去停用词;
步骤3:利用基于神经网络的命名实体识别方法对句子进行标注,而后进行日期识别,人名识别以及地名识别,提取出文本中重要的命名实体;
步骤4:构建词语复杂网络;将步骤3得到的词语进行数字编码,将编码结果作为节点,使用距离2作为词语关联关系的距离,即距离在2以内的词语之间有连边,对每个句子循环判断;
V={v1,v2…vn}为一有N个节点的集合,(vi,vj)表示节点vi∈V与vj∈V之间的边,G(V,E)是以V为节点集合,以为边集合的图,节点vi的度中心性DCi为:
其中,ki为节点的度,即与其相连的节点的个数,N为网络中节点的个数;
计算一个节点vi到网络中所有节点的距离的平均值,记为di,即有:
其中,dij是节点vi到节点vj的距离,网络中,所有节点间的距离平均值L用下面的公式进行计算:
将di的倒数定义为节点vi的接近中心性,用记号CCi来表示:
将接近中心性和度中心性进行结合得到新的节点重要度评价指标全局度量值,将节点vi的全局度量值用记号CMi表示:
CMi=αDCi+βCCi (5)
其中,DCi为网络中节点vi的度中心性,CCi为节点vi的接近中心性,α为度中心性可调节参数,β为接近中心性可调节参数,且α+β=1,根据得到的全局度量值提取出关键词。
2.根据权利要求1所述基于NER与复杂网络特征的新闻关键词提取方法,其特征在于:步骤1中过滤阈值为30。
3.根据权利要求2所述基于NER与复杂网络特征的新闻关键词提取方法,其特征在于:步骤3中基于神经网络的命名实体识别方法:使用BiLSTM_CRF模型做序列标注,利用字嵌入和词嵌入,从输入层开始,模型的层次依次是look-up层、双向LSTM层、CRF层、输出层,look-up层将句子中每个字xi由one-hot向量映射为低维稠密的字向量,双向LSTM层自动提取句子特征,CRF层进行句子级的序列标注;使用词性标注集中被标记为“ns”的部分来构造地名识别语料,使用基于BiLSTM-CRF模型命名实体识别方式。
4.根据权利要求3所述基于NER与复杂网络特征的新闻关键词提取方法,其特征在于:度中心性可调节参数α=0.4,接近中心性可调节参数β=0.6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910790303.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本聚类方法、装置和计算设备
- 下一篇:一种文本词性标注的方法及装置