[发明专利]一种基于NER与复杂网络特征的新闻关键词提取方法有效
申请号: | 201910790303.0 | 申请日: | 2019-08-26 |
公开(公告)号: | CN110532390B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 纪明轩;宋玉蓉 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/295 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ner 复杂 网络 特征 新闻 关键词 提取 方法 | ||
本发明公开了一种基于NER与复杂网络特征的新闻关键词提取方法,将命名实体识别(Named Entities Recognition,NER)与自然语言中的复杂网络(Complex Networks,CN)特性相结合,提出了新型的关键词抽取方法——基于NER结合复杂网络特征的方法(NER‑CN),该方法首先对句子进行标注进行命名实体识别分析,然后构建文本复杂网络并根据网络中的节点的全局度量值进行关键词抽取。本发明所提出的关键词抽取方法相较于传统方法在文本分类的精确率,召回率和F1值等指标上有着显著的提高。
技术领域
本发明研究中文新闻文本中词语的网络特性,将命名实体识别(Named EntitiesRecognition,NER)与自然语言中的复杂网络(Complex Networks,CN)特性相结合,提出了新型的关键词抽取算法——基于NER结合复杂网络特征的算法(NER-CN),属于NLP技术领域。
背景技术
近几年,由于数据爆炸式增长以及计算能力的提升,用户如何从海量数据中快速提取有用的信息就有了更高的技术要求。而文本的特征选择作为文本分析中的重要环节,其性能对于分类效果就显得尤为重要。
传统的文本特征提取方法有TF-IDF、TextRank、LDA、信息增益等。但由于语言自身的复杂性,利用这些方法提取文本特征时,容易忽略文本自身结构信息并制造大量冗余信息。为了保留文本中的结构信息,将自然语言中的社区信息与语义结构映射到复杂网络中成为了火热的研究方向。
关键词提取技术是自然语言处理领域的基础,近年来,国内外均对其有较为深入的研究。文件:Amancio D R.Probing the Topological Properties of ComplexNetworks Modeling Short Written Texts[J].PLoS One,2014,10(2):e0118394提出可以用复杂网络的方法和概念来分析短文本,以合理的方式抽取子文本,构建基于语法的词共现网络,分析动态短文本的复杂网络特性,并通过SVM算法的文本分类实验验证了该方法的优越性。文件:De Arruda H F,Costa L D F,Amancio D R.Using complex networks fortext classification:Discriminating informative and imaginative documents[J].EPL(Europhysics Letters),2016,113(2):28007探讨了如何在分类任务中有效地使用从文本结构分析中得到的特征,他们进行了监督分类,旨在区分信息与映像文件,使用描述功能词的局部拓扑/动态特性的网络模型,大大提高了文本分类的准确性。文件:唐俊.复杂网络在新闻网页关键词提取中的应用[J].云南民族大学学报(自然科学版),2012,21(4)将加权复杂网络的特性引入到关键词提取这一环节中,分析了新闻网页文档的特点和节点权重,介绍了有向网络权重的聚类系数和中心部分,利用传统算法的优点,提出了一种改进的自动提取新闻关键词方法,实验证明该算法是可行的。现有文件:Zhan Z J,Lin F,Yang XP.Keyword Extraction of Document Based on Weighted Complex Network[J].Advanced Materials Research,2011,403-408:2146-2151研究了汉语构成的复杂网络的特点,提出了一种基于复杂网络特征的中文文档自动关键词提取算法,根据语言网络中的小世界结构和复杂网络中的理论成果,基于文档语言网络中单词节点的特征值提取关键词,实验结果表明,该算法相比于传统的TF-IDF算法具有更高的平均精度。
上述研究虽然在一定层面上改进了复杂网络在文本中的应用,但是还是存在以下问题:在特定话题的新闻报道中,经常会出现一些特定实体的地名,人名以及日期等,传统的关键词提取算法并不能有效提取这些实体信息。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910790303.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本聚类方法、装置和计算设备
- 下一篇:一种文本词性标注的方法及装置