[发明专利]一种科技论文文本建模方法有效
申请号: | 201810525111.2 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108804422B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 路永和;周月鹏;张宇楠;罗嘉仪;翟媛媛;郑雅文 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 黄启文 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 论文 文本 建模 方法 | ||
传统的TF‑IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明认为在考虑特征词的不同特点如词性、位置等时候,应当使用不同加权方法对TF‑IDF进行改进。因此首先对科技论文的不同结构进行分类,区分出随着文本长度增加而同比例增加的结构,如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构,如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权,对后者使用加法进行加权,最终得到基于科技论文结构的改进TF‑IDF权重计算公式。在传统TF‑IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权,解决了传统方法中未考虑特征词的位置信息这一缺点。
技术领域
本发明涉及计算机科学与技术领域,更具体地,涉及一种科技论文文本建模方法。
背景技术
现有的对科技论文进行分析的技术主要是由各大学术数据库网站提供的基于关键词的知识主题趋势分析、基于引文统计的论文引文分析等。传统的基于关键词或统计信息的处理方法已不能满足对大量科技论文的内在规律的发现。
在主题识别过程中,学科与学科之间的区分度大而较容易进行主题识别。但对于学科内部的主题信息,其区分度小且交叉程度大,并且随着学科的发展而动态变化,使得难以提前进行主题的识别。传统的基于关键词共现的主题识别方法未考虑科技论文全文信息,分析深度有限。科技论文区别与一般文本的地方在于有固定的行文规范,其全文信息主要包括标题、摘要、关键字、段落标题、前言、正文、结语、参考文献等。
许多学者对传统的TF-IDF权重计算方法提出改进的办法,都认为TF-IDF方法对特征词的某些特点考虑不足,如路永和(路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015,31(4):18-25.)等人引入词性改进特征权重计算方法,进而影响文本特征权重的取值,在引入词性的特征权重计算方法中,采用粒子群算法迭代计算最优词性权重。兰均(兰均,施化吉,李星毅,等.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190.)等人利用网页标签信息所体现的位置特征计算特征词的复合权重,并以此权重为基础建立分类规则,对网页进行分类。路永和(路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95.)等人从特征项重要性和类别区分能力出发,研究文本分类中向量化时的特征权重计算。
综合已有研究分析,科技论文具有固定的行文规范,有特定的文本结构,是一种半结构化数据,而出现在不同结构的词对于科技论文的表示程度是不同的。例如“甲”词出现在摘要或者关键词中,“乙”词只出现在正文中,则对于该篇科技论文,“甲”词应当比“乙”词具有更大的表示能力,在特征词权重计算时应赋予更大的权重。传统的TF-IDF权重计算方法只统计特征词的词频和文档频率,没有考虑该词所出现的位置信息。
发明内容
本发明旨在提出一种更有效的科技论文文本建模方法,结合科技论文的结构位置信息,提出一种基于科技论文结构的改进TF-IDF权重计算方法,利用词所在的结构位置信息计算位置影响系数,并使用和声搜索算法进行系数的寻优,以更好的进行科技论文的文本表示。
为实现以上发明目的,采用的技术方案是:
一种科技论文文本建模方法,包括以下步骤:
阶段一、预处理:
Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;
Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;
Step3.通过word2vec计算特征词的词向量,利用k-means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;
阶段二、优化位置参数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525111.2/2.html,转载请声明来源钻瓜专利网。