[发明专利]一种科技论文文本建模方法有效
申请号: | 201810525111.2 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108804422B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 路永和;周月鹏;张宇楠;罗嘉仪;翟媛媛;郑雅文 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 黄启文 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 传统的TF‑IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明认为在考虑特征词的不同特点如词性、位置等时候,应当使用不同加权方法对TF‑IDF进行改进。因此首先对科技论文的不同结构进行分类,区分出随着文本长度增加而同比例增加的结构,如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构,如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权,对后者使用加法进行加权,最终得到基于科技论文结构的改进TF‑IDF权重计算公式。在传统TF‑IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权,解决了传统方法中未考虑特征词的位置信息这一缺点。 | ||
搜索关键词: | 一种 科技 论文 文本 建模 方法 | ||
【主权项】:
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k‑means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;Step9.利用k‑means算法对产生的最优解进行聚类,利用CH指标和轮廓系数对聚类效果进行评判;Step10.完成一次聚类分析,等待下一个科技论文集的到达,转步骤Step1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810525111.2/,转载请声明来源钻瓜专利网。