[发明专利]一种科技论文文本建模方法有效
申请号: | 201810525111.2 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108804422B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 路永和;周月鹏;张宇楠;罗嘉仪;翟媛媛;郑雅文 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 黄启文 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 论文 文本 建模 方法 | ||
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:
阶段一、预处理:
Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;
Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;
Step3.通过word2vec计算特征词的词向量,利用k-means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;
阶段二、优化位置参数
Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;
Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;
Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;
Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;
Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;
Step9.利用k-means算法对产生的最优解进行聚类,利用CH指标和轮廓系数对聚类效果进行评判;
Step10.完成一次聚类分析,等待下一个科技论文集的到达,转步骤Step1;
所述Step6通过记忆思考、音调调整、随机选取产生新解的具体机理如下:
①记忆思考:以HMCR概率随机对HM的某些解分量进行保留,即新产生的是以HMCR的概率从记忆库中第i个解分量的集合Xi={x1i,x2i,...,xHMSi,}中随机选择;
②音调调整:对记忆思考中得到的解分量按概率PAR进行扰动,得到音调调整后产生的新解分量;扰动原则为:
其中,等式右边的是扰动前新解的第i个解分量;bw为带宽;rand()为-1到1的随机数,表示与邻近的值;
③随机选取:新产生的是以1-HMCR的概率从可行解空间中随机选择的;
所述Step1的具体过程为:收集科技论文数据,得到由PDF文件格式的科技论文所组成的科技论文文本集;然后,使用PDF2Text工具进行文本集格式转换,同时根据科技论文不同结构中文本字号大小信息,自动识别出科技论文的各个结构,并进行数据清洗以去除无法识别结构的论文,构成未分词数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525111.2/1.html,转载请声明来源钻瓜专利网。