[发明专利]一种科技论文文本建模方法有效

专利信息
申请号: 201810525111.2 申请日: 2018-05-28
公开(公告)号: CN108804422B 公开(公告)日: 2020-12-01
发明(设计)人: 路永和;周月鹏;张宇楠;罗嘉仪;翟媛媛;郑雅文 申请(专利权)人: 中山大学
主分类号: G06F40/289 分类号: G06F40/289;G06F16/35
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 黄启文
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 科技 论文 文本 建模 方法
【权利要求书】:

1.一种科技论文文本建模方法,其特征在于:包括以下步骤:

阶段一、预处理:

Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;

Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;

Step3.通过word2vec计算特征词的词向量,利用k-means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;

阶段二、优化位置参数

Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;

Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;

Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;

Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;

Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;

Step9.利用k-means算法对产生的最优解进行聚类,利用CH指标和轮廓系数对聚类效果进行评判;

Step10.完成一次聚类分析,等待下一个科技论文集的到达,转步骤Step1;

所述Step6通过记忆思考、音调调整、随机选取产生新解的具体机理如下:

①记忆思考:以HMCR概率随机对HM的某些解分量进行保留,即新产生的是以HMCR的概率从记忆库中第i个解分量的集合Xi={x1i,x2i,...,xHMSi,}中随机选择;

②音调调整:对记忆思考中得到的解分量按概率PAR进行扰动,得到音调调整后产生的新解分量;扰动原则为:

其中,等式右边的是扰动前新解的第i个解分量;bw为带宽;rand()为-1到1的随机数,表示与邻近的值;

③随机选取:新产生的是以1-HMCR的概率从可行解空间中随机选择的;

所述Step1的具体过程为:收集科技论文数据,得到由PDF文件格式的科技论文所组成的科技论文文本集;然后,使用PDF2Text工具进行文本集格式转换,同时根据科技论文不同结构中文本字号大小信息,自动识别出科技论文的各个结构,并进行数据清洗以去除无法识别结构的论文,构成未分词数据库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810525111.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top