首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种科技论文文本建模方法有效

申请号：	201810525111.2	申请日：	2018-05-28
公开（公告）号：	CN108804422B	公开（公告）日：	2020-12-01
发明（设计）人：	路永和;周月鹏;张宇楠;罗嘉仪;翟媛媛;郑雅文	申请（专利权）人：	中山大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/35
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	黄启文
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种科技论文文本建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种科技论文文本建模方法，其特征在于：包括以下步骤：

阶段一、预处理：

Step1.导入科技论文集，经过格式转换、结构识别和数据清洗构成未分词数据库；

Step2.抽取关键词集，结合结巴分词系统进行文本分词，然后去停用词，利用词性过滤以后，完成科技论文数据库的构建；

Step3.通过word2vec计算特征词的词向量，利用k-means聚类算法进行词聚类，然后基于word2vec的特征构造方法构造主题特征；

阶段二、优化位置参数

Step4.初始化6个位置影响参数的最优数值，其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1]，设置和声搜索算法的记忆思考概率HMCR，音调调整概率PAR、步长bw、迭代次数；

Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM；

Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解；

Step7.判断新解是否优于HM内的最差解，若是，则将新的解替换最差解，得到新的HM；

Step8.重复Step6到Step8，直到达到最大的迭代次数或满足停止准则后结束循环，输出最优解；

Step9.利用k-means算法对产生的最优解进行聚类，利用CH指标和轮廓系数对聚类效果进行评判；

Step10.完成一次聚类分析，等待下一个科技论文集的到达，转步骤Step1；

所述Step6通过记忆思考、音调调整、随机选取产生新解的具体机理如下：

①记忆思考：以HMCR概率随机对HM的某些解分量进行保留，即新产生的是以HMCR的概率从记忆库中第i个解分量的集合X_i＝{x_1i，x_2i，...，x_HMSi，}中随机选择；

②音调调整：对记忆思考中得到的解分量按概率PAR进行扰动，得到音调调整后产生的新解分量；扰动原则为：

其中，等式右边的是扰动前新解的第i个解分量；bw为带宽；rand()为-1到1的随机数，表示与邻近的值；

③随机选取：新产生的是以1-HMCR的概率从可行解空间中随机选择的；

所述Step1的具体过程为：收集科技论文数据，得到由PDF文件格式的科技论文所组成的科技论文文本集；然后，使用PDF2Text工具进行文本集格式转换，同时根据科技论文不同结构中文本字号大小信息，自动识别出科技论文的各个结构，并进行数据清洗以去除无法识别结构的论文，构成未分词数据库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810525111.2/1.html，转载请声明来源钻瓜专利网。

上一篇：文本相似性分析方法、装置、电子设备及计算机存储介质
下一篇：医疗文本特征提取与自动匹配方法和系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top