[发明专利]一种科技论文文本建模方法有效

专利信息
申请号: 201810525111.2 申请日: 2018-05-28
公开(公告)号: CN108804422B 公开(公告)日: 2020-12-01
发明(设计)人: 路永和;周月鹏;张宇楠;罗嘉仪;翟媛媛;郑雅文 申请(专利权)人: 中山大学
主分类号: G06F40/289 分类号: G06F40/289;G06F16/35
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 黄启文
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 传统的TF‑IDF权重计算方法对特征词的词性、所处文章位置、词在类间分布等特点考虑不足。本发明认为在考虑特征词的不同特点如词性、位置等时候,应当使用不同加权方法对TF‑IDF进行改进。因此首先对科技论文的不同结构进行分类,区分出随着文本长度增加而同比例增加的结构,如摘要、前言、正文、结语等结构和随着文本长度增加而长度不变的结构,如标题、关键字、段落标题等结构。然后对前者使用乘法进行加权,对后者使用加法进行加权,最终得到基于科技论文结构的改进TF‑IDF权重计算公式。在传统TF‑IDF权重计算过程中合理使用位置影响参数来进行两类结构不同方式的加权,解决了传统方法中未考虑特征词的位置信息这一缺点。
搜索关键词: 一种 科技 论文 文本 建模 方法
【主权项】:
1.一种科技论文文本建模方法,其特征在于:包括以下步骤:阶段一、预处理:Step1.导入科技论文集,经过格式转换、结构识别和数据清洗构成未分词数据库;Step2.抽取关键词集,结合结巴分词系统进行文本分词,然后去停用词,利用词性过滤以后,完成科技论文数据库的构建;Step3.通过word2vec计算特征词的词向量,利用k‑means聚类算法进行词聚类,然后基于word2vec的特征构造方法构造主题特征;阶段二、优化位置参数Step4.初始化6个位置影响参数的最优数值,其中标题、关键字、段落标题、摘要、前言、结语的参数取值范围为[0,1],设置和声搜索算法的记忆思考概率HMCR,音调调整概率PAR、步长bw、迭代次数;Step5.从解空间中随机产生HMS个和声和对应的优化目标函数值放入HM;Step6.HS通过记忆思考、音调调整、随机选取的机理在每次迭代中产生一个新解;Step7.判断新解是否优于HM内的最差解,若是,则将新的解替换最差解,得到新的HM;Step8.重复Step6到Step8,直到达到最大的迭代次数或满足停止准则后结束循环,输出最优解;Step9.利用k‑means算法对产生的最优解进行聚类,利用CH指标和轮廓系数对聚类效果进行评判;Step10.完成一次聚类分析,等待下一个科技论文集的到达,转步骤Step1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810525111.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top