[发明专利]一种中文文献综述自动生成的方法有效

专利信息
申请号: 201910567582.4 申请日: 2019-06-27
公开(公告)号: CN110852096B 公开(公告)日: 2023-04-18
发明(设计)人: 王会进;朱蔚恒;龙舜;陈俊标 申请(专利权)人: 暨南大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/258;G06F40/211;G06F18/214;G06F16/33
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 510640 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 文献 综述 自动 生成 方法
【权利要求书】:

1.一种中文文献综述自动生成的方法,其特征在于:具体包括以下步骤:

S1、数据预处理;对文本进行分句分词,构建各个学科的专业词典,同时,利用专业词典提取与学科相关的特征,以对句子重要性做出更合理的评估;

S2、特征提取;分析学术文献的文本特点,以句子为单元提取特征,提取的特征包括句子语义特征、非语义特征以及学科相关的特征;

S3、句子重要性评分及主题信息提取;具体包括:

S3.1、以候选句子与标准综述的句子相似度作为句子重要性的度量,将计算得到的句子相似度和提取到的句子特征输入到回归模型;

S3.2、利用训练好的回归模型预测句子的重要性;

S3.3、将候选句子输入到LDA主题模型,用训练好的LDA模型计算句子的主题分布;

S4、句子选择;在综合考虑句子的重要性和句子的主题信息的基础上,设计句子选择的最优化策略,然后进行句子选择;

所述步骤S4中,选择最佳句子的步骤如下:

在句子选择过程中综合考虑句子的重要评分和句子主题分布,将句子选择转化为一个最优化问题,通过对目标函数进行最优化求解得到最优的句子集合;

目标函数的第一部分公式如下:

其中n表示候选句子的数量,m表示主题数,表示候选句子的长度,表示候选句子的重要性评分,表示句子i与主题j的相关度,表示句子i是否被选中且最终分配的主题为j;

目标函数的第二部分公式如下:

其中B表示候选句子中包含的bigram集合,bi表示集合B中的bigram,表示bi出现的次数,yi表示bi是否包含在的已生成的综述;

添加作为bigram的权重以求包含更重要的bigram;

结合以上两部分,得到目标函数公式如下:

xij,yi∈{0,1}

其中,公式一保证生成的综述文本长度不会超过预先设定的值,Lmax表示生成综述的文本长度;公式二确保在生成文本时,每个句子只能属于一个主题;公式三保证如果句子si被选择,那么其所有的bigram也应该被选择,Bi表示候选句子i中的bigram集合;公式四保证如果被bk被选择,那么包含该bigram的所有句子也应该被选择,表示包含bk的句子集;

将句子的最优化选择问题转化成一个线性规划问题,然后对这个线性规划问题进行求解得到句子选择的最优结果;

S5、句子排序;根据排序策略对句子进行排序,生成国内外文献综述。

2.根据权利要求1所述的一种中文文献综述自动生成的方法,其特征在于:所述步骤S3.1中,用向量表示句子具体为:在向量空间对句子进行运算,将每一个句子看成是词序列的组合,故将句子中各个词的向量相加后再取均值作为句子的向量表示,句子的向量表示公式如下:

其中,wi表示句子中第i个词的向量,n表示句子中包含的词个数,s_v为句子的向量表示。

3.根据权利要求2所述的一种中文文献综述自动生成的方法,其特征在于:所述步骤S3.1中,句子重要性评分度量具体为:将候选句子与给定训练集中对应的标准综述的所有句子进行相似度计算,然后选择最大值作为该候选句子的重要性评分,句子重要性评分计算公式如下:

其中,s表示参考文献中的候选句子,S*表示训练集中对应的标准综述文本的句子集合,similarity(s,st)表示句子s与句子st之间的相似度,使用余弦距离来度量句子之间的相似度,计算公式如下:

其中A表示句子s的向量(A=(A1,A2,…,An)),B表示句子st的向量(B=(B1,B2,…,Bn))。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910567582.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top