[发明专利]一种具有综合优势的基于整数线性规划的抽取式文摘方法在审
申请号: | 201810435232.8 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108664598A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 高扬;黄河燕;魏林静 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本文公开了一种具有综合优势的基于整数线性规划的抽取式文摘方法,属于自然语言处理领域。本文方法首先将抽取式文摘分成文档内容学习和文摘句抽取,对于文档内容学习分成相似性、显著性和连贯性三部分;对于文摘句抽取综合考虑文档的内容学习和冗余性,利用整数线性规划框架对文摘句进行抽取。本方法能够通过语料自动学习句子的语义表示,利用简单的数学计算方法就可以计算句子之间的相似度,对于抽取式文摘任务中的显著性、相似性、连贯性和冗余性进行深入的挖掘从而构建了高质量的文摘系统。 | ||
搜索关键词: | 抽取式 整数线性规划 抽取 文档内容 综合优势 连贯性 冗余性 显著性 句子 自然语言处理 数学计算 语义表示 自动学习 综合考虑 相似度 构建 文档 学习 语料 挖掘 | ||
【主权项】:
1.一种具有综合优势的基于整数线性规划的抽取式文摘方法,其特征在于:通过语料自动学习句子的向量表示,利用数学相似度计算,统计主题显著性和句子之间的连贯性从而完成构建高质量的文摘系统;核心思想是通过采用向量相似度和特征相似度结合的方法计算相似性,然后利用主题这一层次信息进行显著性计算,通过单词对互信息计算句子连贯性,最后考虑冗余性利用整数线性规划进行优化求解,综合相似性、显著性、连贯性和冗余性是的构建的文摘更加准确;首先进行相关定义,具体如下:定义1:query,即查询项;每一个查询项称为一个query,每一个query都是一个句子,通常代表用户关注的内容;定义2:文档集合,自动文摘包含抽取式文摘和生成式文摘,抽取式文摘又包括基于query的抽取式文摘和基于内容的抽取式文摘;抽取式文摘和生成式文摘两种文摘均包含多个文档集合;每个文档集合对应一个文档查询;每一个查询对应的文档集合为一个主题集合,记为D,且D={di|1≤i≤N},N表示文档集合D中文档的个数;定义3:文摘句集合和文摘候选句集合;对于基于query的抽取式文摘而言,每一个query对应一个文档集合,且每一个文档集合抽取出的文摘句和query内容需要相关,该抽取的文摘句组成的集合称为文摘句集合,记为S,且S={si|1≤i≤M},M表示文摘句集合中句子的个数,si表示文摘句集合中的一个文摘句,由于抽取式文摘的文摘句集合字数有限制,所以需要满足条件
其中,l(si)表示句子si的长度,L表示文摘句集合的长度限制;文摘候选句集合为文档D中的所有句子,其中,文档D中的每一个句子称为一个文摘候选句,其分布式向量表示又称为句向量,文摘候选句由单词组成,单词的分布式向量表示又称为词向量;定义4:相似单词集合,集合中包含的单词都是同义词;定于5:相似性,文摘候选句集合中的句子和query的语义重叠程度和特征重叠程度统称为相似性;其中,语义重叠程度又称为向量相似度,特征重叠程度即为名词短语和动词短语的覆盖程度,又称为特征相似度;定义6:显著性,即主题显著性,是指文摘候选句集合中所有句子的主题所占比重,即主题下句子的个数越多,其对应的主题越显著;定义7:连贯性,在抽取式文摘中需要将抽取出的文摘句重新排列,连贯性是指最终排列的文摘句在语义逻辑上连贯可读;一种具有综合优势的基于整数线性规划的抽取式文摘方法,包括以下步骤:步骤一、计算每一个文摘候选句和query的相似性,具体通过分别计算向量相似度和特征相似度,再将二者相加得到;其中,向量相似度的计算选用PV算法学习句子向量;特征相似度的计算选用名词短语和动词短语作为特征;其中,PV是paragraph vector的简称;PV算法是一个无监督的框架,该框架可以学习文字片段的分布式向量;其中,文字片段以句子、段落以及文档为主,且长度可变;PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛;句向量和词向量都是通过随机梯度下降和反向传播训练得来;特征相似度选用句法分析树和Kmeans算法计算;步骤二、利用LDA算法计算文摘候选句的显著性;其中,利用LDA算法的原因如下:LDA是发展至今比较完备的主题模型,克服了传统主题模型的缺陷,凭借着概率理论以及贝叶斯理论基础,在文本检索、文本分类、图像识别、社交网络等领域得到了广泛的应用;步骤三、计算连贯性,利用互信息来计算文摘候选句之间的连贯性;步骤四、基于步骤一学习的句向量计算文摘候选句之间的相似度;步骤五、通过整数线性规划对相似性、显著性、连贯性及冗余性组成的综合优势进行全局最优化求解,进行文摘句抽取,得到文摘句集合;至此,从步骤一到步骤五,选择出了语义相似、主题显著、语句连贯并无冗余信息的高质量文摘句。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810435232.8/,转载请声明来源钻瓜专利网。