[发明专利]一种具有综合优势的基于整数线性规划的抽取式文摘方法在审
申请号: | 201810435232.8 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108664598A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 高扬;黄河燕;魏林静 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取式 整数线性规划 抽取 文档内容 综合优势 连贯性 冗余性 显著性 句子 自然语言处理 数学计算 语义表示 自动学习 综合考虑 相似度 构建 文档 学习 语料 挖掘 | ||
1.一种具有综合优势的基于整数线性规划的抽取式文摘方法,其特征在于:
首先进行相关定义,具体如下:
定义1:query,即查询项;每一个查询项称为一个query,每一个query都是一个句子,通常代表用户关注的内容;
定义2:文档集合,自动文摘包含抽取式文摘和生成式文摘,抽取式文摘又包括基于query的抽取式文摘和基于内容的抽取式文摘;抽取式文摘和生成式文摘两种文摘均包含多个文档集合;每个文档集合对应一个文档查询;每一个查询对应的文档集合为一个主题集合,记为D,且D={di|1≤i≤N},N表示文档集合D中文档的个数;
定义3:文摘句集合和文摘候选句集合;对于基于query的抽取式文摘而言,每一个query对应一个文档集合,且每一个文档集合抽取出的文摘句和query内容需要相关,该抽取的文摘句组成的集合称为文摘句集合,记为S,且S={si|1≤i≤M},M表示文摘句集合中句子的个数,si表示文摘句集合中的一个文摘句,由于抽取式文摘的文摘句集合字数有限制,所以需要满足条件其中,l(si)表示句子si的长度,L表示文摘句集合的长度限制;文摘候选句集合为文档D中的所有句子,其中,文档D中的每一个句子称为一个文摘候选句,其分布式向量表示又称为句向量,文摘候选句由单词组成,单词的分布式向量表示又称为词向量;
定义4:相似单词集合,集合中包含的单词都是同义词;
定于5:相似性,文摘候选句集合中的句子和query的语义重叠程度和特征重叠程度统称为相似性;其中,语义重叠程度又称为向量相似度,特征重叠程度即为名词短语和动词短语的覆盖程度,又称为特征相似度;
定义6:显著性,即主题显著性,是指文摘候选句集合中所有句子的主题所占比重,即主题下句子的个数越多,其对应的主题越显著;
定义7:连贯性,在抽取式文摘中需要将抽取出的文摘句重新排列,连贯性是指最终排列的文摘句在语义逻辑上连贯可读;
一种具有综合优势的基于整数线性规划的抽取式文摘方法,包括以下步骤:
步骤一、计算每一个文摘候选句和query的相似性,具体通过分别计算向量相似度和特征相似度,再将二者相加得到;
其中,向量相似度的计算选用PV算法学习句子向量;特征相似度的计算选用名词短语和动词短语作为特征;
其中,PV是paragraph vector的简称;PV算法是一个无监督的框架,该框架可以学习文字片段的分布式向量;
其中,文字片段以句子、段落以及文档为主,且长度可变;
PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛;句向量和词向量都是通过随机梯度下降和反向传播训练得来;
特征相似度选用句法分析树和Kmeans算法计算;
步骤二、利用LDA算法计算文摘候选句的显著性;
步骤三、计算连贯性,利用互信息来计算文摘候选句之间的连贯性;
步骤四、基于步骤一学习的句向量计算文摘候选句之间的相似度;
步骤五、通过整数线性规划对相似性、显著性、连贯性及冗余性组成的综合优势进行全局最优化求解,进行文摘句抽取,得到文摘句集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810435232.8/1.html,转载请声明来源钻瓜专利网。