[发明专利]双阶段文本摘要方法在审
申请号: | 202010896987.5 | 申请日: | 2020-08-31 |
公开(公告)号: | CN112100365A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 桂盛霖;刘一飞 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 阶段 文本 摘要 方法 | ||
1.一种双阶段文本摘要方法,其特征在于,第一阶段从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词;然后将抽取出的子句作为生成式文本摘要模型的输入,进行第二阶段的学习和训练,其中第一阶段包括步骤1至步骤3,第二阶段包括步骤4;
该方法具体包括以下步骤:
步骤1:获得关键词概率预测模型;
步骤2:获得语义得分预测模型;
步骤3:获得训练集D’;
步骤4:训练生成式文本摘要模型;
其中步骤1获得关键词概率预测模型的具体方法为:
步骤1.1:制作数据集T_W,它主要包括以下3个步骤:
步骤1.1.1:对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要,使用改进的Textrank算法获得原文src的关键词集合Key,其具体做法为:
a)对原文和标准摘要分别进行分词、去停用词,形成原文保留词集合和标准摘要保留词集合,使用原文保留词集合中的词语构成候选关键词集合C_k={c_k1,c_k2,…,c_kTx’},其中Tx’是保留的候选关键词的数量,使用原文保留词集合和标准摘要保留词集合交集中的词语构成此篇文档的线索词集合;
b)构建图模型G=(V,E),其中V是图中的节点集合,E是图中的边集合,V中每个节点对应候选关键词集合C_k中的每个候选词,节点的权重代表此词语的重要性,E中每条边的权值即集合C_k中某两个候选词间的关联度,采用词语间的共现关系来度量词语间的关联度;
c)将线索词集合中词语所对应节点的初始权重设置为2,其余节点的初始权重设置为1,根据下式对图中各个节点的权重迭代计算,直至图中各个节点的权重达到收敛:
其中WS(vi)表示第i个节点的权重,d是阻尼因子,经验值为0.85,wji表示词语c_kj和词语c_ki之间的关联度,Adj(vi)是图中第i个节点的相邻节点所构成的集合;
d)从各节点最终计算得到的权重中选取出前15个权重最高的词语构成提取出的关键词集合Key={key1,key2,…,key15};
步骤1.1.2:对原文src进行分词,得到序列x={x1,x2,…,xTx},xt表示原文中的第t个词语,Tx表示原文的词语数,然后使用上述的TextRank算法得到原文的关键词集合Key,然后将原文中属于集合Key中的词语标记为“1”,其余标记为“0”,从而得到原文的一个标签序列x_t={x_t1,x_t2,…,x_tTx},其中x_tt∈{0,1},表示原文中第t个词语的标签,若xt∈Key,则x_tt=1,否则x_tt=0;
步骤1.1.3:对文本摘要数据集D中的每个文本摘要数据对进行步骤1.1.2的处理,则得到数据集T_W,T_W数据集中每个数据对为(x,x_t);
步骤1.2:根据序列标注的思想构建关键词概率预测模型,将数据集T_W划分为训练集、验证集、测试集,对关键词概率预测模型进行训练、验证和测试;
步骤2获得子句语义得分预测模型的具体做法为:
步骤2.1:制作数据集T_S,它主要包括以下3个步骤:
步骤2.1.1:根据文本摘要数据对(src,tgt),获得原文src的子句语义向量序列s_v和文本主题向量v;
原文中各子句的语义向量的获得方法是,先对原文src按字符进行切分,获得序列c={c1,c2,…,cTc},c中的每个元素代表原文中的每个字符,Tc代表原文中的字符数量,然后按如下步骤获得文本各子句的语义向量:
a)根据标点符号“。、?、!”将原文本src切分成子句序列s={sub1,sub2,…,subTs},其中Ts是子句数,subk表示src中的第k条子句,再对每个子句按字符进行切分,获得sub_ck={ck1,ck2,…,ckTck},ckm表示第k条子句中的第m个字符,Tck是第k条子句的字符数量;
b)在每两条子句间添加符号‘SEP’,在每条子句开头添加符号‘CLS’,重新将子句整合为一条文本,即c’={’CLS’,c11,c12,…,ckTck,‘SEP’,’CLS’,ck+11,…};
c)将c’输入到BERT网络中,通过输出‘CLS’所对应位置的向量获得src的子句语义向量序列s_v=[s_v1,s_v2,…,s_vTs],s_vk表示src中第k条子句的语义向量;
文本主题向量v的获得方法是,将tgt按字符切分,输入到BERT模型中,然后使用BERT输出层末尾位置的输出向量作为tgt的语义向量,即src的主题向量;
步骤2.1.2:根据原文src中每个子句的语义向量序列s_v={s_v1,s_v2,…,s_vTs}和文本主题向量v使用余弦相似度计算得到src中每个子句与文本主题的相似度,然后根据相似性选取出相似性最高的Kss条子句,并得到原文的一个标签序列s_t={s_t1,s_t2,…,s_tTs}。其中s_tk∈{0,1},表示原文中第k条子句的标签,若它是上述被挑选出的Kss个句子之一,则s_tk=1,否则,s_tk=0;
步骤2.1.3:对文本摘要数据集D中的每个文本摘要数据对进行步骤2.1.2的处理,则得到数据集T_S,T_S数据集中每个数据对为(s_v,s_t);
步骤2.2:根据序列标注的思想构建语义得分预测模型,此时的输入序列为{s_v1,s_v2,…,s_vTs},输出序列为{s_t1,s_t2,…,s_tTs},然后将数据集T_S划分为训练集、验证集和测试集,对语义得分预测模型进行训练、验证和测试;
步骤3获得数据集D’的具体做法为:
对文本摘要数据集D中每个文本摘要数据对(src,tgt)作如下处理:
步骤3.1:获得src的子句语义得分序列score_sim
首先使用步骤2.1.1中的做法获得src的子句语义向量序列s_v,然后将其输入到上述训练好的语义得分预测模型中,根据模型输出层的结果得到src中每条子句属于标签“1”的概率,则src的子句语义得分序列为score_sim={s_s1,s_s2,…,s_sTs},其中s_sk表示src中第k条子句的语义得分,即语义得分预测模型预测得到的src中第k条子句属于标签“1”的概率;
然后考虑挑选内容的多样性,使用最大边界相关算法MMR对子句的语义得分进行调整,得到文本每条子句的最终语义得分score_sim’;
最大边界相关算法MMR是一种推荐重排算法,其主要是使用下式使排序结果的相关性和多样性达到平衡:
式中Q在本任务中相当于文本的主题含义,即标准摘要的内容;S表示候选集合,si表示候选集合中的第i个元素,在本任务中相当于文本中的每条子句;R表示已得到的以相似度为基础的候选集合;sim1(si,Q)表示候选集合中的元素与查询内容Q的相似度,即si的相关性,在本任务中即使用语义得分模型预测得到的原文中第i个子句的语义得分s_si;sim2(si,sj)表示候选集合中的元素与已选集合中某个元素的相似度,即si的冗余性,在本任务中即根据src中第i个子句和第j个子句的子句语义向量s_vi、s_vj,使用余弦相似度计算得到的两者的相似性,λ表示超参数,其值根据实际情况自行设定;
步骤3.2:获得src的子句关键词得分序列score key,它主要包括以下3个步骤:
步骤3.2.1:对原文src进行分词,得到序列x={x1,x2,…,xTx}并将其输入到上述训练完成的关键词概率预测模型中,根据模型输出层的结果即可得到原文中每个词语属于标签“1”的概率,则得到原文词语属于关键词的概率序列x_p={x_p1,x_p2,…,x_pTx},其中x_pt表示src中第t个词语属于关键词的概率,即关键词概率预测模型预测得到的src中第t个词语属于标签“1”的概率;
步骤3.2.2:对原文进行切分子句,获得s={sub1,sub2,…,subTs},然后再对每个子句按照词语切分,获得sub_xk={xk1,xk2,…,xkTsk},Tsk表示第k个子句的词语数;
步骤3.2.3:对s中的每个子句按照其词语属于关键词的概率进行降序排序psk={pk1,pk2,…,pkTsk},其中pki表示第k个子句中关键词概率排名第i的词语的关键词概率值,然后根据下式获得第k个子句的关键词得分s_kk,进而获得原文的子句关键词得分序列score_key={s_k1,s_k2,…,s_kTs}。
Ksk=0.3*Tsk
步骤3.3:获得src的子句得分序列score
首先使用最大最小归一化方法分别对语义得分score_sim’和关键词得分score_key进行归一化,获得score_sim″和score_key′,然后根据下式,对子句的语义得分和关键词得分进行权衡,获得src的子句得分序列score={s_c1,s_c2,…,s_cTs}。式中α∈(0,1)。
score=α*score_sim″+(1-α)*score_key′
步骤3.4:根据src的子句得分序列score取出src中得分最高的前11个子句并按照它们在src中的位置顺序重新将其整合为一条文本,表示为src’,然后将src’与数据对(src,tgt)中的tgt重新组合成数据对(src’,tgt);
通过步骤3.1至3.4则可获得数据集D’,数据集D’中的每个数据对为(src’,tgt);
步骤4构建生成式文本摘要模型,并使用数据集D’进行训练、验证和测试。
2.根据权利要求1所述的双阶段文本摘要方法,其特征在于,所述步骤4中的所述生成式文本摘要模型为带注意力机制的生成式模型,或者使用指针网络的生成式模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010896987.5/1.html,转载请声明来源钻瓜专利网。