[发明专利]一种基于无监督的多模型融合抽取式文本摘要方法在审
申请号: | 202010476581.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111737453A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 司马华鹏;靳超超;姚奥 | 申请(专利权)人: | 南京硅基智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06K9/62 |
代理公司: | 江苏舜点律师事务所 32319 | 代理人: | 杜东辉 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 模型 融合 抽取 文本 摘要 方法 | ||
1.一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:包括以下步骤:
预先对中心度文本摘要模型进行训练优化,优化后对预处理后的待处理文档进行计算得到第一批摘要summary1;用语义相似度捕捉模型对预处理后的待处理文档计算得到第二批摘要summary2;
融合第一批摘要summary1和第二批摘要summary2得到候选摘要middle_summary;
使用MMR算法对候选摘要middle_summary计算得到最终摘要final_summary。
2.根据权利要求1所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:所述中心度文本摘要模型采取的是PacSum模型,在训练优化的过程中得出最优超参数βbest,ηbest,θbest;所述语义相似度捕捉模型采取的是改进的TextRank模型,改进的内容包括使用分布式表示词向量和余弦相似度。
3.根据权利要求2所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对PacSum模型进行训练优化包括以下步骤:
输入用作训练语料的文档集T;
对文档集T进行文本预处理;
对超参数β,η,θ构造超参数列表,用枚举的方式对超参数的取值进行组合:β从[0.1,0.2,0.3,0.4]取值,η从[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ从[0.0,0.1,0.2,...,1.0]取值,得到超参数列表:P={(βi,ηi,θi)|i=1...924},初始时令i=1,令rouge_list为空列表;
对文档集T中的每篇文档使用超参数βi,ηi,θi计算摘要,所有摘要构成摘要列表;
对摘要列表计算ROUGE评分,摘要列表中每个摘要C的ROUGE评分计算公式,公式如下:
其中,R代表召回率,P代表准确率,F代表F1分值;ri为参考摘要的第i个句子;C为待处理摘要;LCS/lcs表示最长公共子序列,LCS∪表示对C中所有句子和ri求最长公共子序列,结果再合并去重;Nref为参考摘要中所有句子的总词数;Nc为C中所有句子的总词数;γ为常数,取值为1.0;对摘要列表计算平均ROUGE评分得到rouge_i;
把rouge_i加入到列表rouge_list;再令i=i+1,若i=924,重复执行得到ROUGE评分;若i924,进行下一步;
从rouge_list中选择最高ROUGE分值,把对应的超参数βbest,ηbest,θbest作为最优超参数。
4.根据权利要求3所述的一种基于无监督的多模型融合抽取式文本摘要方法,其特征是:对待处理文档计算摘要包括以下步骤:
输入:当前待处理文档,超参数β,η,θ;
在训练PacSum模型时,待处理文档代表训练语料中的每一篇文档;超参数β,η,θ代表循环中这3个变量的当前取值βi,ηi,θi;作为计算结果的摘要代表循环中的一次迭代中的临时结果;
在使用训练好的PacSum模型计算摘要时,待处理文档代表最终要为之计算第一批摘要summary1的文档;超参数β,η,θ代表训练好的这3个变量的最优取值βbest,ηbest,θbest;作为计算结果的摘要代表需要计算的第一批摘要summary1;
使用超参数β由待处理文档构造图G;
使用超参数η,θ由图G计算得到摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司,未经南京硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010476581.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种牛蒡功能性面点及其制备方法
- 下一篇:一种多舱位迎宾方法、系统以及车辆