[发明专利]一种基于多任务联合的问题生成方法在审
申请号: | 202010236154.6 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111488440A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 蔡毅;黄清宝;傅明毅 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/34;G06F40/289;G06F40/237 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 联合 问题 生成 方法 | ||
1.一种基于多任务联合的问题生成的方法,其特征在于,构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;所述方法包括步骤:
利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要;
根据给定文本建立高频词词汇表和低频词词汇表;
通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示;
将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态;
通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。
2.根据权利要求1所述的方法,其特征在于,所述利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要的步骤中,包括:
使用停用词表去除所述文本中的停用词,使用TF-IDF提取特征词并计算特征词权重;
将所述文本分句后,计算每两个句子之间的相似性,并构造句子关系图;
根据句子相似性,迭代传播权重计算各个句子的得分;
将得到的句子得分进行排序,抽取重要度最高的3个句子作为候选文摘句;
根据字数或句子数要求,从候选文摘句中抽取句子组成文本摘要。
3.根据权利要求1所述的方法,其特征在于,所述根据给定文本建立高频词词汇表和低频词词汇表的步骤中,包括:
统计单词词频,将词频大于3的词汇列为高频词,建立高频词词汇表V,把词频大于0小于3的列为低频词,构建低频词汇表L;
将词汇表V和L以外的词用UNK表示。
4.根据权利要求2所述的方法,其特征在于,句子间相似性计算方法为:
G=(V,E),其中V为句子集,E为边集,句子相似性的计算公式为:
其中,xk是既出现在句子Xi中,又出现在句子Xj中的单词,|Xi|表示句子i的单词数;
构造句子关系图方法为:若两个句子之间的相似度大于给定的阈值θ=0.1,就在图中把两个句子连接起来。
5.根据权利要求2所述的方法,其特征在于,句子间相似性计算方法为:
句子权重计算公式:
其中,WS(Vi)表示句子i的权重,Vi表示构建的图中句子i对应的顶点,d是一个阻尼系数为0.85,In(Vi)表示指向Vi点的点集合,Out(Vj)表示Vj点指向的点集合,wji表示句子j、i之间的相似度,即计算的相似性Similarity(Xi,Xj),wjk表示句子j、k之间的相似度,WS(Vj)表示上次迭代j的权重。
6.根据权利要求1所述的方法,其特征在于,所述通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示的步骤中,包括:
通过预训练好的Glove词嵌入方法将文本摘要转换为词向量形式wi,并将得到的文本摘要进行BIO编码得到bi;
将得到的词向量表示和BIO编码连接起来w′i=[wi:bi],作为问题生成模块最终的输入。
7.根据权利要求1所述的方法,其特征在于,所述将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态的步骤中,包括:
将得到的w′i输入到由双向长短期记忆网络(Bi-LSTM)构成的encode部分中,更新其隐藏层状态;
在encode部分中计算隐藏层状态的attention得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010236154.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:报警控制方法及相关产品
- 下一篇:腹直肌分离测量工具