[发明专利]问题生成方法、模型训练方法、装置、设备和存储介质在审
申请号: | 202011024969.4 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112100335A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 李雅美;蓝翔;郑辉煌;张留杰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 阎敏;郭丽祥 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问题 生成 方法 模型 训练 装置 设备 存储 介质 | ||
1.一种问题生成方法,包括:
根据用于生成问题的文本内容,获得至少一个关键词和每个所述关键词对应的概率;
根据所述文本内容、所述关键词和所述概率,分别获得与每个关键词对应的输入序列;
分别将所述与每个关键词对应的输入序列输入问题生成模型,获得关于所述每个关键词的问题。
2.根据权利要求1所述的方法,其中,所述根据所述文本内容、所述关键词和所述概率,分别获得与每个关键词对应的输入序列,包括:
根据所述文本内容,获得文本分词向量序列;所述文本分词向量序列包括所述文本内容中每个分词的分词向量,所述文本内容中的分词为关键词或非关键词;
针对每个关键词,在所述文本分词向量序列中,将所述关键词对应的概率拼接在所述关键词的分词向量之后,得到与所述关键词对应的输入序列。
3.根据权利要求1或2所述的方法,其中,所述分别将所述与每个关键词对应的输入序列输入问题生成模型,获得关于所述每个关键词的问题,包括:
针对各个关键词,将所述关键词对应的输入序列输入问题生成模型;
根据所述输入序列,采用所述问题生成模型针对固定词典中的每个词语进行计算,得到所述词语在所述问题的语句中每个位置的第一概率;所述固定词典为根据词库构建的词典;
根据所述第一概率,采用所述问题生成模型确定所述问题的语句中每个位置的词语,得到所述关键词的问题。
4.根据权利要求3所述的方法,其中,所述根据所述第一概率,采用所述问题生成模型确定所述问题的语句中每个位置的词语,得到所述关键词的问题,包括:
根据所述输入序列,采用所述问题生成模型针对动态词典中的每个词语,得到所述词语在所述问题的语句中每个位置的第二概率;所述动态词典为所述文本内容的分词构成的词典;
根据所述第一概率和所述第二概率,针对所述固定词典和所述动态词典构成的词典合集中的每个词语,计算所述词语在所述语句中每个位置的加权概率;
根据所述加权概率,确定所述语句中每个位置的词语,得到所述语句。
5.根据权利要求4所述的方法,其中,所述根据所述加权概率,确定所述语句中每个位置的词语,包括:
针对所述语句的各个位置,将在所述位置的加权概率最大的词语确定为所述位置的词语。
6.根据权利要求4所述的方法,其中,计算所述词典合集中的一个词语在所述语句中的一个位置的加权概率的方式包括:
在所述词语同时存在于所述固定词典和所述动态词典的情况下,对所述词语在所述位置的第一概率和所述词语在所述位置的第二概率进行加权求和,将加权求和的结果作为所述词语在所述位置的加权概率;
在所述词语仅存在于所述固定词典的情况下,将第一概率作为所述词语在所述语句中每个位置的加权概率;
在所述词语仅存在于所述动态词典的情况下,将第二概率作为所述词语在所述语句中每个位置的加权概率。
7.根据权利要求4-6中任意一项所述的方法,其中,所述问题生成模型包括双向LSTM编码层和单向LSTM解码层;所述双向LSTM编码层和单向LSTM解码层用于根据输入序列输出所述加权概率。
8.根据权利要求1或2所述的方法,其中,所述根据用于生成问题的文本内容,获得至少一个关键词和每个所述关键词对应的概率,包括:
将所述文本内容输入关键词提取模型;
采用所述关键词提取模型,获得所述至少一个关键词和每个所述关键词对应的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011024969.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于超高压锅炉的对流式再热器
- 下一篇:一种任务处理方法及装置