[发明专利]一种问答对的生成方法、装置及服务器有效
申请号: | 201910833603.2 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110532369B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q30/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 答对 生成 方法 装置 服务器 | ||
1.一种问答对的生成方法,其特征在于,包括:
获得文档,所述文档中包括至少一个段落,所述段落中包括对目标对象的描述内容;
获取所述文档中的第一个段落作为当前分块;
获取所述文档中所述第一个段落的下一个段落作为当前段落,并将所述当前段落与所述当前分块进行相似度值获取;
如果所述当前分块与所述当前段落的相似度值满足预设的阈值范围,将所述当前段落划分到所述当前分块中,并获取所述文档中所述当前段落的下一个段落作为新的当前段落,返回执行所述将所述当前段落与所述当前分块进行相似度值获取的步骤,直到所述文档中的所有段落划分完成;
如果所述当前分块与所述当前段落的相似度值不满足所述阈值范围,将所述当前段落划分到所述当前分块的下一个分块,并获取所述文档中所述当前段落的下一个段落作为新的当前段落,将所述下一个分块作为新的当前分块,返回执行所述步骤所述当前段落与所述当前分块进行相似度值获取,直到所述文档中的所有段落划分完成,所述分块中包括至少一个所述段落;所述分块中的段落包括文档中位置相邻和/或位置分散的段落;
获得所述分块对应的问题信息及所述分块对应的答案信息;
其中,所述分块对应的问题信息及所述答案信息组成所述目标对象的问答对,所述问答对用于提供问答服务。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述文档中的段落进行编码,以得到所述段落的编号;
将所述编号相邻且关于所述描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块,以得到所述文档中的至少一个分块。
3.根据权利要求1~2任一项所述的方法,其特征在于,所述获得所述分块对应的问题信息,包括:
获得所述分块中的至少一个关键语句;
基于所述关键语句,生成所述分块对应的问题信息。
4.根据权利要求3所述的方法,其特征在于,获得所述分块中的至少一个关键语句,包括:
将所述分块中的语句输入序列标注模型中,以得到所述序列标注模型输出的至少一个关键语句;其中,所述序列标注模型为利用至少两个具有关键语句标签的样本训练得到,且所述序列标注模型基于预设的序列标注的算法构建;
其中,所述基于所述关键语句,生成所述分块对应的问题信息,包括:
将所述关键语句输入序列生成模型,以得到所述序列生成模型输出的问题信息;其中,所述序列生成模型为利用至少两个具有字符序列标签的样本训练得到,且所述序列生成模型基于预设的序列生成算法构建。
5.根据权利要求1所述的方法,其特征在于,获得所述分块对应的答案信息,包括:
将所述分块中的文本内容输入文本摘要模型中,以得到所述文本摘要模型输出的经过文本压缩的答案信息;
其中,所述文本摘要模型为利用至少两个具有摘要标签的样本训练得到。
6.根据权利要求1所述的方法,其特征在于,还包括:
将所述问答对存储到数据共享系统的区块链中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910833603.2/1.html,转载请声明来源钻瓜专利网。