[发明专利]基于表格数据的FAQ知识库自动构建方法和装置有效
申请号: | 202110205058.X | 申请日: | 2021-02-24 |
公开(公告)号: | CN112800032B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 郭司绪;杨玉树;钱泓锦;刘占亮;窦志成;曹岗;文继荣 | 申请(专利权)人: | 北京智源人工智能研究院 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/332;G06F40/18 |
代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳;白婉露 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 表格 数据 faq 知识库 自动 构建 方法 装置 | ||
1.一种基于表格数据的FAQ知识库自动构建方法,其特征在于,包括:
将表格数据区分为规范化表格和非规范化表格;
利用预先训练得到的SQL语句生成器和第一问题生成器,根据所述规范化表格生成第一问答对,包括:利用所述SQL语句生成器根据无标注的规范化表格生成SQL语句;利用所述第一问题生成器根据生成的所述SQL语句生成第一问题,所述第一问题与所述SQL语句的查询答案构成第一问答对;
利用预先训练得到的自然语句生成器和第二问题生成器,根据所述非规范化表格生成第二问答对,包括:利用所述自然语句生成器根据非规范化表格的行数据生成自然语句;将所述自然语句和作为答案的所述非规范化表格的单元格信息输入所述第二问题生成器,生成第二问答对;
对生成的第一问答对和第二问答对进行筛选,根据筛选出的问答对构建FAQ知识库;
其中,所述SQL语句生成器和第一问题生成器是基于第一训练数据集训练得到的,所述第一训练数据集包括规范化表格、问题和SQL语句;所述自然语句生成器和第二问题生成器是基于第二训练数据集训练得到的,所述第二训练数据集包括非规范化表格、问题和自然语句;
所述SQL语句生成器为改进的PointerNet模型,其在PointerNet模型的编码器中增加“列”通道、“值”通道、“SQL”通道和转换门控,其中,“列”通道用于预测列名,“值”通道用于预测表格单元格,“SQL”通道用于预测SQL关键词,转换门控用于选择生成SQL语句的通道。
2.如权利要求1所述的方法,其特征在于,所述第一问题生成器为将引入复制机制的GRU作为解码器的Seq2Seq模型。
3.如权利要求1所述的方法,其特征在于,所述第二问题生成器为包括引入注意力机制和Pointer-softmax 解码器的Seq2Seq模型。
4.一种基于表格数据的FAQ知识库自动构建装置,其特征在于,包括:
数据区分模块,用于将表格数据区分为规范化表格和非规范化表格;
第一问答对生成模块,用于利用预先训练得到的SQL语句生成器和第一问题生成器,根据所述规范化表格生成第一问答对,包括:利用所述SQL语句生成器根据无标注的规范化表格生成SQL语句;利用所述第一问题生成器根据生成的所述SQL语句生成第一问题,所述第一问题与所述SQL语句的查询答案构成第一问答对;所述SQL语句生成器和第一问题生成器是基于第一训练数据集训练得到的,所述第一训练数据集包括规范化表格、问题和SQL语句;
第二问答对生成模块,用于利用预先训练得到的自然语句生成器和第二问题生成器,根据所述非规范化表格生成第二问答对,包括:利用所述自然语句生成器根据非规范化表格的行数据生成自然语句;将所述自然语句和作为答案的所述非规范化表格的单元格信息输入所述第二问题生成器,生成第二问答对,所述自然语句生成器和第二问题生成器是基于第二训练数据集训练得到的,所述第二训练数据集包括非规范化表格、问题和自然语句;
质量控制模块,用于对生成的第一问答对和第二问答对进行筛选,根据筛选出的问答对构建FAQ知识库;
所述SQL语句生成器为改进的PointerNet模型,其在PointerNet模型的编码器中增加“列”通道、“值”通道、“SQL”通道和转换门控,其中,“列”通道用于预测列名,“值”通道用于预测表格单元格,“SQL”通道用于预测SQL关键词,转换门控用于选择生成SQL语句的通道。
5.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-3任一项所述的方法。
6.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-3任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110205058.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:充电方法、装置、电子设备及存储介质
- 下一篇:一种有机磷农药可视化检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置