[发明专利]问答数据的筛选方法、装置、设备以及存储介质在审
申请号: | 201910706456.2 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110399466A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 时鸿剑;冯欣伟;戴松泰;周环宇;余淼;袁鹏程;宋勋超 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问题答案 答案 问答数据 筛选 存储介质 来源信息 数据资源 问答系统 图谱 | ||
1.一种问答数据的筛选方法,其特征在于,包括:
根据问答系统中的问题答案对,确定所述问题答案对包括的问题、答案以及所述答案的来源信息;
根据所述问题、所述答案和知识图谱,确定第一信息,所述第一信息用于表示所述答案的种类是否符合预期种类;
根据所述问题和所述答案的来源信息,确定第二信息,所述第二信息用于表示所述问题答案对的数据质量的高低;
根据所述第一信息和所述第二信息,对所述问题答案对进行筛选。
2.根据权利要求1所述的方法,其特征在于,根据所述第一信息和第二信息,对所述问题答案对进行筛选,包括:
若所述第一信息指示所述答案的种类不符合预期种类,或者,所述第二信息表示所述问题答案对的数据质量低,则将所述问题答案对筛除。
3.根据权利要求1或2所述的方法,其特征在于,在根据问答系统中的问题答案对,确定所述问题答案对包括问题、答案以及所述答案的来源信息之前,所述方法还包括:
获取所述问答系统的问答数据,所述问答数据包括多个问题答案对。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
分别获取所述问题、所述答案以及所述来源信息中包括的实体。
5.根据权利要求4所述的方法,其特征在于,所述跟据所述问题、所述答案和知识图谱,确定第一信息,包括:
根据所述问题的实体和所述知识图谱,确定所述答案的预期种类;
确定所述答案的种类是否符合所述预期种类,得到所述第一信息。
6.根据权利要求4所述的方法,其特征在于,所述根据所述问题和所述答案来源信息,确定第二信息,包括:
根据所述问题和所述来源信息,通过相似度算子,计算得到所述问题和所述来源信息的相似度;
获取所述问题的实体和所述答案的来源信息的实体的重叠比例;
根据所述相似度和/或所述重叠比例确定所述第二信息。
7.一种问答数据的筛选装置,其特征在于,包括:
处理模块,用于根据问答系统中的问题答案对,确定所述问题答案对包括的问题、答案以及所述答案的来源信息;
所述处理模块还用于根据所述问题、所述答案和知识图谱,确定第一信息,所述第一信息用于表示所述答案的种类是否符合预期种类;
所述处理模块还用于根据所述问题和所述答案的来源信息,确定第二信息,所述第二信息用于表示所述问题答案对的数据质量的高低;
筛选模块,用于根据所述第一信息和所述第二信息,对所述问题答案对进行筛选。
8.根据权利要求7所述的装置,其特征在于,所述筛选模块具体用于:
若所述第一信息指示所述答案的种类不符合预期种类,或者,所述第二信息表示所述问题答案对的数据质量低,则将所述问题答案对筛除。
9.根据权利要求7或8所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取所述问答系统的问答数据,所述问答数据包括多个问题答案对。
10.根据权利要求7或8所述的装置,其特征在于,所述获取模块还用于:
分别获取所述问题、所述答案以及所述来源信息中包括的实体。
11.根据权利要求10所述的装置,其特征在于,所述处理模块具体用于:
根据所述问题的实体和所述知识图谱,确定所述答案的预期种类;
确定所述答案的种类是否符合所述预期种类,得到所述第一信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910706456.2/1.html,转载请声明来源钻瓜专利网。