[发明专利]问答数据的筛选方法、装置、设备以及存储介质在审
申请号: | 201910706456.2 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110399466A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 时鸿剑;冯欣伟;戴松泰;周环宇;余淼;袁鹏程;宋勋超 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问题答案 答案 问答数据 筛选 存储介质 来源信息 数据资源 问答系统 图谱 | ||
本实施例提供一种问答数据的筛选方法、装置、设备以及存储介质,该方法包括:根据问答系统中的问题答案对,确定问题答案对包括的问题、答案以及所述答案的来源信息,并根据问题、答案和知识图谱,确定第一信息,所述第一信息用于表示所述答案的种类是否符合预期种类,再根据问题和答案的来源信息,确定第二信息,所述第二信息用于表示所述问题答案对的数据质量的高低,最后根据第一信息和第二信息,对问题答案对进行筛选,通过对问题答案对的准确筛选,一方面减少了数据资源的浪费,另一方面提高了问答数据的准确性和交互的及时性。
技术领域
本发明实施例涉及智能交互技术领域,尤其涉及一种问答数据的筛选方法、装置、设备以及存储介质。
背景技术
随着智能交互领域的不断发展,为了提高智能交互产品的答案的准确性,普遍存储了庞大的问答数据存,而对问答数据的过滤能够减轻数据资源的浪费,也能提升交互效率。
现有技术中的问答数据的筛除方法,由于缺少对问题和答案本身的数据质量的判断,容易导致存在部分低质量数据无法筛除,或者,在筛除低质量数据时,会将部分高质量数据一同筛除的问题。进而,一方面造成数据资源的浪费,影响了交互的及时性;另一方面,降低了问答数据的准确性,影响了用户体验。
发明内容
本发明实施例提供一种问答数据的筛选方法、装置、设备以及存储介质,用于解决上述方案中数据资源消耗大以及问答数据准确性低的问题。
第一方面,本发明提供一种问答数据的筛选方法,包括:
根据问答系统中的问题答案对,确定所述问题答案对包括的问题、答案以及所述答案的来源信息;
根据所述问题、所述答案和知识图谱,确定第一信息,所述第一信息用于表示所述答案的种类是否符合预期种类;
根据所述问题和所述答案的来源信息,确定第二信息,所述第二信息用于表示所述问题答案对的数据质量的高低;
根据所述第一信息和所述第二信息,对所述问题答案对进行筛选。
进一步地,根据所述第一信息和第二信息,对所述问题答案对进行筛选,包括:
若所述第一信息指示所述答案的种类不符合预期种类,或者,所述第二信息表示所述问题答案对的数据质量低,则将所述问题答案对筛除。
在一种可能的实现方式中,在根据问答系统中的问题答案对,确定所述问题答案对包括问题、答案以及所述答案的来源信息之前,所述方法还包括:
获取所述问答系统的问答数据,所述问答数据包括多个问题答案对。
具体的,所述方法还包括:
分别获取所述问题、所述答案以及所述来源信息中包括的实体。
在一种具体的实现方式中,所述跟据所述问题、所述答案和知识图谱,确定第一信息,包括:
根据所述问题的实体和所述知识图谱,确定所述答案的预期种类;
确定所述答案的种类是否符合所述预期种类,得到所述第一信息。
在一种具体的实现方式中,所述根据所述问题和所述答案来源信息,确定第二信息,包括:
根据所述问题和所述来源信息,通过相似度算子,计算得到所述问题和所述来源信息的相似度;
获取所述问题的实体和所述答案的来源信息的实体的重叠比例;
根据所述相似度和/或所述重叠比例确定所述第二信息。
第二方面,本发明提供一种问答数据的筛选装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910706456.2/2.html,转载请声明来源钻瓜专利网。