[发明专利]问答系统的测试数据处理方法、装置及终端有效
申请号: | 201611264727.6 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106599317B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 曾永梅;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 系统 测试 数据处理 方法 装置 终端 | ||
一种问答系统的测试数据处理方法、装置及终端,所述方法包括:接收待测试问答系统的测试数据,每一测试数据包括测试问和其对应的期待问题,其中,所述待测试问答系统包括知识库,所述知识库中包括所述期待问题;对于每一测试问,生成对应的语义表达式,所述语义表达式用以表征所述测试问的语义;根据不同测试问的语义表达式之间的比较结果,对所述测试问或其对应的期待问题进行处理,以使得所述测试数据之间语义不重复。采用本发明技术方案可以优化问答系统的测试数据,进而提高对知识库测试的准确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种问答系统的测试数据处理方法、装置及终端。
背景技术
随着智能问答技术的发展,越来越多的平台(例如,QQ、Skype、电商客服系统、MSN平台、微信平台、短消息服务平台等)都在采用智能问答系统。智能问答系统可以基于用户的问题从知识库输出相对应的答案。
为了保证输出答案的准确性,现有技术一般是枚举足够多的测试问对智能问答系统进行测试;或者,通过人工去写语义规则来捕捉对于同一答案的足够多的问法。
但是,通过枚举足够多的测试问的方式耗时耗力;采用人工去写语义规则的方式对写语义规则的人(通常是知识建设人员)有比较高的要求,例如,需要了解语义规则如何编写、有哪些语法符号、词类名会是什么、相似度计算逻辑是什么等;而且不同的知识建设人员对语义规则的理解和写法可能会有偏差。上述两种方式均会导致测试问差异性大,重复性大,进而影响对知识库测试的准确性。
发明内容
本发明解决的技术问题是如何优化问答系统的测试数据,进而提高对知识库测试的准确性。
为解决上述技术问题,本发明实施例提供一种问答系统的测试数据处理方法,问答系统的测试数据处理方法包括:
接收待测试问答系统的测试数据,每一测试数据包括测试问和其对应的期待问题,其中,所述待测试问答系统包括知识库,所述知识库中包括所述期待问题;对于每一测试问,生成对应的语义表达式,所述语义表达式用以表征所述测试问的语义;根据不同测试问的语义表达式之间的比较结果,对所述测试问或其对应的期待问题进行处理,以使得所述测试数据之间语义不重复。
可选的,所述对于每一测试问,生成对应的语义表达式包括:对所述每一测试问进行分词处理,以得到多个词;分别对所述多个词中的每个词进行词性标注处理,以得到所述每个词的词性信息;根据所述词性信息对所述多个词进行过滤处理,保留词性信息为预设词性的词;判断过滤保留的每个词所属的词类,所述语义表达式包括所述过滤保留的每个词的词类,其中,每一词类包括多个词语。
可选的,采用以下方式确定不同测试问的语义表达式之间的比较结果:计算所述不同测试问的语义表达式的语义相似度;根据所述语义相似度确定所述比较结果。
可选的,所述对于每一测试问,生成对应的语义表达式还包括:在所述多个词包含预设重点词时,对所述预设重点词所属的词类增加权重标注;其中,所述词类包括初始权重,在计算所述不同测试问的语义表达式的语义相似度时,如果所述词类存在权重标注,则在所述初始权重基础上的增加所述词类的语义权重。
可选的,所述对于每一测试问,生成对应的语义表达式还包括:在所述多个词包含有序词语组合时,对所述有序词语组合所属的多个词类增加有序标注;其中,在计算所述不同测试问的语义表达式的语义相似度时,如果所述词类存在有序标注,则根据所述有序标注指示的顺序计算所述语义相似度。
可选的,所述根据所述词性信息对所述多个词进行过滤处理时,还保留权重大于设定值的词。
可选的,所述测试数据处理方法还包括:对所述权重大于设定值的词所属的词类增加疑问标注;其中,在计算所述不同测试问的语义表达式的语义相似度时,如果所述词类存在疑问标注,则将所述语义表达式展开成为包含所述词类和不包含所述词类的两个子表达式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611264727.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快递运单号查询方法及其装置
- 下一篇:一种配电网模型数据校验方法