[发明专利]问题答案对扩充方法、装置、设备及计算机可读存储介质在审

专利信息
申请号: 201811587282.4 申请日: 2018-12-25
公开(公告)号: CN109766494A 公开(公告)日: 2019-05-17
发明(设计)人: 祝文博 申请(专利权)人: 出门问问信息科技有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/951
代理公司: 北京鼎承知识产权代理有限公司 11551 代理人: 李伟波;韩德凯
地址: 100094 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 问题答案 计算机可读存储介质 建立索引 答案 计算机设备 扩充装置 收集系统 系统日志 网络 日志 匹配
【说明书】:

本公开提供了一种问题答案对扩充方法,包括:收集系统日志中的问题;获取网络中的问题和答案;为网络中的问题和答案建立索引;对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及基于候选问题答案对,扩充问题答案对。本公开还提供了问题答案对扩充装置、计算机设备及计算机可读存储介质。

技术领域

本公开涉及一种问题答案对扩充方法、装置、计算机设备及计算机可读存储介质。

背景技术

在人机交互系统例如语言助手系统中,人工创造的问题答案对是十分重要的资源,因为这种数据是人类真实的回复,答案的质量高于通过社交网站获得的答案,这里说的通过社交网站获得的答案的流程大致为爬取社交网站上的用户的真实问题和回复来作为问题和答案,但是这种答案因为是自动爬取的,而且是在一定的上下文中产生的答案,所以常见的问题就是答案与问题不匹配。

人工创造的问题答案对一般是由标注团队或产品经理等人员进行手动书写的,这种方式不仅速度慢而且成本高,不适合进行大规模扩充问题答案对。

通过社交网站获得的答案,虽然很多与问题不匹配,但是通过人工逐条过滤的方式,也是可以获得高质量的问题答案对的,可是,因为通过网络自动爬取的数据太多,如果每条都要进行人工过滤,花费的时间和收益比很低,所以这种方式也可以视为速度慢且成本高。

发明内容

为了解决上述技术问题中的至少一个,本公开提供了一种问题答案对扩充方法、装置、计算机设备及计算机可读存储介质。

根据本公开的第一个方面,提供一种问题答案对扩充方法,包括:收集系统日志中的问题;获取网络中的问题和答案;为网络中的问题和答案建立索引;对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及基于候选问题答案对,扩充问题答案对。

根据本公开的至少一个实施方式,收集系统日志中的问题后,对收集的系统日志中的问题进行过滤;获取网络中的问题和答案后,对获取的网络中的问题和答案进行过滤。

根据本公开的至少一个实施方式,对收集的系统日志中的问题进行过滤包括:去重、去掉长度小于预定长度阈值的问题、保留含有“你”或“我”的问题、去掉含有数字的问题、去掉含有英文的问题和/或去掉含有公司名称的问题。

根据本公开的至少一个实施方式,对获取的网络中的问题和答案进行过滤包括:去掉含有非法字符的问题和答案、去掉含有政治色情敏感词的问题和答案和/或保留预定长度的问题和答案。

根据本公开的至少一个实施方式,匹配包括:从建立索引后的网络中的问题和答案中提取出答案,与系统日志中的问题组成候选问题答案对。

根据本公开的至少一个实施方式,匹配包括:使用索引算法匹配得到预定数目的候选问题答案对。

根据本公开的至少一个实施方式,索引算法与为网络中的问题和答案建立索引使用的算法为相同算法。

根据本公开的第二个方面,提供一种问题答案对扩充装置,包括:系统日志问题收集部,系统日志问题收集部收集系统日志中的问题;网络问题答案获取部,网络问题答案获取部获取网络中的问题和答案;索引建立部,索引建立部为网络中的问题和答案建立索引;匹配部,匹配部对系统日志中的问题和建立索引后的网络中的问题和答案进行匹配,得到预定数目的候选问题答案对;以及扩充部,扩充部基于候选问题答案对,扩充问题答案对。

根据本公开的至少一个实施方式,问题答案对扩充装置还包括:系统日志问题过滤部,系统日志问题过滤部对收集的系统日志中的问题进行过滤;以及网络问题答案过滤部,网络问题答案过滤部对获取的网络中的问题和答案进行过滤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问信息科技有限公司,未经出门问问信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811587282.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top