[发明专利]自动问答系统中的问题聚类处理方法及装置有效
申请号: | 201611002092.2 | 申请日: | 2016-11-14 |
公开(公告)号: | CN107656948B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 王健宗;袁威强;韩茂琨;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 问答 系统 中的 问题 处理 方法 装置 | ||
1.一种自动问答系统中的问题聚类处理方法,其特征在于,包括:
接收编写人员输入的聚类请求;
基于所述聚类请求从未回复问题数据库中获取待聚类问题集,所述待聚类问题集包括至少一个待聚类问题;
采用文本特征提取算法对所述待聚类问题集进行特征提取,输出问题特征集,所述问题特征集包括至少一个问题特征;
判断所述问题特征集是否符合预设分裂条件;
若符合预设分裂条件,则采用分割聚类算法对所述问题特征集进行分割聚类,输出至少两个问题特征子集;将所述问题特征子集更新为问题特征集,并判断所述问题特征集是否符合预设分裂条件;
若不符合预设分裂条件,则将所述问题特征集作为聚类类簇输出,根据所述聚类类簇设计新的问答对,并将所述问答对存储在常问问题库中;
所述判断所述问题特征集是否符合预设分裂条件,包括:
判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个问题特征子集,以使问题特征集中所有点到原始聚类中心的平均距离大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离;若能,则符合预设分裂条件;若否,则不符合预设分裂条件;
或者,判断所述问题特征集的问题特征数量是否大于预设分裂数量,若是,则符合预设分裂条件;若否,则不符合预设分裂条件;所述预设分裂数量为未回复问题数据库中所有问题数量的平方根。
2.根据权利要求1所述的自动问答系统中的问题聚类处理方法,其特征在于,所述采用文本特征提取算法对所述待聚类问题集进行特征提取,输出问题特征集,包括;
采用IT-IDF算法的向量空间模型对所述待聚类问题集进行特征提取,输出初始特征集;
采用LSI模型对所述初始特征集进行特征映射,输出所述问题特征集。
3.根据权利要求1所述的自动问答系统中的问题聚类处理方法,其特征在于,所述采用文本特征提取算法对所述待聚类问题集进行特征提取之前,还包括:采用文本预处理算法对所述待聚类问题集进行预处理;所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。
4.根据权利要求1所述的自动问答系统中的问题聚类处理方法,其特征在于,还包括:对所述聚类类簇进行数据库字段匹配处理,并将处理后的聚类类簇存储在聚类问题数据库中。
5.一种自动问答系统中的问题聚类处理装置,其特征在于,包括:
聚类请求接收单元,用于接收编写人员输入的聚类请求;
聚类问题集获取单元,用于基于所述聚类请求从未回复问题数据库中获取待聚类问题集,所述待聚类问题集包括至少一个待聚类问题;
特征提取单元,用于采用文本特征提取算法对所述待聚类问题集进行特征提取,输出问题特征集,所述问题特征集包括至少一个问题特征;
分裂判断单元,用于判断所述问题特征集是否符合预设分裂条件;
第一处理单元,用于在所述问题特征集符合预设分裂条件时,采用分割聚类算法对所述问题特征集进行分割聚类,输出至少两个问题特征子集;将所述问题特征子集更新为问题特征集,并判断所述问题特征集是否符合预设分裂条件;
第二处理单元,用于在所述问题特征集不符合预设分裂条件时,将所述问题特征集作为聚类类簇输出,根据所述聚类类簇设计新的问答对,并将所述问答对存储在常问问题库中;
所述分裂判断单元包括第一判断单元或者第二判断单元;
所述第一判断单元,用于判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个问题特征子集,以使问题特征集中所有点到原始聚类中心的平均距离大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离;若能,则符合预设分裂条件;若否,则不符合预设分裂条件;
所述第二判断单元,用于判断所述问题特征集的问题特征数量是否大于预设分裂数量,若是,则符合预设分裂条件;若否,则不符合预设分裂条件;所述预设分裂数量为未回复问题数据库中所有问题数量的平方根。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611002092.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大型板材加工模具
- 下一篇:一种分布式数据库的联合访问方法