[发明专利]问答语料库的问题分类方法及装置有效
申请号: | 201611036159.4 | 申请日: | 2016-11-14 |
公开(公告)号: | CN107784048B | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 韩茂琨;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 语料库 问题 分类 方法 装置 | ||
1.一种问答语料库的问题分类方法,其特征在于,包括:
采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注,形成已标注问题;
对所述已标注问题进行问题类型和问题内容抽取,获取原始数据;
采用特征提取工具对所述原始数据进行特征提取,以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征;
对所述三组原始分类特征进行线性组合,形成特征数据集;
将所述特征数据集按预设比例划分成训练集、验证集和测试集;
将所述训练集上的特征数据集输入线性核的支持向量机进行训练,并通过所述验证集上的数据特征集进行验证,输出验证结果;
判断所述验证结果是否大于预设验证值,若所述验证结果大于所述预设验证值,则保留训练结果模型,并采用所述测试集上的数据特征集进行测试,输出分类结果。
2.根据权利要求1所述的问答语料库的问题分类方法,其特征在于,所述问题类型包括简写、实体、描述、人物、地点、数字和未知。
3.根据权利要求1所述的问答语料库的问题分类方法,其特征在于,所述特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。
4.根据权利要求1-3任一项所述的问答语料库的问题分类方法,其特征在于,还包括:采用文本预处理算法对所述问答语料库中的每一问题进行预处理;所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。
5.一种问答语料库的问题分类装置,其特征在于,包括:
问题类型标注单元,用于采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注,形成已标注问题;
原始数据获取单元,用于对所述已标注问题进行问题类型和问题内容抽取,获取原始数据;
特征提取单元,用于采用特征提取工具对所述原始数据进行特征提取,以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征;
线性组合单元,用于对所述三组原始分类特征进行线性组合,形成特征数据集;
分类处理单元,用于采用线性核的支持向量机对所述特征数据集进行分类,输出分类结果;
其中,所述分类处理单元包括:
数据集划分子单元:用于将所述特征数据集按预设比例划分成训练集、验证集和测试集;
训练验证子单元,用于将所述训练集上的特征数据集输入线性核的支持向量机进行训练,并通过所述验证集上的数据特征集进行验证,输出验证结果;
比较判断子单元,用于判断所述验证结果是否大于预设验证值;
判断处理子单元,用于在所述验证结果大于所述预设验证值时,保留训练结果模型,并采用所述测试集上的数据特征集进行测试,输出分类结果。
6.根据权利要求5所述的问答语料库的问题分类装置,其特征在于,所述问题类型包括简写、实体、描述、人物、地点、数字和未知。
7.根据权利要求5所述的问答语料库的问题分类装置,其特征在于,所述特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。
8.根据权利要求5-7任一项所述的问答语料库的问题分类装置,其特征在于,还包括预处理单元,用于采用文本预处理算法对所述问答语料库中的每一问题进行预处理;所述文本预处理算法包括繁简体统一、大小写统一、中文分词和停用词去除中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611036159.4/1.html,转载请声明来源钻瓜专利网。