[发明专利]问答语料库的问题分类方法及装置有效
申请号: | 201611036159.4 | 申请日: | 2016-11-14 |
公开(公告)号: | CN107784048B | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 韩茂琨;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 语料库 问题 分类 方法 装置 | ||
本发明公开了一种问答语料库的问题分类方法及装置。该问答语料库的问题分类方法,包括:采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注,形成已标注问题;对已标注问题进行问题类型和问题内容抽取,获取原始数据;采用特征提取工具对原始数据进行特征提取,以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征;对三组原始分类特征进行线性组合,形成特征数据集;采用线性核的支持向量机对特征数据集进行分类,输出分类结果。该问答语料库的问题分类方法中,仅需对问题进行问题类型标注,无需耗费大量的人力成本进行焦点词标注,即可实现对问答语料库中的问题进行分类,分类效率高且成本低。
技术领域
本发明涉及文本信息处理领域,尤其涉及一种问答语料库的问题分类方法及装置。
背景技术
自动问答系统(Question and Answering,简称QA)综合运用知识表示、信息检索、自然语言处理等技术,能够接收用户以自然语言形式输入问题,即可返回简洁而准确的答案的系统。自动问答系统相比于传统的搜索引擎,具有更方便、更准确的优点,是当前自然语言处理及人工智能领域的研究热点。在自动问答系统应用在具体业务时,自动问答系统会接收客户输入的大量的问题数据,自动答问系统上设有用于存储问题数据的问答语料库,问答语料库存储客户输入的问题数据,以电子计算机为载体,对问题数据进行分类,以确定客户关注的问题,有助于利用自动问答系统的用户提高服务质量。
现有自动问答系统中,在对问答语料库中进行分类过程通常采用统计机器学习(Machine Learning)的CRFs(Conditional Random Fields,条件随机域)模型,在采用CRFs模型对问题数据进行分类过程中,需先对问答语料库中的每一问题中的焦点词和疑问词进行标注,然后利用已标注焦点词和疑问词的数据集来训练CRFs模型。其中,疑问词的标注可采用词性标注工具自动获取,但焦点词标注通常只能采用人工标注。在问答语料库中存储有大量的问题数据,对大量的问题数据中的焦点词进行人工标注过程需耗费大量的人工成本,而人工标注过程效率慢,且容易出错,影响对问答语料库中的问题数据进行分类的效果。
发明内容
本发明要解决的技术问题在于,针对现有问答语料库中的问题进行分类时需采用人工标注焦点词所存在的不足,提供一种问答语料库的问题分类方法及装置。
本发明解决其技术问题所采用的技术方案是:一种问答语料库的问题分类方法,包括:
采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注,形成已标注问题;
对所述已标注问题进行问题类型和问题内容抽取,获取原始数据;
采用特征提取工具对所述原始数据进行特征提取,以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征;
对所述三组原始分类特征进行线性组合,形成特征数据集;
采用线性核的支持向量机对所述特征数据集进行分类,输出分类结果。
优选地,所述问题类型包括简写、实体、描述、人物、地点、数字和未知。
优选地,所述特征提取工具包括斯坦福自然语言处理工具、哈工大语言技术平台、NLPIR汉语分词系统和jieba中文分词工具中的至少一种。
优选地,所述采用线性核的支持向量机对所述特征数据集进行分类,输出分类结果,包括:
将所述特征数据集按预设比例划分成训练集、验证集和测试集;
将所述训练集上的特征数据集输入线性核的支持向量机进行训练,并通过所述验证集上的数据特征集进行验证,输出验证结果;
判断所述验证结果是否大于预设验证值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611036159.4/2.html,转载请声明来源钻瓜专利网。