[发明专利]一种基于问题目标特征扩展的分类方法在审
申请号: | 201910192510.6 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109992665A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 郝天永;谢文秀;瞿瑛瑛 | 申请(专利权)人: | 广州智语信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 肖宇扬;付静 |
地址: | 510631 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标词 目标特征 语义扩展 分类 语义 问题分类 语义信息 数据库 | ||
1.一种基于问题目标特征扩展的分类方法,其特征在于,包括:
获取问题目标词;
基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集;
基于所述语义扩展集,对所述问题目标词进行分类。
2.如权利要求1所述的方法,其特征在于,所述扩展数据库包括语义词典数据库、语义语料数据库、网络语义数据库中至少一种;
所述语义扩展集包括第一语义扩展集、第二语义扩展集、第三语义扩展集中至少一种。
3.如权利要求2所述的方法,其特征在于,所述对问题目标词的语义进行扩展包括以下子步骤:
获取所述语义词典数据库,和/或所述语义语料数据库;
使用所述语义词典数据库和/或所述语义语料数据库对所述问题目标词进行语义上下位关系扩展,生成扩展结果;
基于所述扩展结果,识别所问题目标特征的义原信息,所述义原反映所述问题目标词的预设的取值词义;
基于所述义原信息,生成所述问题目标词的第一语义扩展集。
4.如权利要求2所述的方法,其特征在于,所述对问题目标词的语义进行扩展包括以下子步骤:
从所述网络语义数据库中获取实体词义标签;
使用所述实体词义标签对所述问题目标词进行语义扩展,生成所述第二语义扩展集。
5.如权利要求1所述的方法,其特征在于,所述对问题目标词的语义进行扩展包括以下子步骤:
使用训练库多问题语料库进行训练;
捕捉所述问题目标词的语境信息;
使用算法对所述语境信息进行相关性聚类,得到所述问题目标词的簇集;
从所述簇集中,筛选出至少两个与所述问题目标词同簇的词汇作为所述问目标特征词的所述第三语义扩展集。
6.如权利要1-6任一项所述的方法,其特征在于:基于所述语义扩展集,对所述问题目标词进行分类包括以下子步骤:
统计所述第一语义扩展集、和/或第二语义扩展集、和/或第二语义扩展集的语义扩展词汇及分类精度,生成统计结果;
根据所述分类精度和预设的取值对所述统计结果进行压缩,生成压缩结果;
使用分类器对所述压缩结果进行分类。
7.如权利要求6所述的方法,其特征在于:在所述统计步骤和压缩步骤之间,还包括以下步骤:
按照所述分类精度的预设阈值,选取所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的预设的取值。
8.如权利要求6所述的方法,其特征在于:在所述统计步骤和压缩步骤之间,还包括以下步骤:
基于所述第一语义扩展集、第二语义扩展集、第二语义扩展集中的至少两种语义扩展集,按照所述分类精度的预设阈值,选择所述至少两种语义扩展集之间的线性组合结果。
9.如权利要求1所述的方法,其特征在于:在基于所述扩展数据库对所述问题目标词的语义进行扩展之前,还对所述问题目标词进行预处理,所述预处理包括:
使用算法对所述问题目标词进行分析;
根据分析结果,对所述问题目标词的分类结果进行预测,并返回预测结果;
根据所述语预测结果对所述问题目标词进行预分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智语信息科技有限公司,未经广州智语信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910192510.6/1.html,转载请声明来源钻瓜专利网。