[发明专利]一种基于问题目标特征扩展的分类方法在审
申请号: | 201910192510.6 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109992665A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 郝天永;谢文秀;瞿瑛瑛 | 申请(专利权)人: | 广州智语信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 肖宇扬;付静 |
地址: | 510631 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标词 目标特征 语义扩展 分类 语义 问题分类 语义信息 数据库 | ||
本发明公开了一种基于问题目标特征扩展的分类方法。该方法包括:获取问题目标词;基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集;基于所述语义扩展集,对所述问题目标词进行分类。一种基于问题目标特征扩展的分类方法通过对问题目标词的语义扩展,能够在得到问题目标词丰富的语义信息后,对问题目标词进行问题分类,从而提高问题目标词的分类精度。
技术领域
本发明实施例涉及计算机技术领域,特别是涉及一种基于问题目标特征扩展的分类方法。
背景技术
随着互联网信息的指数型增长,在大数据时代,传统搜索引擎并不能很好地满足用户对精确信息的需求。在用户提出问题后,如何理解用户提出的简短且可能含有噪音的问题信息,进而进行精准的问题目标自动分类是最大挑战。特别是一些用户问题长度较短,包含的词、短语均有限。因此,在处理用户提出的问题时,如何对问题文本进行有效的扩展显得尤为重要。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一目的在于提供一种基于问题目标特征扩展的分类方法,其基于从用户问题中提炼出的、反映用户意图的问题目标词,对问题目标词进行语义扩展,从而更精确地是识别用户的意图,进一步,对问题目标词进行分类。
为了实现上述目的,本发明第一方面提供的一种基于问题目标特征扩展的分类方法,包括获取问题目标词,基于扩展数据库对问题目标词的语义进行扩展,生成问题目标特征的语义扩展集基于所述语义扩展集,对所述问题目标词进行分类。通过对问题的目标词的语义扩展,获取更多关于问题的语义信息,基于语义信息,更加准确地识别用户的目的、意图。
可选地,所述语义扩展集包括第一语义扩展集、第二语义扩展集、第三语义扩展集中至少一种。
可选地,获取所述语义词典数据库,和/或所述语义语料数据库;
使用所述语义词典数据库和/或所述语义语料数据库对所述问题目标词进行语义上下位关系扩展,生成扩展结果;
基于所述扩展结果,识别所问题目标特征的义原信息,所述义原反映所述问题目标词的基本词义;
基于所述义原信息,生成所述问题目标词的第一语义扩展集。
具体地,从所述网络语义数据库中获取实体词义标签;
使用所述实体词义标签对所述问题目标词进行语义扩展,生成所述第二语义扩展集。
可选地,使用训练库多问题语料库进行训练;
捕捉所述问题目标词的语境信息;
使用算法对所述语境信息进行相关性聚类,得到所述问题目标词的簇集;
从所述簇集中,筛选出至少两个与所述问题目标词同簇的词汇作为所述问目标特征词的所述第三语义扩展集。
可选地,统计所述第一语义扩展集、和/或第二语义扩展集、和/或第二语义扩展集的语义扩展词汇及分类精度,生成统计结果;
根据所述分类精度和预设的取值对所述统计结果进行压缩,生成压缩结果;
使用分类器对所述压缩结果进行分类。
可选地,按照所述分类精度的预设阈值,选取所述第一语义扩展集、第二语义扩展集、第二语义扩展集中至少一种语义扩展集的预设的取值。
可选地,基于所述第一语义扩展集、第二语义扩展集、第二语义扩展集中的至少两种语义扩展集,按照所述分类精度的预设阈值,选择所述至少两种语义扩展集之间的线性组合结果。
可选地,使用算法对所述问题目标词进行分析;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智语信息科技有限公司,未经广州智语信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910192510.6/2.html,转载请声明来源钻瓜专利网。