[发明专利]一种领域问答系统咨询的快速可增量聚类方法在审
申请号: | 201510187231.2 | 申请日: | 2015-04-20 |
公开(公告)号: | CN104778256A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 马健;刘亮亮;吴健康;李洪梅 | 申请(专利权)人: | 江苏科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 许丹丹 |
地址: | 212003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 问答 系统 咨询 快速 增量 方法 | ||
1.一种领域问答系统咨询的快速可增量聚类方法,其特征在于该方法基于将离线聚类和在线聚类相结合的聚类框架,包括以下步骤:
1)通过咨询历史的离线聚类算法,结合咨询去重,利用语义无关词典和词类词典对用户咨询进行语义预处理,从而实现语义的归一化,然后基于多特征融合的相似度计算构建相似度图,基于相似度图对用户咨询历史进行离线聚类;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
2)利用离线聚类的结果作为聚类特征,对用户咨询进行在线聚类,对离线聚类和在线聚类结果进行合并,生成聚类结果。
2.根据权利要求1所述的领域问答系统咨询的快速可增量聚类方法,其特征在于:
所述的步骤1)包括以下步骤:
步骤11)咨询语义预处理,包括:
(1)删除句子中的特殊符号;
(2)进行大小写转换,将句子中的英文统一转化成小写;
(3)通过建立语义无关词的双数组Trie树的结构,识别并删除句子中的语义无关词;
(4)利用词类词典建立双数组Trie树的词典结构,通过向后最大匹配来匹配句子中的词,用词类名称来替换所匹配到的属于该词类的词条;
步骤12)咨询的特征向量的提取:利用包括TF-IDF特征、词性特征和词类特征的特征进行特征提取,形成词的特征向量;
步骤13)咨询去重:选取咨询数据中特征向量相同的句子中的一条参与聚类,并建立重复咨询索引;
步骤14)咨询相似度图的建立:给定两条咨询S1和S2,通过多特征的相似度融合算法计算咨询间的相似度Sim(S1,S2),建立相似度图SimGraph;所述基于多特征融合的相似度计算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
步骤15)利用以下聚类算法对相似度图SimGraph进行聚类:
(1)初始化将相似图中的所有顶点都各自作为一个类,对N条咨询共有N个类cluster(i);
(2)遍历相似度图SimGraph,查找图中相似度最大的两个类cluster(i)和cluster(j),并且该相似度要大于聚类的阈值β;如果找不到则聚类终止;
(3)两个类cluster(i)和cluster(j)合并成一个新类cluster(k);
(4)更新相似度图,将类cluster(i)和类cluster(j)删除,同时在图中加入新类cluster(k),同时定义更新新类cluster(k)与图中各旧类cluster(m)的相似度为:
其中|cluster(i)|:表示类cluster(i)中元素的个数;sim(cluster(i),cluster(m))表示cluster(i)与cluster(m)的相似度;
(5)迭代步骤(2)至步骤(3)直到没有新的类产生;
(6)将咨询去重步骤标记的相同的句子分别加入到各自的类中,从而生成聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科技大学,未经江苏科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510187231.2/1.html,转载请声明来源钻瓜专利网。