[发明专利]一种基于多标签分类的中英文搜索结果可视化系统有效
申请号: | 201110312662.9 | 申请日: | 2011-10-16 |
公开(公告)号: | CN103049454A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 卫志华;苗夺谦 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 宣慧兰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 分类 中英文 搜索 结果 可视化 系统 | ||
1.一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,该系统包括:
显示模块,用于显示用户界面及搜索结果;
搜索模块,用于根据用户查询语句调用搜索引擎API进行搜索,并获取搜索结果,分别整合中文和英文的搜索结果;
分类模块,用于对搜索模块获取的结果进行中英文多标签分类,并对分类结果进行整合;
可视化模块,用于对整合后的分类结果实现Web用户界面设计,并通过显示模块输出。
2.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的分类模块包括:
分类器,用于对搜索模块获取的结果进行中英文多标签分类,并进行分类结果整合;
分类语料库,该分类语料库为不平衡语料库,包括若干个类别的多标签语料库,用于训练分类器。
3.根据权利要求2所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的分类语料库包括中文分类语料库和英文分类语料库。
4.根据权利要求1所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的分类模块采用基于贝叶斯理论的中英文多标签分类方法进行分类,该方法具体包括以下步骤:
1)构建中文和英文分类语料库;
2)分类器通过分类语料库进行离线学习;
3)分类器分别对中文和英文的搜索结果进行分类,同时进行在线学习;
4)对分类结果进行整合。
5.根据权利要求4所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的步骤2)具体包括以下步骤:
A)遍历分类语料库中的训练文本;
B)对训练文本进行预处理;
C)扫描训练文本,记录每个特征词的词频信息,加入HashMap中;
D)根据HashMap中词频统计信息计算每个特征词的条件概率,并且将所得结果保存至文件中。
6.根据权利要求4所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的步骤3)具体包括以下步骤:
a)从训练过程生成文件中读入特征词及其统计信息,并加入HashMap中;
b)对未知文本进行预处理,生成特征词集合;
c)遍历所有特征词,并在步骤a)中生成的HashMap中查找每个特征词对每个类别的条件概率;
d)根据每个特征词对于每个类别的条件概率,计算出该未知文本对于所有类别的联合概率;
e)根据所有得到的联合概率,计算出概率阈值;
f)为该未知文本分配所有联合概率不小于概率阈值的类别标签,并输出标签;
g)在HashMap中修改该未知文本中特征词对应于分类结果给出的类别中的条件概率;
h)分类过程结束。
7.根据权利要求6所述的一种基于多标签分类的中英文搜索结果可视化系统,其特征在于,所述的概率阈值Pthres为未知文本di对于所有已知类别的后验概率的算术平均数:
P(Cj|di)为未知文本di属于某类别Cj的概率,n为类别个数,若P(Cj|di)≥Pthres,di赋予类别Cj的标签,di的标签数量nd满足1≤nd≤n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110312662.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗扁平疣的中药外洗剂
- 下一篇:治疗骨骼和痔疮疾病的外敷膏药