[发明专利]基于不确定推理的文本层次分类方法与装置有效
申请号: | 201010562470.9 | 申请日: | 2010-11-29 |
公开(公告)号: | CN101976270A | 公开(公告)日: | 2011-02-16 |
发明(设计)人: | 钱钢;王海;沈玲玲;姜乃松;冯向前;王艳军 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 汤志武 |
地址: | 210097 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不确定 推理 文本 层次 分类 方法 装置 | ||
1.一种基于不确定推理的文本层次分类方法,其特征在于,所述方法包括如下步骤:
从训练文本中提取特征;
确定分类问题的辨识框架和焦元集合;
利用特征的权重构造基本可信度分配函数(BPA);
根据基本可信度分配函数和待分类文本的特征权重合成待分类文本的信度分配;
利用信度分布根据分类规则对待分类文本进行分类。
2.如权利要求1的方法,其特征在于,所述从训练文本中提取特征包括:
对文本进行分词,统计词频,将文本表示成TF向量和BINARY向量,计算文本中词的TF*IDF值,根据权重提取特征;文本中特征的权重包括:
其中,W(di,fj)为文本di中特征fj的权重,TF(di,fj)为文本di中特征fj的频数,IDF(fj)为特征fj的反文档频率。
3.如权利要求1的方法,其特征在于,确定分类问题的辨识框架和焦元集合,是将所有的叶子节点类的集合确定为分类问题的辨识框架;将除根节点外的所有节点类的集合作为分类问题的焦元集合;焦元集合中的非叶子节点类焦元的信度是指分配在该大类上且不确定该分配给该大类的哪个子类的信度。
4.如权利要求1的方法,其特征在于,所述根据特征的权重构造基本可信度分配函数包括:
m(ci,fj)=W(di,fj)/Sj
其中,m(ci,fj)为特征fj属于焦元集合中的类ci,的可信度,Sj为焦元集合中的所有类上特征fj的权重之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010562470.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网吧实名制人脸识别方法及识别系统
- 下一篇:一种在线文档阅读装置及方法