[发明专利]文本过滤系统及方法有效
申请号: | 201110440801.6 | 申请日: | 2011-12-23 |
公开(公告)号: | CN102521402A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 闫俊英 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 郑玮 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 过滤 系统 方法 | ||
技术领域
本发明涉及一种文本过滤系统及方法,特别是涉及一种基于本体的自适应的文本过滤系统及方法。
背景技术
在信息检索及过滤领域中,文本过滤一直是一个研究热点。目前国内外文献中已经有不少采用不同的方法来实现文本过滤。
在目前的文本过滤方法中,主要包括基于遗传算法的模糊聚类文本过滤方法、采用改进的分类算法的文本过滤方法、采用自适应学习过滤算法的文本过滤方法以及只采用本体的文本过滤方法。其中,采用基于遗传算法的模糊聚类方法,对种群中的每个个体,进行模糊相似矩阵直接聚类,然后根据聚类的结果采用所提出的适应度函数来评估种群的适应度,然而这种文本过滤方法过滤的精度取决于聚类的效果,对于用户的过滤需求不能进行很好的表达;采用改进的分类算法的文本过滤方法对不良文本信息进行过滤,从数据层的角度改进传统的KNN算法,其缺点同样是对用户的需求表达不够精确;采用自适应学习过滤算法的文本过滤方法,能够通过训练样板集的方式来进行自适应学习,能够调整过滤模型,但其对于用户的过滤需求的表达同样不够精确;只采用本体的文本过滤方法,过滤的精度取决于本体的建立,如果本体库创建不够精确的话,将会大大影响文本过滤的精度。
综上所述,可知先前技术之文本过滤方法中存在对用户的需求表达不够精确或本体库创建不够精确影响文本过滤精度的问题,因此实有必要提出改进的技术手段,来解决此一问题
发明内容
为克服上述现有技术存在的不足,本发明的主要目的在于提供一种文本过滤系统及方法,其不仅能够准确表达用户的过滤模型,并能够在过滤时进行自主学习,调整采用本体表达的用户过滤模型,并能够动态调整过滤阈值,以达到更好的过滤效果。
为达上述及其它目的,本发明提供一种文本过滤系统,至少包括:
本体库建立模组,用于根据用户的过滤需求建立本体库;
自适应学习模组,通过对一组过滤样本进行训练学习以对该本体库建立模组建立的本体库动态调整,使其逐渐接近于用户的过滤需求;以及
文本过滤模组,通过对待过滤文本进行预处理、抽取特征词集及相似度匹配处理后,获得该待过滤文本与本体的相关度,并根据该相关度对该待过滤文本进行过滤。
进一步地,该本体库建立模组至少包括:
领域确定模组,用于根据用户的过滤需求,明确要构建的本体所覆盖的领域和范围以确定本体的领域与范围;
收集分析模组,用于在本体所涉及的领域范围内进行信息的收集和分析,明确重点概念和概念之间的关系,并且用精确的术语表达;以及
本体框架建立模组,用于根据收集分析结果建立本体框架。
进一步地,该本体采取三元组Topic(C,P,S)来表示,其中,C表示由过滤领域内的名词概念抽象出来,具有相同属性和行为结构的概念类的集合;P描述概念和关系的属性;S表示类之间的结构关系,如父类、子类等。
进一步地,该自适应学习模组采用增量式迭代方法对一组过滤样本进行训练学习以对该本体库建立模组建立的本体库动态调整。
进一步地,该文本过滤模组至少包括
预处理模组,用于对该待过滤文本进行去除停用词操作;
特征词集抽取模组,用于对该待过滤文本抽取出表达文本内容的特征词,根据特征词不同的位置及频率赋予相应的权重,并将相同的特征词权重值相加,形成文本特征词集;
相似度计算模组,根据向量空间模型,计算出该待过滤文本与该本体的相关度;以及
过滤模组,根据该相关度与一设定的阈值,对该待过滤文本进行过滤。
进一步地,该过滤模组对该带过滤文本中低于该阈值的文本进行过滤。
为达上述及其他目的,本发明提供一种文本过滤方法,其至少包括如下步骤:
根据用户的过滤需求建立本体库;
对一组过滤样本进行训练学习以对所建立的本体库动态调整,使其逐渐接近于用户的过滤需求;以及
对待过滤文本进行预处理、抽取特征词集及相似度匹配处理后,获得该待过滤文本与本体的相关度,并根据该相关度对该待过滤文本进行过滤。
进一步地,该根据用户的过滤需求建立本体库的步骤至少还包括如下步骤:
根据用户的过滤需求,明确要构建的本体所覆盖的领域和范围确定本体的领域与范围;
在本体所涉及的领域范围内进行信息的收集和分析,明确重点概念和概念之间的关系,并且用精确的术语表达;以及
根据收集分析结果建立本体框架。
进一步地,对该本体库动态调整采用增量式迭代方法实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110440801.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于水处理的防堵型喷淋出药装置
- 下一篇:一种制备复合消毒剂的发生设备