[发明专利]一种基于概念符号的文本领域的获取系统及方法无效
申请号: | 200910077018.0 | 申请日: | 2009-01-16 |
公开(公告)号: | CN101645083A | 公开(公告)日: | 2010-02-10 |
发明(设计)人: | 韦向峰;黄曾阳;张全;缪建明 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京法思腾知识产权代理有限公司 | 代理人: | 杨小蓉 |
地址: | 100190北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概念 符号 文本 领域 获取 系统 方法 | ||
技术领域
本发明涉及利用计算机科学与技术对文本进行语言文字信息处理的领域,特别 涉及一种基于概念符号的文本领域的获取系统及方法。
背景技术
文本分类技术是利用计算机,根据一定的规则、知识和步骤,把一篇文本归为 一个或多个领域类别的方法和过程。文本分类的一般方法是将文本表示成特征向量, 当两篇文本的特征向量的“夹角”小于某个角度时,它们被归为同一类别。一般选 取词语作为文本特征构成文本的特征向量,特征向量的构造方法多采用TF*IDF方法 或由此衍生的TF*IWF方法,TF*IDF即用词语在文档中的出现频率和在文档集合中 出现频率的倒数之乘积作为特征向量中该特征词语对应的取值。文本分类的K近邻 方法、贝叶斯方法、支持向量机、神经网络、决策树等都是以文本的向量空间模型 为基础的统计方法,在分类之前要求有事先分类好的大量文本集进行参数优化训练, 训练后可以将新文本归入到某一定义好的类别中。中国专利文件(公开号 CN100353361)公开了一种新的面向文本分类的特征向量权重的方法和装置,在 TF*IWF方法的基础上引入了DBV和TF的n词方根,通过按词语频率选取各分类 领域的不同特征词数(50、100、200、500、1000、1500、2000、2500、3000、3500、 4000)的实验,发现取3500词时其实验系统性能较好。
由于文本分类方法要求事先知道文本的领域类别集合和分类标准,在分类类别 不确定和训练文本集获取困难的情况下,文本分类方法将很难实施。因此,又出现 了文本聚类技术。常用的文本聚类方法的典型代表是K-Means算法,即首先从文本 集中任选K个文本作为聚类中心,其它文本根据与聚类中心的特征向量“距离”划 归到距离最近的那个聚类中;然后再以K个类中所有文本的特征向量的均值作为新 的聚类中心,所有文本又根据与聚类中心的距离再聚类,如此迭代计算直到评价函 数收敛为止。但是,文本自动聚类得到的领域类别非常粗糙,由于缺乏分类指导其 结果很难适应实际的需求。而且同一个文本聚类方法,对某个文本集效果较好,对 另一个文本集效果却可能很差,即文本聚类的实用性和稳定性都存在缺点。
综上,文本分类的统计方法需要大量的事先分类好的训练语料,这往往是分类 时所难以提供的。而文本聚类虽然能克服这一缺点,但聚类结果却很难与分类的实 际需求相结合。
发明内容
为了克服上述现有技术中的问题,本发明提供了一种基于概念符号的文本领域 的获取系统及方法,该系统及方法具有分类标准可配置和分类方法规则化的特点, 可以在没有训练语料的情况下获得文本的基本领域分类,并可以根据实际需要定制 文本的分类类别,可用于文本的自动聚类。
为了达到上述目的,本发明提供的一种基于概念符号的文本领域的获取系统, 如图1所示,包括:
一领域概念符号集,用于表达词语概念和领域类别,并向领域判别器提供所需 的领域概念符号。
一词语知识库,用于存储词语及其概念符号,并向分词处理器和语句语义分析 器提供所需的词语及语义概念符号。
一分词处理器,用于把输入文本切分为段落、语句、词语,并送入语句语义分 析器。
一语句语义分析器,用于对语句进行语义分析,得到语句的概念类别和构成语 句的语义块,包括:语义块的角色、边界和内部构成。
一领域判别器,用于根据领域概念符号集和词语知识库中的语义概念符号得到 语句中的激活词语;然后根据语句中的激活词语的语义块类型、领域概念符号关系、 出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域 概念符合作为语句的领域;接着对段落中的语句按照其领域概念符号进行合并,得 到句群及其领域;最后根据输入文本标题、句群在输入文本中出现频次和位置得到 输入文本的领域。
其中,所述语义块的角色类型分为:特征语义块E、作用者语义块A、对象语义 块B及内容语义块C;所述特征语义块类型E分为两种类型:a)全局特征语义块 Eg,是语句第一级层次中的特征语义块E;b)局部特征语义块El,是语义块中嵌套 语句S′时嵌套语句S′的特征语义块E。
其中,所述领域概念符号集包括以下高层节点符号:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910077018.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在气调库内使用的自动防冻加湿装置
- 下一篇:蜂群快速转运蜂箱