[发明专利]中文比较句分类器模型生成、中文比较句识别方法及装置有效

专利信息
申请号: 200810224334.1 申请日: 2008-10-17
公开(公告)号: CN101727462A 公开(公告)日: 2010-06-09
发明(设计)人: 黄小江;万小军;杨建武;肖建国 申请(专利权)人: 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 比较 分类 模型 生成 识别 方法 装置
【说明书】:

技术领域

发明涉及智能信息处理技术领域,尤指一种中文比较句分类器模型生 成、中文比较句自动识别方法及装置。

背景技术

随着互联网的迅速发展,中文信息也呈现出爆炸性的增长。其中,许多信 息涉及到多种事物的比较,例如同类商品的比较推荐等。自动识别这些比较信 息具有很大的实用价值。通过自动检测文章中的比较句,为准确地提取出比较 的实体及各实体之间的关系提供了前提。

传统汉语语言学研究领域对比较句的研究起步较早。关于比较句的定义, 马建忠提出“同一静字,以所肖者浅深不能一律,而律其不一,所谓比也”(《马 氏文通》,商务印书馆)。吕叔湘认为比较句是表示事之间异同或高下比较关系 的句子(《中国文法要略》,商务印书馆)。车竞提出比较句是指位于中含有比 较词语或比较格式的句子,并给出其基本结构形式“X+比较词+Y+W”(“现代 汉语比较句论略”,湖北师范学院学报,25卷第3期)。但这些研究限定在语言 学领域,需要人工判断一个句子是否是比较句,并没有提供可用计算机自动检 测的方法。

文本自动分类是利用计算机系统对文本集按照一定的分类体系或标准进 行自动类别标记的一类技术,主要可分为基于知识的方法和基于距离的方法。 基于知识的方法按照分类专家的经验知识,构建规则库作为分类器进行分类。 基于距离的方法按照文本之间的相似程度进行划分,常用的包括朴素贝叶斯、 支持向量机、神经网络和k近邻法等。传统的文本分类器把文本表示为词的集 合,不考虑词之间的位置和依赖关系,在应用到将句子分为“比较”和“非比较” 的问题上,效果不佳。因此,需要有一种更有效的识别汉语比较句的方法。

发明内容

本发明实施例提供一种中文比较句分类器模型生成、中文比较句识别方法 及装置,能够正确、有效地识别中文文本中的比较句。

一种中文比较句分类器模型生成方法,包括:

将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列, 并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照 对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键 词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序 列集;

采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式 组成比较模式集;

用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结 果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;

根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。

一种中文比较句分类器模型生成装置,包括:第一转化模块、模式挖掘模 块、第一匹配模块和模型生成模块;

所述第一转化模块,用于将数据集各句子中每一个包含设定的比较关键词 的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别 标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的 顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项; 以及由所述序列组成序列集;

所述模式挖掘模块,用于采用序列模式挖掘算法从所述序列集中挖掘出比 较模式,由所述比较模式组成比较模式集;

所述第一匹配模块,用于用每一个所述序列逐一匹配所述比较模式集中的 各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对 应的一组特征向量;

所述模型生成模块,用于根据所述特征向量及与其对应的所述序列的类别 标记,生成分类器模型。

一种中文文本中比较句识别方法,包括:

将读入的句子中的每一个包含设定的比较关键词的分句转化为一个序列; 所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序 排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;

用每一个所述序列逐一匹配存储的比较模式集中的所有比较模式,得到与 每一个所述序列对应的特征向量;

通过存储的分类器模型,确定所述特征向量对应的类别标记;当任一个所 述特征向量对应的类别标记被确定为比较时,确定读入的句子为比较句;否则, 确定读入的句子为非比较句。

一种中文比较句识别装置,包括:第二转化模块、第二匹配模块、类别确 定模块和比较句确定模块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810224334.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top