[发明专利]中文比较句分类器模型生成、中文比较句识别方法及装置有效

申请号：	200810224334.1	申请日：	2008-10-17
公开（公告）号：	CN101727462A	公开（公告）日：	2010-06-09
发明（设计）人：	黄小江;万小军;杨建武;肖建国	申请（专利权）人：	北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置，包括：将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列，并为序列建立与其对应分句所属句子相同的类别标记；得到序列集；采用序列模式挖掘算法从序列集中挖掘出若干比较模式，组成比较模式集；用每一个序列逐一匹配比较模式集中的各比较模式，根据匹配结果及比较模式总数量，得到与每一个序列对应的一组特征向量；根据所述特征向量及与其对应的所述序列的类别标记，生成分类器模型；然后通过得到的比较模式集和分类器模型，识别读入的未知类别的句子，确定其是否是比较句。通过自动学习比较句的模式特征，生成分类器模型，自动、有效地识别文本中的比较句。
搜索关键词：	中文比较分类模型生成识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种中文比较句分类器模型生成方法，其特征在于，包括：将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列，并为所述序列建立与其对应分句所属句子相同的类别标记，所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项；以及由所述序列组成序列集；采用序列模式挖掘算法从所述序列集中挖掘出比较模式，由所述比较模式组成比较模式集；用每一个所述序列逐一匹配所述比较模式集中的各比较模式，根据匹配结果及所述比较模式总数量，得到与每一个所述序列对应的一组特征向量；根据所述特征向量及与其对应的所述序列的类别标记，生成分类器模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司，未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810224334.1/，转载请声明来源钻瓜专利网。

上一篇：一种生成组织模型数据表的方法及装置
下一篇：一种特定应用算法专用集成电路结构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文比较句分类器模型生成、中文比较句识别方法及装置有效

专利文献下载