[发明专利]中文比较句分类器模型生成、中文比较句识别方法及装置有效
申请号: | 200810224334.1 | 申请日: | 2008-10-17 |
公开(公告)号: | CN101727462A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 黄小江;万小军;杨建武;肖建国 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。 | ||
搜索关键词: | 中文 比较 分类 模型 生成 识别 方法 装置 | ||
【主权项】:
一种中文比较句分类器模型生成方法,其特征在于,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序列集;采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式组成比较模式集;用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810224334.1/,转载请声明来源钻瓜专利网。