[发明专利]中文比较句分类器模型生成、中文比较句识别方法及装置有效
申请号: | 200810224334.1 | 申请日: | 2008-10-17 |
公开(公告)号: | CN101727462A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 黄小江;万小军;杨建武;肖建国 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 比较 分类 模型 生成 识别 方法 装置 | ||
1.一种中文比较句分类器模型生成方法,其特征在于,包括:
将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列, 并为所述序列建立与其对应分句所属句子相同的类别标记,所述序列包含按照 对应分句中各非关键词和关键词在所述对应分句中的顺序排列的所述非关键 词的词性标识项和所述关键词及其词性标识的组合项;以及由所述序列组成序 列集;
采用序列模式挖掘算法从所述序列集中挖掘出比较模式,由所述比较模式 组成比较模式集;
用每一个所述序列逐一匹配所述比较模式集中的各比较模式,根据匹配结 果及所述比较模式总数量,得到与每一个所述序列对应的一组特征向量;
根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型。
2.如权利要求1所述的方法,其特征在于,所述将数据集各句子中每一 个包含设定的比较关键词的分句转化成一个序列,并为所述序列建立其对应分 句所属句子相同的类别标记,具体包括:
依次从数据集中读入已标注类别的句子;
使用自动分词和词性标注方法,将读入的句子切分为词,并为切分出的每 一个词添加词性标识;
确定出所述读入的句子包含的一个或多个分句;
将每个包含所述比较关键词的分句转化为一个序列,并为所述序列建立其 对应分句所属句子相同的类别标记。
3.如权利要求2所述的方法,其特征在于,所述确定出所述读入的句子 包含的一个或多个分句,具体包括:
根据分句标识确定出所述读入的句子包含的一个或多个分句;所述分句标 识包括:逗号、冒号和分号。
4.如权利要求3所述的方法,其特征在于,所述将每个包含所述比较关 键词的分句转化为一个序列,具体包括:
从分句中按顺序取词,判断取出的词是否是关键词库中存储的所述比较关 键词;
若是,则确定取出的词为关键词,保留该关键词及其词性标识,将所述关 键词及其词性标识合为一个组合项;若否,则确定取出的词为非关键词,只保 留该非关键词的词性标识,单独作为一项;
将所述组合项和非关键词的词性标识项按照对应词在包含比较关键词的 分句中的顺序组成一个序列。
5.如权利要求1所述的方法,其特征在于,所述用每一个所述序列逐一 匹配所述比较模式集中的各比较模式,根据匹配结果及所述比较模式总数量, 得到与每一个所述序列对应的一组特征向量,具体包括:
从所述序列集中获取一个序列;
将获取的序列与比较模式集中的每一个比较模式进行匹配,根据匹配结 果,得到所述获取的序列对应的维数等于所述比较模式总数量的特征向量;
将所述获取的序列的类别标记赋予所述特征向量,并输出所述特征向量;
从所述序列集中获取下一个序列进行处理,直至处理完所述序列集中所有 的序列,得到一组特征向量。
6.如权利要求5所述的方法,其特征在于,所述将获取的序列与比较模 式集中的每一个比较模式进行匹配,根据匹配结果,得到所述获取的序列对应 的维数等于所述比较模式总数量的特征向量,具体包括:
从所述比较模式集中获取一个比较模式,判断获取的比较模式是否是所述 获取的序列的子序列,若是,则确定所述特征向量中与获取的比较模式对应的 元素的值为1;若否,则确定所述特征向量中与获取的比较模式对应的元素的 值为0;
直至匹配完所述比较模式集中所有的比较模式,得到一个维数等于所述比 较模式总数量的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810224334.1/1.html,转载请声明来源钻瓜专利网。