[发明专利]提供多粒度分词结果的方法及其装置有效
申请号: | 201010555763.4 | 申请日: | 2010-11-22 |
公开(公告)号: | CN102479191A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 孙健;侯磊;唐晶明;初敏;廖晓玲;许冰婧;彭仁刚;杨扬 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提供 粒度 分词 结果 方法 及其 装置 | ||
1.一种建立分词词典的方法,其特征在于,包括:
根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:
所述词长属性的属性值为训练样本词条包含的字数;
所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;
当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;
交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;
词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识;
获取待分类词条,并
确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;
根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;
若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典。
2.如权利要求1所述的方法,其特征在于,在确定出所述待分类词条并非为最小语义单元时,将所述待分类词条加入复合语义单元词典。
3.如权利要求1所述的方法,其特征在于,将待分类词条加入最小语义单元词典后,还包括:
存储该待分类词条的切分方式以及该待分类词条对应的检索单元,所述切分方式为切分或不切分,当该待分类词条的切分方式为切分时,该待分类词条对应的检索单元为该待分类词条包含的小粒度词;当该待分类词条的切分方式为不切分时,该待分类词条对应的检索单元为该待分类词条本身。
4.一种基于权利要求1所述方法建立的最小语义单元词典提供多粒度分词结果的方法,其特征在于,包括:
建立最小语义单元词典;并
根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及
根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;
依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及
根据中间粒度分词结果以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
5.如权利要求4所述的方法,其特征在于,根据最小语义单元词典对给定文本进行分词,获取中间粒度分词结果,具体包括:
根据最小语义单元词典对给定文本进行分词,以及
在分词获得唯一切分单元序列时,将该切分单元序列作为中间粒度分词结果,以及
在分词获得至少两个不同的切分单元序列时,基于消歧模型选择出一个切分单元序列作为中间粒度分词结果。
6.如权利要求4所述的方法,其特征在于,根据中间粒度分词结果、以及查找到的检索单元获得粒度小于中间粒度分词结果的第二粒度分词结果,具体包括:
将给定文本作为根节点,将中间粒度分词结果中的每个切分单元依次作为根节点的子节点;
对于中间粒度分词结果中的每个切分单元,将该切分单元对应的检索单元依次作为该切分单元对应节点的叶子节点,形成切词结果树;
依次获得切词结果树中各叶子节点,将依次获得的叶子节点作为较小粒度分词结果。
7.如权利要求4至6中任一权利要求所述的方法,其特征在于,所述粒度大于最小语义单元词典的分词词典为复合语义单元词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010555763.4/1.html,转载请声明来源钻瓜专利网。