[发明专利]提供多粒度分词结果的方法及其装置有效
申请号: | 201010555763.4 | 申请日: | 2010-11-22 |
公开(公告)号: | CN102479191A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 孙健;侯磊;唐晶明;初敏;廖晓玲;许冰婧;彭仁刚;杨扬 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种提供多粒度分词结果的方法及其装置,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。该方法包括:建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。 | ||
搜索关键词: | 提供 粒度 分词 结果 方法 及其 装置 | ||
【主权项】:
一种建立分词词典的方法,其特征在于,包括:根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识;获取待分类词条,并确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010555763.4/,转载请声明来源钻瓜专利网。