[发明专利]提供多粒度分词结果的方法及其装置有效

专利信息
申请号: 201010555763.4 申请日: 2010-11-22
公开(公告)号: CN102479191A 公开(公告)日: 2012-05-30
发明(设计)人: 孙健;侯磊;唐晶明;初敏;廖晓玲;许冰婧;彭仁刚;杨扬 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种提供多粒度分词结果的方法及其装置,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。该方法包括:建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
搜索关键词: 提供 粒度 分词 结果 方法 及其 装置
【主权项】:
一种建立分词词典的方法,其特征在于,包括:根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识;获取待分类词条,并确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010555763.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top