[发明专利]实体词识别方法及装置有效
申请号: | 201210326664.8 | 申请日: | 2012-09-05 |
公开(公告)号: | CN103678336B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 廖剑;吴克文;张永刚;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体词 识别 方法 装置 | ||
1.一种实体词识别方法,其特征在于,包括以下步骤:
接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
按照所述各实体词的概率大小对实体词进行排序。
2.如权利要求1所述的实体词识别方法,其特征在于,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定:
若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和
若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
3.如权利要求1所述的实体词识别方法,其特征在于,计算所述各实体词的识别概率包括:
选取包含有某个实体词的所有类别组合;
将所述所有类别组合的概率相加得到所述实体词的识别概率。
4.如权利要求1至3任一项所述的实体词识别方法,其特征在于,所述方法通过训练好的模型实现数据处理。
5.如权利要求4所述的实体词识别方法,其特征在于,所述在所述各步骤之前还包括:
准备训练数据,对模型进行训练。
6.如权利要求5所述的实体词识别方法,其特征在于,所述准备训练数据包括采用自动标注的方式进行准备,包括以下步骤:
获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
根据所述分数对待识别数据中的文本进行标注。
7.一种实体词识别装置,其特征在于,包括:
数据接收模块,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
类别组合概率计算模块,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
实体词识别概率计算模块,用于从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
8.如权利要求7所述的实体词识别装置,其特征在于,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述实体词识别概率计算模块包括:
实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
9.如权利要求7所述的实体词识别装置,其特征在于,实体词识别概率计算模块包括:
类别组合选取子模块,用于选取包含有某个实体词的所有类别组合;
计算子模块,用于将所述所有类别组合的概率相加得到所述实体词的识别概率。
10.如权利要求7至9任一项所述的实体词识别装置,其特征在于,所述数据接收模块、类别组合及实体词确定模块、类别组合概率计算模块、识别概率计算模块和排序模块置于训练好的模型中,所述装置还包括:
模型训练模块,用于准备训练数据,对模型进行训练。
11.如权利要求10所述的实体词识别装置,其特征在于,所述模型训练模块包括数据准备子模块,所述数据准备子模块包括:
匹配单元,用于获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计单元,用于统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
标注单元,用于根据所述分数对待识别数据中的文本进行标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210326664.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据清除方法、装置及系统
- 下一篇:一种样本数据的整合系统及方法