[发明专利]实体词识别方法及装置有效
申请号: | 201210326664.8 | 申请日: | 2012-09-05 |
公开(公告)号: | CN103678336B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 廖剑;吴克文;张永刚;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体词 识别 方法 装置 | ||
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种实体词识别方法及装置。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用,例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词,例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词,则可以直接从服务器的数据库中查找对应的结果,例如对应的翻译结果、问答结果、检索结果,然后反馈给客户端。此种方式,对于已有实体词对应的结果,服务器可以快速反馈给客户端,从而可以提高系统的响应速度。另外,此种方式可以保证反馈数据的准确性,保证数据传输的有效性,避免用户通过客户端不断的发送检索、翻译等请求,从而减少服务器传输给客户端的数据量。
常见的服务器数据库中的实体词多通过人工搜集的方式获取,随着技术的不断发展,特别是在某些特殊领域,会不断产生新的实体词,采用人工搜集的方式往往无法及时对数据库中的实体词进行更新,在用户通过客户端向服务器发送检索、翻译等请求时,服务器便无法实现快速准确的响应,从而降低了响应速度。当用户无法得到准确或其期望的结果时,其往往会不断的发送新的请求,这就增加了服务器负担,同时增加了服务器的数据传输量。另外,通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量,增加人力成本。
发明内容
本申请提供一种实体词识别方法及装置,能够解决实体词挖掘效率低且成本高的问题。
为了解决上述问题,本申请公开了一种实体词识别方法,包括以下步骤:
接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
按照所述各实体词的概率大小对实体词进行排序。
进一步地,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定:
若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和
若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
进一步地,计算所述各实体词的识别概率包括:
选取包含有某个实体词的所有类别组合;
将所述所有类别组合的概率相加得到所述实体词的识别概率。
进一步地,所述方法通过训练好的模型实现数据处理。
进一步地,所述在所述各步骤之前还包括:
准备训练数据,对模型进行训练。
进一步地,所述准备训练数据包括采用自动标注的方式进行准备,包括以下步骤:
获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
根据所述分数对待识别数据中的文本进行标注。
本申请还公开了一种实体词识别装置,包括:
数据接收模块,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
类别组合概率计算模块,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
实体词识别概率计算模块,用于从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
进一步地,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述实体词识别概率计算模块包括:
实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
进一步地,实体词识别概率计算模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210326664.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据清除方法、装置及系统
- 下一篇:一种样本数据的整合系统及方法