[发明专利]实体词识别方法及装置有效

申请号：	201210326664.8	申请日：	2012-09-05
公开（公告）号：	CN103678336B	公开（公告）日：	2017-04-12
发明（设计）人：	廖剑;吴克文;张永刚;林锋	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京润泽恒知识产权代理有限公司11319	代理人：	苏培华
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体词识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及计算机数据处理技术领域，特别是涉及一种实体词识别方法及装置。

背景技术

随着科学技术和互联网的快速发展，计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用，例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词，例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词，则可以直接从服务器的数据库中查找对应的结果，例如对应的翻译结果、问答结果、检索结果，然后反馈给客户端。此种方式，对于已有实体词对应的结果，服务器可以快速反馈给客户端，从而可以提高系统的响应速度。另外，此种方式可以保证反馈数据的准确性，保证数据传输的有效性，避免用户通过客户端不断的发送检索、翻译等请求，从而减少服务器传输给客户端的数据量。

常见的服务器数据库中的实体词多通过人工搜集的方式获取，随着技术的不断发展，特别是在某些特殊领域，会不断产生新的实体词，采用人工搜集的方式往往无法及时对数据库中的实体词进行更新，在用户通过客户端向服务器发送检索、翻译等请求时，服务器便无法实现快速准确的响应，从而降低了响应速度。当用户无法得到准确或其期望的结果时，其往往会不断的发送新的请求，这就增加了服务器负担，同时增加了服务器的数据传输量。另外，通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量，增加人力成本。

发明内容

本申请提供一种实体词识别方法及装置，能够解决实体词挖掘效率低且成本高的问题。

为了解决上述问题，本申请公开了一种实体词识别方法，包括以下步骤：

接收待识别数据，对所述待识别数据按照第一预定规则切分得到分组数据；

按照第二预定规则抽取所述每一组分组数据的特征，基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率；

从每一组分组数据所属的类别组合中选取其中包含的实体词，并计算所述各实体词的识别概率；

按照所述各实体词的概率大小对实体词进行排序。

进一步地，所述预定单词类别包括无关词、左边词、右边词、中间词和独立词，所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定：

若某个类别组合中包含有独立词，则确定该独立词为该类别组合中包含的实体词；和

若某个类别中包含有左边词和右边词，且所述左边词和右边词之间没有其他类别的词语或只有中间词，则确定从该左边词到右边词的组合为实体词。

进一步地，计算所述各实体词的识别概率包括：

选取包含有某个实体词的所有类别组合；