[发明专利]一种采用上下文特征匹配的中文机构名简称识别系统无效

申请号：	201410261878.0	申请日：	2014-06-12
公开（公告）号：	CN104035918A	公开（公告）日：	2014-09-10
发明（设计）人：	杨静;郝娟;潘云;裴逸钧;杜泽宇	申请（专利权）人：	华东师范大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	上海蓝迪专利事务所 31215	代理人：	徐筱梅;张翔
地址：	200241 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种采用上下文特征匹配中文机构简称识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种基于上下文特征的机构名简称识别系统。

背景技术

命名实体识别已经成为自然语言处理中的一项基本任务，在信息抽取、句法分析、机器翻译工作中，担任着重要的角色。命名实体中的人名、地名、机构名是最重要的三类，目前，前两种的识别研究已经非常广泛细致，对机构名进行准确、高效的识别具有重要意义。在文本中，简称是一种普遍存在的语法现象，但是由于机构名简称的组成形式多样、规律性不强、同一全称可能有多个简称等特点，导致对其识别困难重重。

目前来看，机构名简称识别方法可以分为两类—基于规则的方法和基于统计的方法。但是无论是哪一种识别方法，机构名简称的获得都依赖于全称，如果语料中不包含机构名简称对应的全称，那么该机构名简称将无法被识别。另外，默认组成简称的汉字也都来自于全称并且与在全称中的顺序保持一致，这就造成不符合上述条件的简称难以被识别。如“成电”是“电子科技大学”的简称，因为“成”并不是全称中的汉字，所以简称“成电”将不会被识别。又如“北医三院”是“北京大学第三医院”的简称，“医”和“三”的顺序与在全称中不一致，因此“北医三院”也很难被识别。

发明内容

本发明的目的是针对现有技术中的缺陷而提供的一种采用上下文特征匹配的中文机构名简称识别系统，该系统既不依赖机构名全称知识库，也不依赖机构名简称的组成形式，而是利用机构名的上下文特征对机构名简称进行识别。

实现本发明目的的具体技术方案是：

一种采用上下文特征匹配的中文机构名简称识别系统，该系统包括训练模块及识别模块，其中：

所述训练模块：以某一新闻语料作为训练集,从训练集训练得到机构名的上下文特征即相交特征集与机构名独有特征集以及干扰词表；

所述识别模块：以与训练集不同的新闻语料作为测试集，在测试集中采用机构名上下文特征匹配算法对机构名简称识别；首先，在错误率的取值范围下，使用相交特征集与机构名独有特征集中的特征与句子进行匹配，识别候选机构名简称；然后，使用final-words去除掉候选机构名简称中的干扰词，得到较准确的机构名简称；最后，利用扩展操作，召回文中部分未被识别出的简称。

所述训练模块中训练得到机构名的上下文特征，具体包括：

1）训练得到机构名的三种上下文特征:前特征、后特征、弱可信特征对，机构名的上下文特征由词语以及词性组成；以某一新闻语料库词性标注为准则认定标记为名词n、名语素Ng、成语i词性的词语具有实际含义，被定义为强特征，标记为助词u、介词p词性的词语不具备实际的含义，被定义为弱特征；把出现在机构名上文的强特征定义为前特征，出现在机构名下文的强特征定义为后特征；把上下文都是弱特征的词语当作一个特征，定义为弱特征对；机构名上下文特征是由前特征、后特征和弱特征对3类特征构成；只选择紧跟在机构名前后的一个词语作为上下文特征；

2）将成语、动名词词语作为干扰词，以所述1）同样形式获得干扰词的3类上下文特征；

3）将机构名的3类上下文特征分别与干扰词的3类上下文特征相交，相交的部分为相交特征集，在机构名的特征集中除去相交部分就是机构名独有特征集；每一个相交特征的错误率根据公式（1）得出，每一个机构名独有特征的错误率为0；

1, 2, 3, …… （1）

其中，是指出现在特征之间的词语为干扰词的总次数，是指出现在特征之间的词语为机构名的总次数。

所述训练模块中训练得到干扰词表，具体包括：

从某一新闻训练语料中把长度在3-6个字的干扰词全部找到，当作候选干扰词；并对候选干扰词进行如下扩展：

1）通过加入中国的姓氏补充名词干扰词；

2）通过加入一些地名的尾字补充名词干扰词；

再对候选干扰词进行过滤处理：

1）对于中国姓氏：与某一新闻训练语料中的每个简称的首字进行一一比对，如果中国姓氏与所有简称的首字都不匹配，把其加入到干扰词表中；

2）对于地名尾字：与训练语料中的每个简称的最后一个尾字进行一一比对，如果地名尾字与所有简称的尾字都不匹配，把其加入到干扰词表中；

得到了干扰词表final-words。