[发明专利]一种面向中文人名识别系统的评测方法及评测系统无效
申请号: | 200910243123.7 | 申请日: | 2009-12-25 |
公开(公告)号: | CN101727441A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 李玉鑑;张德栋;杨震 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 人名 识别 系统 评测 方法 | ||
技术领域:
本发明涉及一种面向中文人名识别系统的评测方法,属于自然语言处理 领域。
背景技术:
随着信息技术的发展,尤其是近几年互联网的飞速发展,新信息大量地 涌现,Web上的数据正以每天几百万个页面的速度增长。目前,Web已成为 人类获取信息的主要手段之一。面对海量的、大规模的、非结构化的语言文 本信息,如何快速有效的获得所需的信息和知识己经成为自然语言处理研究 的重点。命名实体识别尤其是中文人名识别在信息检索、信息抽取、机器翻 译和文本分类等应用领域有重要作用,能够显著地提高信息检索、信息提取、 机器翻译和文本分类等系统的性能,为从文本中自动获取知识奠定了基础。 人名识别结果的好坏,直接决定着语法分析、语义分析等语言理解全过程的 性能。
随着近几年人们对中文人名识别的研究,中文人名识别已经取得了一定 的成果,然而对中文人名识别方法的评测的方法却是一个空白。正确客观的 对人名识别方法的进行评测可以极大的促进中文人名识别方法的发展。
在当前评测人名识别方法主要是采取随意抓取一篇文章或一定数目的句 子进行人名识别,然后人工统计识别的结果,进行人工计算召回率和准确率, 通过几次结果的比较判断系统的稳定性。这主要存在以下不足:
(1)每次都要进行人工统计费时、费力而且不可避免的出现差错。
(2)句子数目、人名固定不具有代表性,统计的结果不能足够、客观的 反应识别系统的准确率和召回率。
(3)评测次数过少,不能很好的反映系统的稳定性。
因此,设计一种中文人名识别系统的评测方法具有及其重要意义。
发明内容:
本发明的目的,就在于克服上面提到的当前中文姓名识别评测方法中的 不足,提出了一种面向中文人名识别系统的评测方法。
本发明的一种面向中文人名识别系统的评测方法,其特征在于,包括以 下步骤:
评测文件生成步骤:从句子库抽取指定数目的句子,并对句子中的每个
人名利用人名库中的人名进行替换产生评测文件;
记录数据步骤:在生成评测文件的过程中,记录句子在评测文件中的行 号、句子中的每个人名及人名在句子中的起始位置;
识别步骤:利用待评测的中文人名识别系统对评测文件进行人名识别, 得到识别结果,识别结果包括句子在评测文件中的行号、识别出的人名及人 名在句子中的起始位置;
判断步骤:根据预先设定的判断标准对识别结果和记录数据进行比较, 判断人名识别系统是否正确识别出句子中的人名;所述预先设定的判断标准 如下:当且仅当识别结果中句子在评测文件中的行号、识别出的人名及人名 在句子中的起始位置和记录数据中句子的行号、句子中的人名、人名在句子 中的起始位置对应相等时,为一个正确识别出的人名;
评测指标计算步骤:根据判断步骤的判断结果形成评价中文人名识别系 统的评测指标;
在所述评测指标计算步骤中的一次评测指标包括:
对识别系统的评测指标包括:
指标一:平均召回率,n次评测召回率的平均值;
指标二:平均准确率,n次评测准确率的平均值;
指标三:稳定性,通过n次评测准确率的方差来表示,方差小于等于一设 定阈值0.01时,n取值范围为10≤n≤50,表明中文人名识别系统具有较高稳 定性。
在所述评测文件生成步骤中所述句子库其特征在于:
特征一:句子库要涉及政治,经济,文化等多个领域;
特征二:句子库中句子的个数要大于1万条,每个句子要包含一个或多 个人名,对句子中的每个人名采用计算机能够准确识别的标识来标示,如: “/nrb姓名/nre”(/nrb姓名在句子的起始位置,/nre姓名在句子的结束位置);
特征三:为增加评测的准确性和客观性,增加10%-50%不包含人名的干 扰句子。
在所述评测文件生成步骤中所述人名库其特征在于:
特征一:人名库的姓氏个数要大于600个;
特征二:人名库包含的人名数要大于10万个。
一种所述方法的中文人名识别评测系统,该评测系统实现对中文人名识 别系统的性能进行评测,该系统包括一计算机,其特征在于,该计算机包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910243123.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新猪环病毒、疫苗及诊断试剂
- 下一篇:用于对半导体部件进行控制的方法和设备