[发明专利]一种从Web网页中获取汉语全称的方法在审
申请号: | 201110253100.1 | 申请日: | 2011-08-31 |
公开(公告)号: | CN102955818A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 王石;丁远钧;符建辉;王卫民 | 申请(专利权)人: | 镇江诺尼基智能技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 212009 江苏省镇江市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 网页 获取 汉语 全称 方法 | ||
技术领域
本发明涉及中文信息处理和信息检索领域的全称获取技术,尤其涉及一种从Web网页中获取汉语全称的方法,从Web网页上获取多学科、大规模、高准确率的汉语全称的方法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要问题。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着计算机和互联网的广泛应用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理的对象也从小规模受限语言处理转向大规模真实文本处理,其研究必将对人们的生活产生深远的影响。
中文信息处理是研究如何利用计算机对汉语信息进行自动处理。汉语是一门意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。中文信息自动化处理程度的提升,将对我国的科技、文化、经济、安全等带来可观的效益。
信息检索研究如何从纷繁复杂的大量信息中快速、准确获取所需信息的技术。信息检索技术经过多年的发展,目前已经相当成熟,新型信息检索技术正朝智能化、动态化、多样化、个性化等方向发展。
全称(Full Name,Fn)是对名称的完整称呼,简称(Abbreviation,An)是为了表达的简洁明快,而对全称进行精简压缩后得到的称呼,若Fn和An具有全简称关系,则称Fn为An的全称,An为Fn的简称,记作FA(Fn,An)。由全称到简称,可以看作是一个信息量的压缩过程,由简称到全称,则可以看作是一个解压的过程,例如:对c1=“中国科学院计算技术研究所”进行压缩,得到c2=“中国科学院计算所”,再对c2进行压缩,得到c3=“中科院计算所”,对c3解压得到c2,再对c2解压得到c1。全称和简称都是相对的概念,比如在上例中,c2相对于c1是简称,但相对于c3却是全称,单独讲c2是全称或简称都是没有意义的。
全简称关系获取作为文本知识获取(Knowledge Acquisition from Text,KAT)和信息检索等应用中一个基本而又关键的问题,其获取方法可以分为两大类:一类是基于模式的方法,主要利用语言学和自然语言处理技术,通过词法分析和语法分析提取关系模式,然后利用模式匹配获取全简称关系,该方法准确率依赖于语言学知识和模式库;另一类是基于统计的方法,主要基于语料库和统计语言模型,通过计算概念之间的关联度来获取全简称关系,该方法准确率和效率难以达到理想的实用要求。全简称关系的获取问题又可以从两个角度来看:一个是挖掘的角度,就是在没有外界输入的条件下获取全简称对;另一个是查找的角度,就是已知全称找简称或已知简称找全称。
本发明中所提到的“全称”或“简称”,如无特别说明,均指汉语全称或汉语简称。
发明内容
针对现有的全简称关系获取技术中具有的局限性或者准确率不高的缺陷,本发明提供一种准确率高且适用于多学科、超大规模的一种从Web网页中获取汉语全称的方法。
为了解决上述问题,本发明提供了一种从Web网页中获取汉语全称的方法,包括一下步骤:
步骤1、输入一个给定的汉语简称;
步骤2、选择查询模式来构造查询项,将查询项提交到Google搜索引擎中搜索,保存前N项锚文本作为锚语料;
步骤3、通过正则表达式,从锚语料中获取出包含查询项的关系的句子,保存下来作为全简称语料;
步骤4、利用简称提取算法EFN从全简称语料中提取出候选全称,形成候选全称集合;
步骤5、对候选全称集合进行基于全简称关系约束的验证,形成全称集合;
步骤6、对全称集合进行基于全简称关系约束的分类,从而形成带有类别标注的全称集合。
上述技术方案中,在所述的步骤2中,所述的查询模式包括两种:查询模式1:“简称An”,查询模式2:“An全称”。我们以4000个汉语An做实验,其中用查询模式1能得到锚语料的占88.75%,用查询模式2能得到锚语料的占24.76%,用查询模式1或查询模式2能得到锚语料的占91.07%。因此,为了提高查询效率,我们优先选择查询模式1,其次选择查询模式2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司,未经镇江诺尼基智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110253100.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:医疗呈现创建器
- 下一篇:生产不溶性硫磺的处理罐