[发明专利]用于在中文文档中识别化学名称的方法及系统有效

专利信息
申请号: 201110254753.1 申请日: 2011-08-31
公开(公告)号: CN102955773A 公开(公告)日: 2013-03-06
发明(设计)人: 吴贤;张俐;陈颖;苏中 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京市中咨律师事务所 11247 代理人: 张亚非;于静
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 中文 文档 识别 化学 名称 方法 系统
【说明书】:

技术领域

本发明总体上涉及信息处理技术领域,特别地,涉及一种用于在中文文档中识别化学名称的方法及系统。

背景技术

目前,随着化学领域的科学技术的发展,各种涉及化学领域的科技文献也日益增多,比如涉及化学的科技论文、公开的专利文献等,其中中文文档的数量也是愈来愈多。在这些文献的计算机深度处理中,化学名称识别技术显得非常重要。本领域技术人员理解化学名称是指出现在专业的化学文档中,可以唯一的指定相应的化学分子结构的名称。中文化学名称是根据IUPAC命名法和中文通用名发展而来的。化学名称识别技术的目的在于自动从自然语言文档中检测和标识出化学名称,该技术对化学或者生化领域中的各种数据挖掘应用非常有用。

目前,在英文化学名称识别方面人们作了一些研究,主要可以分为两类:一种是利用机器学习模型对训练数据进行学习来形成标注器(annotators),并利用所述标注器来从纯文本文件中识别化学名称,机器学习模型主要有Hidden Markov Model(HMM)(Freitag and McCallum,1999),Maximum Entropy Markov Model(MeMM)(McCallum et al.,2000)or Conditional Random Fields(CRF)(Lafferty et al.,2001)。另外一种是基于专家设计的规则和字典来实现化学名称识别。

目前还没有一种中文化学名称识别技术。其原因在于:首先,与英语比较而言,中文在语言结构上就比较复杂,比如中文不会存在术语与术语之间的边界(英文每个词之间会用空格隔开),中文也不会存在可以利用的大写的信息等。独特的语言特点阻碍了将英文的化学名称识别技术运用到中文环境中。第二,目前中文化学名称的命名法并不是精确地符合英文的化学名称命名体系,而是一种混合了中国传统命名方法和IUPAC标准。因此如果通过模型学习的方式,就需要至少兼顾中国传统命名方法和IUPAC命名标准。第三,目前可用于中文化学名称识别的可利用的现成化学名称资源不多,从而很难通过利用模型学习的方式来进行中文化学名称的识别。

因此目前需要一种用于在中文文档中识别化学名称的方法和系统。

发明内容

本发明一方面提供用于在中文文档中识别化学名称的方法,包括:接收包括化学名称的中文文档;识别所述文档中的化学名称片段;识别所述文档中的非化学名称片段;以及基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。

本发明另一方面提供一种用于在中文文档中识别化学名称的系统,包括:接收装置,被配置为接收包括化学名称的中文文档;第一识别装置,被配置为识别所述文档中的化学名称片段;第二识别装置,被配置为识别所述文档中的非化学名称片段;以及合并装置,被配置为基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。

本发明的具体实施方式可以比较有效地从化学文献中识别化学名称。

附图说明

为了对本发明实施例的特征和优点进行详细说明,将参照以下附图。如果可能的话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中:

图1示出了本发明用于在中文文档中识别化学名称的第一具体实施方式;

图2示出了识别中文文档中的化学名称片段的优选具体实施方式;

图3示出了识别中文文档中的非化学名称片段的优选具体实施方式;

图4示出了合并化学名称片段的优选具体实施方式;

图5示出了本发明用于在中文文档中识别化学名称的第二具体实施方式;

图6示出了本发明用于在中文文档中识别化学名称的系统的框架图;

图7示出了可以实现根据本发明的实施例的计算设备的结构方框图。

具体实施方式

现在将参考本发明的示例性实施例进行详细的描述,在附图中图解说明了所述实施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本发明并不限于所公开的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外,步骤之间可以有显著的时间间隔。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110254753.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top