[发明专利]识别文本文档中的有机化学名称的系统和方法无效
申请号: | 200410082401.2 | 申请日: | 2004-09-17 |
公开(公告)号: | CN1601520A | 公开(公告)日: | 2005-03-30 |
发明(设计)人: | 安娜·洛萨·科登;詹姆斯·威廉·库珀 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李德山 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及识别文本文档中的有机化学名称的系统和方法,具体提供了识别技术术语的方法、系统和计算机程序产品。技术术语可以是化学名称,最好是有机化学名称。所述程序产品以计算机可读形式存储指令计算机处理文本文档的指令,包括向在文档中找到的单词分配词类的指令,后者包括进行下述操作的指令:应用规则表达、规则和多典来识别有机化学名称片断,将识别的片断组合为完整的有机化学名称,并对其分配词类。规则表达包括多个各由字符、数字和标点中的至少一个组成的模式。标点可以包括至少一个圆括号、方括号、连字符、冒号和分号,字符可以包括至少一个大写C、O、R、N和H,还可包括小写的xy、ene、ine、yl、ane和oic中的至少一个的串。 | ||
搜索关键词: | 识别 文本 文档 中的 有机化学 名称 系统 方法 | ||
【主权项】:
1.一种处理文档的方法,包括:将文档文本分割为多个句子;对于每一个句子,将相应的相关词类分配给单词,其中,该分配操作包括应用多个规则表达、规则和多个词典来识别化学名称片断,将识别的化学名称片断组合为完整的化学名称,并对该完整的化学名称分配一个词类;以及至少部分地根据所分配的词类,将所述句子解析为其组成部分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410082401.2/,转载请声明来源钻瓜专利网。
- 上一篇:打印机
- 下一篇:用于在土壤中进行置换式钻探的钻具和方法