[发明专利]用于在中文文档中识别化学名称的方法及系统有效
申请号: | 201110254753.1 | 申请日: | 2011-08-31 |
公开(公告)号: | CN102955773A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 吴贤;张俐;陈颖;苏中 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 中文 文档 识别 化学 名称 方法 系统 | ||
1.一种用于在中文文档中识别化学名称的方法,包括:
接收包括化学名称的中文文档;
识别所述文档中的化学名称片段;
识别所述文档中的非化学名称片段;以及
基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。
2.如权利要求1所述的方法,其中所述非化学名称片段在所述合并所述化学名称片段以得到所述化学名称中作为阻隔符。
3.如权利要求1所述的方法,其中所述识别所述文档中的化学名称片段包括:
对所述文档进行分句;
基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段;
记录所述化学名称片段的位置信息;以及
缩减在同一分句中的所述化学名称片段。
4.如权利要求1或3所述的方法,其中所述识别所述文档中的非化学名称片段包括:
对所述文档进行分词;
检查每个分词是否在非化学名称片段字典中;
响应于所述分词在非化学名称片段字典中,确定所述分词为非化学名称片段;以及
记录所述非化学名称片段的位置信息。
5.如权利要求3或4所述的方法,其中所述基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称包括:
根据所述化学名称片段的位置信息,确定在同一个句子中的相邻的化学名称片段;
根据化学名称片段和非化学名称片段的位置信息,检查相邻的化学名称片段的中间是否存在非化学名称片段;以及,
响应于相邻的化学名称片段的中间不存在非化学名称片段,合并相邻的化学名称片段以得到所述化学名称。
6.如权利要求1或5所述的方法,其中所述方法还包括:
从所述化学名称片段的位置向两端进行扩展,直至遇到非化学名称片段为止,以获得所述化学名称。
7.如权利要求3或4所述的方法,其中:
所述位置信息包括所述化学名称片段和非化学名称片段中之一的在所述文档中的开始位置和结束位置。
8.如权利要求3或4所述的方法,还包括以下步骤至少之一:
从已有的中文化学名称生成化学名称片段字典;或者
基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。
9.如权利要求3所述的方法,其中所述缩减在同一分句中的所述化学名称片段按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减。
10.如权利要求8所述的方法,还包括:
从已有的英文化学名称生成化学名称片段字典。
11.一种用于在中文文档中识别化学名称的系统,包括:
接收装置,被配置为接收包括化学名称的中文文档;
第一识别装置,被配置为识别所述文档中的化学名称片段;
第二识别装置,被配置为识别所述文档中的非化学名称片段;以及
合并装置,被配置为基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。
12.如权利要求11所述的系统,其中所述非化学名称片段在合并所述化学名称片段以得到所述化学名称中作为阻隔符。
13.如权利要求11所述的系统,其中所述第一识别装置包括:
分句装置,被配置为对所述文档进行分句;
匹配装置,被配置为基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段;
第一记录装置,被配置为记录所述化学名称片段的位置信息;以及
缩减装置,被配置为缩减在同一分句中的所述化学名称片段。
14.如权利要求11或13所述的系统,其中所述第二识别装置包括:
分词装置,被配置为对所述文档进行分词;
第一检查装置,被配置为检查每个分词是否在非化学名称片段字典中;
第一确定装置,被配置为响应于所述分词在非化学名称片段字典中,确定所述分词为非化学名称片段;以及
第二记录装置,被配置为记录所述非化学名称片段的位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110254753.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显影装置、成像设备和处理盒
- 下一篇:一种用于抗氧化的保健品及其制备方法