[发明专利]使用数据结构从输入文本识别出词的方法无效

专利信息
申请号: 94101382.0 申请日: 1994-02-18
公开(公告)号: CN1095576C 公开(公告)日: 2002-12-04
发明(设计)人: 安东尼奥·扎莫拉 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 中国国际贸易促进委员会专利商标事务所 代理人: 范本国
地址: 美国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 数据结构 输入 文本 识别 方法
【说明书】:

发明一般地涉及一种数据处理方法,更具体地说,本发明涉及一种在一个具有输入和输出的计算机系统中使用数据结构从由字符串构成的语言如中文或英文输入文本中识别出词(单词)的方法。

中文是由“字”组成的,每个字代表一个音节,而且通常是一个概念或有意义的单元。中文的传统写法是在这些字符之间没有间隔。一个中文“词(word)”可能由一个或多个字组成,因此一个中文读者必须辨认出这些词的分界以便理解文本的意思。

电子形式的中文文件也是书写成不带间隔的,这使计算机应用(例如信息存储和检索或称IS/R)中难于识别机器可读索引中使用的项。当然,对于IS/R遇到的问题可以用蛮力(brute force)办法来解决,即把文本的每个字符编成索引从而能查询这些字(字符)的每种组合,但这样效率是很低的,因为它使用太大的索引空间并检索出大量无关的结果(即不准确)。

尽管IS/R应用能够理解而不必识别中文文本中的词,但也有其他应用(如计算机辅助翻译)需要对词准确识别以便能给出有意义的翻译结果。另外,即使在其他语言如英语中,当英语文本由一串没有空格的字符写成时亦即当字符没有被分隔成单词时,同样也需要精确的词(单词)识别。

所以,本发明的一个目的是提供一种在一个具有输入和输出的计算机系统中使用数据结构从输入文本识别出词的方法。

本发明可以实现这些和其他目的、特点和优点。所描述的处理过程用于机器分析中文、英文等语言的由字符连接起来而构成的文本并分离出组成文本的词。该处理过程使用了一个词典、一些处理标点符号(punctuation)的直接规则、识别出一个文本字符串中的全部词并通过逐渐严格的过滤机制消除不合逻辑段从而将输入文本中的重叠词分解成一组相邻词的方法、以及解除多义性的方法。

具体而言,本发明的技术解决方案为一种在一个带有输入和输出的计算机系统中使用数据结构来从输入文本中识别出词的方法,其特征在于包括以下步骤:

将存储的输入文本中的所有子字符串与参考词典中的词进行匹配;

将未被词典中的词所包含的任何字符标记为单字符词;

通过扫描数据结构中的每个条目,识别出重叠词并且删除不与相邻词连接的词;以及

如果一个条目不代表处于输入文本开头的词,不代表位于输入文本末尾且有另一个词处于它前面的词,或者不代表一个后接着另一个词的词,则将该条目标记为删除。

对于这些及其它目的、特点和优点,将结合附图予以更充分的评述。

图1描绘出经过一次字典查询处理过程之后的数据结构。

图2描述出经过第一次相邻性(adjacency)处理过程之后的数据结构。

图3描绘出第二次相邻性处理过程之后的数据结构。

图4描绘出第二次相邻性处理过程之后的未删除词。

图5描绘出实现本发明方法的操作步骤序列的流程图。

图6给出要被处理的字符串的第一个实例。

图7给出要被处理的字符串的第二个实例。

图8给出要被处理的字符串的第三个实例。

从文本字符串中分离出词的处理过程所要求的数据结构要能识别出由相邻字组成的文本的子字符串(substring)。这些子字符串可以代表彼此重叠或彼此相邻的中文词。再有,该数据结构应能包容伴随每个词的数据,如词类或频率。

作为本发明实施例的举例说明,其数据结构由一个至少包含三个类似于“列”的字段(或区域)的数组(array)来表示,这三个字段是位置、长度和标记(flag)。“位置”指出一个字符串中第一个字符的位置,“长度”确定这个字符串有多长,“标记”用于标明词条是“被删除的”,并提供一种恢复被删除词的机制。该数据结构还可以增加附加字段,以容纳频率信息或词类以解除各种多义性。

图1给出了字符串“softwaredevelopment(软件开发)”,在使用字典查询识别出所有词之后的数据结构的内容。尽管这个例子是英文的,类似的处理过程适用于中文文本字符串。对该数据结构中各词的检验揭示出不能由人立即发现却被计算机成功发现的那些词,此时对文本的所有可能的子字符串都对照词典进行了检验。标记值为零表明该词未被删除。请注意字的位置从零开始而不从1开始计算。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/94101382.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top