[发明专利]使用数据结构从输入文本识别出词的方法无效
申请号: | 94101382.0 | 申请日: | 1994-02-18 |
公开(公告)号: | CN1095576C | 公开(公告)日: | 2002-12-04 |
发明(设计)人: | 安东尼奥·扎莫拉 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 范本国 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 数据结构 输入 文本 识别 方法 | ||
1.在一个带有输入和输出的计算机系统中使用数据结构来从输入文本中识别出词的方法,其特征在于包括以下步骤:
将存储的输入文本中的所有子字符串与参考词典中的词进行匹配;
将未被词典中的词所包含的任何字符标记为单字符词;
通过扫描数据结构中的每个条目,识别出重叠词并且删除不与相邻词连接的词;以及
如果一个条目不代表处于输入文本开头的词,不代表位于输入文本末尾且有另一个词处于它前面的词,或者不代表一个后接着另一个词的词,则将该条目标记为删除。
2.如权利要求1所述的方法,其特征在于还包括以下步骤:
通过一个识别出所有未被包括在未删词中的所有字符并且对于每个这样的字符恢复出一个包含该字符的被删除词的迭代过程,将重叠词还原成相邻词。
3.如权利要求2所述的方法,其特征在于还包括以下步骤:
对于连续的全数字字符串,通过识别出相邻的全数字字符串和建立一个数据结构条目,将数字字符串进行合并。
4.如权利要求2所述的方法,其特征在于还包括以下步骤:
通过下面的方式删除不与相邻词连接的词:扫描数据结构中的每个条目;并且当该条目不代表处于输入文本开头的词不代表其前面存在着另一个未删词且位于输入文本末尾的词或者不代表后接另一个末删除词的词时,则对它标以删除标记。
5.如权利要求4所述的方法,其特征在于还包括以下步骤:
通过以下的迭代过程识别出多义词的位置和范围:对数据结构进行扫描以找出指向输入文本字符串中同一位置的多个条目,建立一个相对于数据结构中每个不同的字符串的输出数据结构,并循环地将相邻词归属于较小的字符串,直至所有的字符串长度相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/94101382.0/1.html,转载请声明来源钻瓜专利网。