[发明专利]用于组织和处理基于特征的数据结构的系统和方法有效
申请号: | 201680002011.0 | 申请日: | 2016-12-14 |
公开(公告)号: | CN107427732B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 刘扬;冯超;招琸珩;吴康恒;雷志斌 | 申请(专利权)人: | 香港应用科技研究院有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/232 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 周靖;郑霞 |
地址: | 中国香*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 组织 处理 基于 特征 数据结构 系统 方法 | ||
一种用于组织和处理基于特征的数据结构的方法,该数据结构可用在语言拼写检查和自动校正中,该方法包括:基于共同特征的不同值,将原始词典划分成子词典,共同特征例如高频词;接收包含错误的输入文本;由输入的人类可读文本确定子词典选择共同特征;基于确定的子词典选择特征选择子词典;执行选择的子词典中的第一匹配,其中,如果输入文本中的错误附近的字符、单词或短语与子词典中的字符、单词或短语之间的相似度在阈值以上,则找到了匹配;如果找到了唯一匹配,则返回结果作为纠正错误的输出;否则,利用上升的阈值执行第二匹配,并且重复第二匹配,直到找到唯一匹配。
技术领域
本发明通常涉及用于组织电子数据的方法和系统。更具体地说,本发明通常涉及电子词典的应用和使用、语言错误检测和修正,例如拼写检查和自动校正。
背景技术
移动电子设备的激增允许在我们的日常生活中瞬时收集大量的数字数据。这些数字数据中的大部分要被处理,并且最终以图形和文本格式(例如数字新闻、瞬时图像捕获和文本信息)显示出来。将以二进制和/或机器可读格式收集或捕获的这些原始数字数据转换为人类可读文本的处理可包含某些数据解码步骤、其他特定的转换步骤(诸如光学字符识别(OCR))和/或语言翻译。然而,这些数据处理过程不是无差错的,并且往往会导致错误的字符和单词,甚至难以辨认的文字。因此,需要有语言错误检测和修正(例如拼写检查和自动校正)的附加步骤。
常规拼写检查和自动校正是占用大量资源的计算机操作,它需要大量的中央处理单元(CPU)处理周期和易失性存储空间。在诸如智能手机的移动计算设备中,CPU处理能力和存储空间两者都比普通计算机更加有限。另一方面,拼写检查和自动校正的用户体验需要实时性能和高精度。因此,需要能更有效使用计算资源的一种更好的系统和/或方法,该系统和/或方法用来组织和处理由原始数据产生的输入文本和用于拼写检查和自动校正该输入文本的词典。
发明内容
本发明的目的是提供一种用于组织和处理基于特征的数据结构的系统和方法,该数据结构可用于语言拼写检查和自动校正。当在电子电路中实现时,这种系统和方法基本上比常规拼写检查器和自动校正软件或设备具有更少的CPU和易失性存储空间需求。
根据本发明的一方面,原始数字词典首先被划分成多个子词典。该划分可以是显式的或者是隐式的。在显式划分方法中,针对共同特征识别原始数字词典中的内容。一种可能的共同特征是频繁使用的字符、单词和短语(高频词)。另一种共同特征是字符、单词和短语的长度。其他共同特征可以是上下文敏感的,例如地理属性、学科、情感以及字符、单词和短语的重要性等级。因此,根据作为索引的共同特征的不同值,可将原始词典显式划分成两个或更多个子词典。子词典可通过包含一些相同的字符、单词和短语而相互重叠,但每个子词典的大小都小于原始词典。
在一个实施例中,组织每个子词典中的内容以形成子词典层次结构。例如,以层次结构树的方式组织包含在每个子词典中的字符、单词和短语,其中每个顶部节点包含具有至少一个共同特征的字符、单词和短语,并且每个下级节点包含与之紧邻的上方节点的具有更多共同特征的字符、单词和短语的子集。随着分层节点越来越往下,子集会变得越来越小,但会具有更多共性,最终,最底层的节点只包含单个字符、单词和短语。
在另一个实施例中,一种隐式划分方法是,通过确定每个字符、单词和短语的向量空间,首先识别出原始词典的内容。计算出每个向量空间的数学中心。字符、单词或短语的Unicode值可用在矢量确定中。然后生成子词典,每个子词典都包含向量空间中心在特定值范围内的字符、单词和短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港应用科技研究院有限公司,未经香港应用科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680002011.0/2.html,转载请声明来源钻瓜专利网。