[发明专利]自然语言的形式化在审
申请号: | 200880115885.2 | 申请日: | 2008-11-12 |
公开(公告)号: | CN101855630A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | I·波波夫;K·N·波波夫 | 申请(专利权)人: | I·波波夫;K·N·波波夫 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京戈程知识产权代理有限公司 11314 | 代理人: | 程伟;孙向民 |
地址: | 保加利*** | 国省代码: | 保加利亚;BG |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 形式化 | ||
1.自然语言的形式化方法,通过生成文本的机器模型使得能够进行机器解释并产生自然语言文本,其特征在于,生成自然语言文本的明确模型,其只能由包括如下步骤的唯一方法解释:
利用先前确定的人类所使用的基本概念,基本概念包括所有实体或动作的唯一表示的所有基本概念,并且所述基本概念为唯一的标签一数字或词语,并且所述基本概念具有自然语言的描述,并且对于要被使用该方法处理的每一种自然语言来说,所述基本概念具有附加的词语列表,其名称是给定的自然语言;
用计算机分析自然语言文本,利用基本概念,特别是以给定的自然语言命名确定的基本概念的词语列表,找到所使用的基本概念,并且利用语法分析和语义分析,产生自然语言文本的第一明确模型;
用计算机使用第一明确模型来再次产生相同的自然语言的文本;
用计算机比较从第一明确模型产生的自然语言文本和原始文本,并标记差别;
操作者利用他/她能够查看基本概念的计算机程序,由计算机选择基本概念并加以改变,他/她还确定计算机难以发现的文本的关系和特征,例如言语部分,复合句子中的动作的确定时态,或者两个连续句子中的动作的时间,名词的正确替代物,所关联的言语部分,以及如何关联的;
计算机利用操作者的备注和第一明确模型,并产生第二明确模型;
计算机利用第二明确模型来再次产生相同自然语言的文本;
计算机比较从第二明确模型产生的自然语言文本和原始文本,并标记差别;
操作者进行修正,并且重复解释-产生-修正步骤,直到操作者承认从计算机明确模型新近产生的能足够好地表示自然语言文本的含意。
2.根据权利要求1所述的自然语言的形式化方法,其特征在于,还包括步骤:将形成的自然语言文本的明确模型,通过链接或通过将自然语言文本的文件连同包含其明确模型的文件一起放入一个存档封包,来附加到相同的文本上。
3.根据权利要求1所述的自然语言的形式化方法,其特征在于,还包括步骤:将自然语言文本的明确模型用于机器处理中,例如检索、提取实情和关系,确定文本的法定含意。
4.根据权利要求1所述的自然语言的形式化方法,其特征在于,还包括步骤:比较一种或多种语言的原始文本的人工翻译,以准确地和自动地确定所使用的基本概念,言语部分以及它们之间的关系、性、数、动作的时态以及与其他动作的时态关系。
5.根据权利要求1所述的自然语言的形式化方法,其特征在于,还包括步骤:从自然语言文本的明确模型产生人工语言文本。
6.一种用于确定人类所使用的基本概念的方法,用于执行权利要求1所述的方法,其特征在于,包括步骤:
对于自然语言的每一个词语,计算机找出并提取其在计算机同义词词典中的同义词;
对于每一对词语-同义词,计算机比较词典给出的对于该词语和该同义词的描述;
对于包含了给定百分比的给定文本的相同词语或词语-同义词的每两个相似文本,认定它们描述了一个基本概念;
计算机输出认定的基本概念列表,以及做出该决定的描述;
对每一个认定的基本概念检查数据中心,将在先前步骤中发现的相似文本与中心中的基本概念的描述相比较,确定该基本概念是否已经登记,如果有给定百分比的词语或词语-同义词,则认为该基本概念已登记,找到的基本概念的描述以及其他两个引起检索的相似的描述由计算机输出;
操作者检查通过词语一致性方式输出的文本是否具有语义一致性,如果发现这样的一致性,他/她判定给出的基本概念已经登记,他/她只将登记的那个或以某种自然语言命名基本概念的两个词语-同义词加入;
如果在数据中心中没有找到给定的基本概念,从两个相似的文本中选择一个加入,或者由操作者确定描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于I·波波夫;K·N·波波夫,未经I·波波夫;K·N·波波夫许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880115885.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:包括显示器的芯片卡
- 下一篇:成像光学系统以及距离测定装置