[发明专利]一种蒙古语数字化知识库系统构建方法无效
申请号: | 200910083749.6 | 申请日: | 2009-05-11 |
公开(公告)号: | CN101576909A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 苏雅拉图;白双成;巴图赛恒;六月 | 申请(专利权)人: | 内蒙古蒙科立软件有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 | 代理人: | 胡小永 |
地址: | 010040内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蒙古语 数字化 知识库 系统 构建 方法 | ||
技术领域
本发明涉及一种自然语言文字数字化知识处理方法,特别涉及一种由计算机控制的用于蒙古语言文字数字化应用、数字化教学、数字化学习、数字化研究、数字化开发的蒙古语数字化知识库系统构建方法。
背景技术
蒙古语是黏着语。由于蒙古语的语言学自然属性和特点,在话语链中每个词则是根据其表达时态、形态、方式、风格、目的等众多复杂内容的不同,经常处于不停顿的动态变化当中,特别是动词,一个动词通过各种词缀/附加成分可衍生为上千个不同的动态变化形,人们在蒙古语词典中看到的仅仅是它的静态解释形(相当于日语的终止形),蒙古语动态表达形是个难于穷尽的变化体。汉语没有这样的动态变化,英语等西方语言文字即使有一些,但简单,没有蒙古语的复杂多变。比较类似的是日语,但日语的词语动态变化易于穷尽,蒙古语词语的动态变化不易穷尽。在这一点上蒙古语在世界现有的自然语言文字中当属特例。对于蒙古语词语这一丰富多端的动态变化体,迄今为止国内外任何语言学家也没有做过穷尽生成与统计,原因是没有一个科学可行的方法和手段。
目前采用的蒙古语数字计算机键盘输入/输出技术由于没有蒙古语数字化知识库系统做支撑,导致人的语言文字输入错误无法予以控制,蒙古语的语音信息、词法信息、词汇信息、句法信息、语用信息无法按蒙古语言文字固有的自然结构在其输入/输出过程中予以保留,并时实地转化为蒙古语的语音知识、词法知识、词汇知识、句法知识、语用知识,以便使输入形成的蒙古语大量电子文档不用经过反复的、多次的、复杂的加工就可直接复用。
蒙古语词汇跟其他自然语言文字的词汇一样,整体上是个由N个单词N个复合词(广义复合词,即:非单词)的集合构成的海量知识体系。同时又是一个不断变化发展的动态知识体系。随着历史的演进,一些词不用或不常用了,同时又不断产生新的词。迄今为止,人们一直用“纸制词典”这一古老的词汇记录工具来描述这一动态的海量知识体系,结果因其原始和落后,只能记录和传播词汇的过去时,不能记录和传播词汇的现在进行时(即:与知识爆炸一起时实地记录每时每刻不断产生的新词新知识)。只能静态地封闭地记录和传播词汇,不能动态地开放地记录和传播词汇。只能通过有限的介质记录和传播词汇,不能通过海量介质记录和传播词汇。只有出版后才能为人提供服务,不能并时为人提供服务。只能由一小部分专家编纂,不能由各行业大部分专家甚至全民参与词汇集成和编纂。
发明内容
本发明的目的是提供一种蒙古语数字化知识库系统构建方法,该蒙古语数字化知识库系统动态地开放地记录和传播蒙古语词汇,通过公知的蒙古语键盘输入方式和蒙古语OCR识别输入方式动态地获取蒙古语信息,生成出来的词语不可能出现字母组合错误,从而省去了在一组蒙古语拼音字符之间进行的繁重复杂的人工校对;本发明达到了对蒙古语进行数字化应用、数字化教学、数字化学习、数字化研究、数字化开发,以便极大地发挥数字计算机作为人类知识处理工具的强大功能。
为实现上述目的,本发明采用如下技术方案:
一种蒙古语数字化知识库系统构建方法,该方法包括以下步骤:
S1,获取蒙古语词根/词干及描述词根/词干的相关知识属性信息,生成词根/词干知识处理字段单元;
S2,获取蒙古语词根/词干不同形式的构件构成构件数据库;
S3,建立定义词根/词干可组合的构件、以及构件之间进行自由组合和各构件之间封装嵌套规则的规则体系。
优选地,步骤S3之后还包括:
S4,生成由蒙古语短语知识描述字段、句法知识描述字段、施事/受事知识描述字段组成的属性字段单元,用于限定蒙古语的词语组合关系。
优选地,所述构件数据库包括词缀数据库、黏着复合词缀库、非黏着复合词缀库,步骤S2包括子步骤:
集成蒙古语的词缀构成词缀库,用于为相应的词干提供黏着附加计算对象以生成所需的词语;
集成黏着附加词缀构成黏着复合词缀库,用于为相应的词干提供黏着附加计算对象以生成所需黏着附加词语;
集成非黏着复合词缀构成非黏着复合词缀库,用于为相应的复合词根提供非黏着附加计算对象以生成所需非黏着复合词语。
优选地,所述构件数据库还包括专业术语库、多变体附属成分库和自定义数据库,步骤S2还包括子步骤:
将蒙古语数学、物理学、化学、医学、生物学、计算机技术科学各类不同专业术语集成到专业术语库;
将蒙古语多变体附属成分集成到多变体附属成分库,用于为多变体附属成分的知识处理提供数据和规则;
生成由使用者填充的自定义库,用于为使用者个性化词语的存储和生成提供工具。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古蒙科立软件有限责任公司,未经内蒙古蒙科立软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910083749.6/2.html,转载请声明来源钻瓜专利网。