[发明专利]一种蒙古语数字化知识库系统构建方法无效
申请号: | 200910083749.6 | 申请日: | 2009-05-11 |
公开(公告)号: | CN101576909A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 苏雅拉图;白双成;巴图赛恒;六月 | 申请(专利权)人: | 内蒙古蒙科立软件有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 | 代理人: | 胡小永 |
地址: | 010040内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蒙古语 数字化 知识库 系统 构建 方法 | ||
1、一种蒙古语数字化知识库系统构建方法,其特征在于,该方法包括以下步骤:
S1,获取蒙古语词根/词干及描述词根/词干的相关知识属性信息,生成词根/词干知识处理字段单元;
S2,获取蒙古语词根/词干不同形式的构件构成构件数据库;
S3,建立定义词根/词干可组合的构件、以及构件之间进行自由组合和各构件之间封装嵌套规则的规则体系。
2、根据权利要求1所述的方法,其特征在于,步骤S3之后还包括:
S4,生成由蒙古语短语知识描述字段、句法知识描述字段、施事/受事知识描述字段组成的属性字段单元,用于限定蒙古语的词语组合关系。
3、根据权利要求1所述的方法,其特征在于,所述构件数据库包括词缀数据库、黏着复合词缀库、非黏着复合词缀库,步骤S2包括子步骤:
集成蒙古语的词缀构成词缀库,用于为相应的词干提供黏着附加计算对象以生成所需的词语;
集成黏着附加词缀构成黏着复合词缀库,用于为相应的词干提供黏着附加计算对象以生成所需黏着附加词语;
集成非黏着复合词缀构成非黏着复合词缀库,用于为相应的复合词根提供非黏着附加计算对象以生成所需非黏着复合词语。
4、根据权利要求3所述的方法,其特征在于,所述构件数据库还包括专业术语库、多变体附属成分库和自定义数据库,步骤S2还包括子步骤:
将蒙古语数学、物理学、化学、医学、生物学、计算机技术科学各类不同专业术语集成到专业术语库;
将蒙古语多变体附属成分集成到多变体附属成分库,用于为多变体附属成分的知识处理提供数据和规则;
生成由使用者填充的自定义库,用于为使用者个性化词语的存储和生成提供工具。
5、根据权利要求4所述的方法,其特征在于,所述词缀数据库、黏着复合词缀库、非黏着复合词缀库、多变体附属成分库、自定义库根据需要可以不断扩充。
6、根据权利要求1所述的方法,其特征在于,所述规则体系中每组规则由BDQ规则描述语言进行描述,BDQ规则描述语言由数字计算机键盘符号构成:英文大写输入码表示可作为中缀的构件数据库取值类型,英文小写输入码表示可作为尾缀的构件数据库取值类型;0至9的数字表示可作为动词尾缀的构件数据库类型集合;斜杠表示或者关系;圆括号表示嵌入构件数据库的嵌套关系;下划线表示词类;#号表示一组路线组合规则描述结束,另一组路线组合规则描述开始。
7、根据权利要求6所述的方法,其特征在于,规则体系中的每组规则允许词干组合多个不同类型构件数据库中的构件,以多叉树结构生成。
8、根据权利要求1所述的方法,其特征在于,还包括步骤:
S5,生成以蒙古语各类语言元素以及组合形式为统计单位,用于进行蒙古语实时统计的系列统计工具单元。
9、一种蒙古语数字化知识库系统,其特征在于,该系统包括:
知识处理字段单元,用于为数字计算机给出蒙古语的词根/词干,并描述蒙古语词根/词干的相关知识属性信息;
构件数据库,集有蒙古语词根/词干不同形式的构件;
规则体系,用于定义词根/词干可组合的构件、以及构件之间进行自由组合和各构件之间封装嵌套规则;
属性字段单元,由蒙古语短语知识描述字段、句法知识描述字段、施事/受事知识描述字段组成的属性字段单元组成,用于限定蒙古语的词语组合关系。
10、根据权利要求9所述的蒙古语数字化知识库系统,其特征在于,该系统还包括:
系列统计工具单元,用于以蒙古语各类语言元素以及组合形式为统计单位,进行蒙古语的实时统计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古蒙科立软件有限责任公司,未经内蒙古蒙科立软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910083749.6/1.html,转载请声明来源钻瓜专利网。