[发明专利]中文本体库自动建构系统及方法以及储存媒体无效
申请号: | 03156068.7 | 申请日: | 2003-08-29 |
公开(公告)号: | CN1591416A | 公开(公告)日: | 2005-03-09 |
发明(设计)人: | 高苑芳;李健兴;郭耀煌;蒙以亨 | 申请(专利权)人: | 财团法人资讯工业策进会 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 王一斌 |
地址: | 台湾省*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种中文本体库自动建构系统及方法,包含一句断处理单元以及一本体库产生单元。句断处理单元用以接收一中文词串流中所包含的多个中文词以及其词性,由其中文词得到多个强二词顺序组合,每一个强二词顺序组合包含存在于多个中文词中具前后紧邻关连的一第一中文词与一第二中文词,并且此强二词顺序组合出现于该中文词串流的次数大于一第一最小支持度。本体库产生单元,耦接于句断处理单元,用以接收多个强二词顺序组合,依据强二词顺序组合中第一中文词所对应的第一概念以及第二中文词所对应的词性,得第一概念的属性或操作。 | ||
搜索关键词: | 中文 本体 自动 建构 系统 方法 以及 储存 媒体 | ||
【主权项】:
1.一种中文本体库自动建构系统,适用于输入一中文词串流,上述中文词串流包含具顺序性的复数中文词以及相应于每一上述中文词的一词性,用以产生一中文本体库,包括:一句断处理单元,用以接收上述中文词串流,上述中文词串流包含具顺序性的上述中文词以及相应于每一上述中文词的上述词性,从上述中文词串流中检索出存在于上述中文词中复数具前后紧邻关连的一第一中文词与一第二中文词,计算上述具前后紧邻关连的上述第一中文词与上述第二中文词出现于上述中文词串流的次数或比率,判断上述具前后紧邻关连的上述第一中文词与上述第二中文词出现于上述中文词串流的次数或比率是否大于一第一最小支持度,若是,则将上述具前后紧邻关连的上述第一中文词与上述第二中文词标记为一强双词顺序组合,上述第一最小支持度为整数或比率中之一;以及一本体库产生单元,耦接于该句断处理单元,用以接收上述强双词顺序组合,依据每一上述强双词顺序组合中的上述第一中文词所相应的一第一概念以及每一上述强二词顺序组合中的上述第二中文词所相应的上述词性,得到相应于上述第一概念的一属性或一操作,依据上述第一概念的上述属性或上述操作,建立上述中文本体库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人资讯工业策进会,未经财团法人资讯工业策进会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/03156068.7/,转载请声明来源钻瓜专利网。