[发明专利]汉语语句切分的方法及其系统无效
申请号: | 98118413.8 | 申请日: | 1998-08-13 |
公开(公告)号: | CN1086821C | 公开(公告)日: | 2002-06-26 |
发明(设计)人: | 张景嵩;张金玉;郑奕 | 申请(专利权)人: | 英业达股份有限公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王勇,陈景峻 |
地址: | 台湾省*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 语句 切分 方法 及其 系统 | ||
1.一种汉语语句切分方法,包括下列步骤:
(a)输入一汉语语句,该汉语语句是由多个字符所组成
的一文字字串;
(b)根据一词语存储装置,对该文字字串进行词语匹配,
采用词语与该语句的语义无关原则;
(c)判断经匹配后的分词路径是否唯一;若是,则完成
该汉语语句切分过程;否则,
(d)选择该分词路径中最短者,采用最少分词优先原则;
(e)判断该最短分词路径是否唯一,若是,则完成该汉
语语句切分过程;否则
(f)根据一词语词频存储装置,选择该最短分词路径可
能性最高者,以词频加权数值来决定;以及
(g)输出该可能性最高的最短分词路径。
2.如权利要求1的方法,其中,该词频加权数值是根据该最短分词路径中,所匹配而得到的该词语的词长与词频而定。
3.如权利要求2的方法,其中,若该词语为单字词,该词频加权数值仅包含相对应的该词频;若该词语为非单字词,则该词频加权数值为相对应的该词频与一加权常数的乘积。
4.如权利要求3的方法,其中,该加权常数为大于5的正整数。
5.一种汉语语句切分系统,包括:
一词语存储装置和一词语词频存储装置,它们分别提供在切分处理时匹配所需的词语及词频资料;
一输入装置,用于输入一汉语语句;
一切分处理器,接收该汉语语句,根据该词语存储装置中该词语的资料,依序进行词语匹配、选择最短路径、以及词频加权数值计算,在该词语匹配中采用词语与该语句的语义无关原则,在该选择最短路径中采用最少分词优先原则;若在进行该词语匹配、选择最短路径、以及词频加权数值计算中,所得到的分词路径为唯一,即属一分词结果;以及
一输出装置,用以输出该分词结果。
6.如权利要求5的汉语语句切分系统,其中,该词频加权值是根据该最短分词路径中,所匹配而得到的该词语的词长与词频而定。
7.如权利要求6的汉语语句切分系统,其中,若该词语为单字词,该词频加权数值仅包含相对应的该词频;若该词频为非单字词,则该词频加权数值为相对应的该词频与一加权常数的乘积。
8.如权利要求7的汉语语句切分系统,其中,该加权常数为大于5的正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达股份有限公司,未经英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98118413.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:镍钛形状记忆接骨器
- 下一篇:用于从其传送信息的智能卡和方法