[发明专利]汉字分段装置无效
申请号: | 00121478.0 | 申请日: | 2000-07-25 |
公开(公告)号: | CN1121654C | 公开(公告)日: | 2003-09-17 |
发明(设计)人: | 郭俊桔 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 陈瑞丰 |
地址: | 暂无信息 | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 汉字分段装置用计算机中的字符语音信息作中文句子的字词分段处理。字符语音转换部分把计算机输入的句子转换成语音符号串。候选字选择部分用语音符号为检索项,取出可能的候选字符或字词及有关信息。最佳候选字符串判定部分用各候选字符或字词的起始和结束位置为检索项建立候选字网络。得到总体评估后用动态规划法找出最佳分段途径。本装置使字词分段精度超过98%,无需麻烦的反复计算,可明显提高工作效率及精度。 | ||
搜索关键词: | 汉字 分段 装置 | ||
【主权项】:
权利要求书1.一种汉字分段装置,利用计算机技术对输入的中文句子实现汉字分段处理,其特征在于:具有不同读音字符的单元,它存储具有不同读音的全部汉语字符、与这些具有不同读音字符对应的全部字符语音符号,以及全部与每个字符语音符号对应的候选字和与所述候选字对应的汉字语音符号;字符语音单元,它存储汉字的全部字符、与这些字符对应的原始预设的语音符号,以及这些字符的其它可能的语音符号;系统单元,它存储汉字字符或字词的语音符号、依次与所述语音符号对应的各同音异义字符或各同音异义字词的使用频率、语法标记和语义标记;语法信息部分,它存储一个由“1”或“0”位形成的二维矩阵,用以表示不同字词的字符在汉语中是否彼此关联;语义信息部分,它存储汉字的后部要素语义编码和与所述后部要素语义编码对应的前部要素语义编码;字符-语音转换部分,它参照具有不同读音的字符单元和字符语音单元,把输入到计算机中的汉字字符串转换成语音符号串;候选字选择部分,它把从字符-语音转换部分传送的语音符号串截隔成多个音节,用每个音节作为检索项,从系统单元得到所有候选字,并参照输入的汉字字符串删除所有不可能实行的候选字;最佳候选字符串判定部分,它利用输入字符串中的每个未被放弃的候选字的起始和结束位置,以定向网络形式将多个候选字相互联系起来,在考虑每两个相邻候选字的语法标记和语义标记的同时,参照语法信息部分和语义信息部分,对每个候选字计算语义相似程度优先和语法优先,从而得到一个总体评估,即使用频率优先、词长优先、语法优先和语义相似程度优先的函数,并用动态规划法找出得到关于汉字分段的最佳评估等级的途径;字词分段标记部分,它取出所述最佳候选字符串判定部分得出的候选字,并为它们附加字词分段标记。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/00121478.0/,转载请声明来源钻瓜专利网。