[发明专利]一种基于SC文法的分词标音连写方法及装置在审
申请号: | 201510994505.9 | 申请日: | 2015-12-25 |
公开(公告)号: | CN105630770A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 黄河燕;黄静 | 申请(专利权)人: | 华建宇通科技(北京)有限责任公司;北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 sc 文法 分词 连写 方法 装置 | ||
1.一种基于SC文法的分词标音连写方法,其特征在于:基于字典库、组合歧义词库、分词歧义规则库、连写规则库和连写语料统计库,包括以下步骤:
步骤一、接收待分词标音的汉语字符串和文章体裁类型;
步骤二、对汉语字符串基于字典库进行分词,并对分词后的词块进行词性标注和标音;
步骤三、根据文章体裁类型,调用相应的连写规则库,基于连写规则库中的盲文分词连写规则对步骤(2)的词块进行组合连写;
步骤四、基于连写语料统计库对组合后的词块进行二次组合连写;
步骤五、将生成的分词标音连写后的汉语字符串输出。
2.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述字典库用于汉语分词、词性标注和标音,包括汉语单词符号、语法语义属性标识符、上下文区分函数、单词的拼音。
3.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述基于字典库进行分词通过以下过程完成::
a.参照字典库,利用正向最大匹配算法对语句进行拆分得到词块;
b.根据词块的交叉特征进行交叉歧义判断;
c.基于组合歧义词库对词块进行歧义判断;
d.根据歧义规则,通过推理消除歧义;
e.输出分词结果。
4.根据权利要求3所述的一种基于SC文法的分词标音连写方法,其特征在于,所述组合歧义词库用于识别存在组合歧义的词块,库里收录的是存在组合歧义的词。
5.根据权利要求3-4任一所述的一种基于SC文法的分词标音连写方法,其特征在于,所述分词歧义规则库用于推理消除歧义词块,得到正确的分词结果,包括歧义词块、条件函数、正确分词操作,所述根据歧义规则,通过推理消除歧义通过以下过程完成:
a.对当前含歧义标志的词块,匹配歧义规则中的歧义词块部分;
b.若匹配成功,进行条件函数检查;
c.若条件检查满足,执行正确分词操作;
d.输出正确的分词结果。
6.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述对分词后的词块进行词性标注和标音通过以下过程完成:
a.对当前的词块,从字典库中取出该词块的字典信息;
b.逐条进行上下文函数检查;
c.若上下文检查满足,取出该条的词性和拼音。
7.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述连写规则库用于对分词并标注后的词块进行组合连写,包括规则词块部分、条件函数、连写操作;根据不同的文章体裁,连写规则库细分为文言文规则库和现代文规则库;所述基于连写规则对词块进行组合连写通过以下过程完成:
a.对当前若干词块,匹配连写规则中的词块部分;
b.若匹配成功,进行条件函数检查;
c.若条件检查满足,执行正确连写操作;
d.输出连写后的分词结果。
8.根据权利要求1所述的一种基于SC文法的分词标音连写方法,其特征在于,所述连写语料统计库用于对根据连写规则组合后的词块进行二次组合连写,库里收录的是需要组合连写的词块;连写语料统计库细分为基础词库和用户词库,其中基础词库收录了一些通用的连写词块,用户词库包括用户自定义需要连写的词块;所述基于连写语料统计库对组合后的词块进行二次组合连写通过以下过程完成:
a.对当前词块,按照用户词库、基础词库的顺序进行匹配;
b.若匹配成功,执行连写组合;
c.输出连写后的词块结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华建宇通科技(北京)有限责任公司;北京理工大学,未经华建宇通科技(北京)有限责任公司;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510994505.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中央空调节能系统
- 下一篇:五钩联动自卸车后板锁紧装置