[发明专利]一种音节粒度的藏语句法组块识别方法及装置在审
申请号: | 201510711234.1 | 申请日: | 2015-10-28 |
公开(公告)号: | CN105426355A | 公开(公告)日: | 2016-03-23 |
发明(设计)人: | 史树敏;王天航;黄河燕;龙从军 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种音节粒度的藏语句法组块识别方法及装置,属于计算机应用技术中的机器翻译技术领域。本发明首先通过对原始藏语语料进行预处理,删除其中非藏语语言文本,然后利用预先训练好的句法标记识别模型M1进行识别得到句法标记类型,接下来对句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料;最后对标准语料采用预先训练好的句法组块识别模型M2直接对功能组块进行组块识别。对比现有技术,本发明能够不经过分词和词性标注直接对功能组块进行识别,减少了预处理所需的时间空间花费同时避免了因分词与词性标注的不准确而造成的对功能组块识别效果降低。 | ||
搜索关键词: | 一种 音节 粒度 藏语 句法 识别 方法 装置 | ||
【主权项】:
一种音节粒度的藏语句法组块识别方法,其特征在于,包括以下步骤:步骤一:对输入语料进行文本预处理得到规范化句子语料S;步骤二:对S采用预先训练好的句法标记识别模型M1进行识别得到句法标记类型;步骤三:对步骤二得到的句法标记类型为黏着形式的文本进行还原得到不含黏着形式的标准语料;步骤四:对步骤三得到的标准语料采用预先训练好的句法组块识别模型M2进行组块识别得到组块类型识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510711234.1/,转载请声明来源钻瓜专利网。