[发明专利]表意构件识别提取和基于表意构件的机译人校互动翻译方法有效
申请号: | 201310042053.5 | 申请日: | 2013-01-21 |
公开(公告)号: | CN103106195B | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 刘树根 | 申请(专利权)人: | 刘树根 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 516002 广东省惠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种表意构件识别提取方法及其机译人校互动式翻译方法,其中的表意构件识别提取方法为:利用相同内容的多语种或双语文字版本的语料作句对齐后生成双语句对库,以表意将不同语言文字进行关联,不同语言文字的表意通过四种共同的表意构件实现,识别提取出这四种表意构件包括读句配骼、识别及标注句舱、舱检测及提取舱模和收存意群串。本发明还提供了基于表意构件的机译人校互动式翻译方法,包括读句配骼、源语句套入、句舱或舱眼内容转移、存查得项、预选给出目语待校句以及语意校正、自学习。本发明解决了现有技术存在的译文质量差,要求操作者具独立翻译能力,处理过程中无法反悔地丢失词义、语意之技术问题。 | ||
搜索关键词: | 表意 构件 识别 提取 基于 机译人校 互动 翻译 方法 | ||
【主权项】:
1.一种表意构件识别提取方法,利用相同内容的多语种或双语文字版本的语料作句对齐后的双语句对库,其特征是从读句配骼入手,对没有匹配句骼的句对进行查配标运作、词串识别、标注句舱,进而作舱检测、提取舱模、收存意群串,将识别提取出的四种表意构件、存贮于相应的四种库,包括如下步骤:S1.读句配骼102,句子由句骼和句舱两部分组成,识别提取表意构件每轮选取A、B两种语言文字,计算机读取双语句对库一个AB双语句对,以当前双语句对之一查询句骼库进行配句骼运作,有匹配句骼将双语句对套入,并显示“舱检测”、“查配标”按钮,当套入后各句舱匀称、无残缺、无堆叠现象且“舱检测”按钮被单击,为肯定,已有匹配句骼,接续S5舱检测,若套入后各句舱不匀称、有残缺、或有堆叠现象且“查配标”按钮被单击,为否定,表示对套入结果否定需要提取新句骼,进入查配标运作;S2.查配标运作,用A语句词串查询传统电子词典据B语句是否含有语义对应词串生成当前句对语意匹配表,准备提取新句骼,语意匹配表含有词性、A语词、B语词字段,先以A语句子单词串为单元切分、依次填入匹配表A语词字段,随后逐记录取出查询传统电子词典,以查得的相应B语解释搜索B语句是否含有,含有且是最长串填入B语词字段同时将其词性填入词性字段,无含有B语词字段为空,为识别标注句舱作准备,句舱计数器清零,N=0;S3.对词串的识别,在语意匹配表的基础上识别如下词串:数量串:凡表示“数”和“量”的中英词串收录于数量表,表中有英数、中数、计算值、词性字段;其中词性含有“计算串”、“数位串”、“基数”、“序数”、“量”;如果需要计算,将数串从左至右以单词切下,查该表词性标有“计算串”的以计算值加入结果数A;其中如果是数位串,将它与结果数A相剩,操作完成加入结果数B;判断是否数量串据该表已登录的识别为数量串;在匹配表数串之后如果是名词并且数量表有登录识别为量词,二者合并为数量串,专名串:利用英文首字母大写入手,排外其它大写情况识别为专名串,冠名串:利用英文冠词识别,冠后跟随名词,或者插有形容词的“冠形名”者识别为冠名串,无冠名串:无冠词引带而词性字段是名词,且A语词、B语解释字段不空识别为语意相等的无冠名串,其它匹配串:其它词类,只要它们的A语词、B语解释字段不空的识别为语意相等的其它匹配串;S4.识别及标注句舱103,机器以数量串、专名串、冠名串双语同时依次识别、以先后为序用N=N+1将它们预标为句舱,预标句舱使骼例比由100%逐步降低,这三种词串标注句舱结束后,如骼例比高于50%,以所述语意匹配表为据将无冠名串或其它语义匹配串在有间隔的前提下逐个接续标为句舱,接受操作者认可、或更正或使用意群对齐运作增补语意匹配词串,继续识标句舱,直至上述识别及标注句舱条件缺失且骼例比在15‑50%之间,识标句舱结束,进行句骼格式检查,整理前述预标为正式标注这是第一轮识别提取的步骤,第二轮识别提取开始不用识别词性而是以已标语种句为模板识别、标出未标语种句的句舱,当N=>1时,当前句对移去句舱所剩部分为句骼构件,将它们存贮于句骼库105相应语种构件字段,当N=0当前句对为习语构件,习语构件是一些分不出句骼句舱的特殊句对,将它们存贮于习语库104相应语种习语字段,将当前双语句例对号入座地套回当前句骼成为骼例式备续;S5.舱检测及提取舱模106,逐个句舱检测,第一轮识别提取以A语拼音文字句的句舱所含词串计数,=>5个原有词串要进入组复词运作,=>原有8个词串的以当前句舱作“查配标”运作生成当前句舱语意匹配表以备进一步提取舱模为有模句舱,提取舱模,以数量串、专名串、冠名串双语同时依次识别、预标为舱眼,模例之比由100%逐步降低,若预标完这三种词串还大于70%,再以无冠名串或其它语意匹配串在有间隔的前提下在标为舱眼,接受操作者认可、更正,或使用意群对齐运作增补语意匹配词串,继续预标舱眼,当预标条件不存在且模例比在50‑70%之间,预标舱眼操作结束,以英语句舱从左到右为序修改舱眼预杯为正式标注,第二轮提取开始不同,是以已标语种句舱为模板识别、标出未标语种舱眼,当舱眼数N=>1;当前句舱对移去舱眼所剩部分为舱模构件,保存到舱模库107相应语种舱模字段,继续其它句舱的检测直到全句对句舱检测完毕;S6.收存意群串108,将当前双语例对号入座地套回当前提取的句骼,有舱模的句舱再套回相应舱模,再逐个句舱或舱眼搜索,参照语意匹配表,相应内容在匹配表里A语字段和B语字段不空的记录是A、B语言文字语意对齐的,确定为意群串构件,将它们逐记录取出,分别存贮到意群串库109同记录相应语种字段内,当前句对的识别提取结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘树根,未经刘树根许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310042053.5/,转载请声明来源钻瓜专利网。