[发明专利]全篇专利文献翻译方法及翻译系统有效
申请号: | 201310400123.X | 申请日: | 2013-09-05 |
公开(公告)号: | CN103488627B8 | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 任智军;李进;蒋宏飞;杨婧 | 申请(专利权)人: | 中国专利信息中心 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京瑞恒信达知识产权代理事务所(普通合伙)11382 | 代理人: | 苗青盛,王凤华 |
地址: | 100088 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种全篇专利文献的机器翻译方法和系统,基于模板或规则方法或权重方法得到短语;然后通过短语频率或修正的短语频率或记忆借鉴等方法进行短语修正,最终得到识别名词短语RNP;对全文中识别名词短语标注RNP信息,翻译识别名词短语RNP并在短语存储器中保存相关信息;之后对全文进行逐句翻译,在翻译时,对于标注RNP的短语不再展开,直接从短语存储器中取译文;翻译完毕后,根据原文的标题信息进行按顺序输出。本发明能够获取专利文献中常用复杂名词短语,减少含有常用复杂名词短语的句子的分析时间,提高了翻译速度,同时还保证了常用复杂名词短语翻译的一致性。 | ||
搜索关键词: | 全篇 专利 文献 翻译 方法 系统 | ||
【主权项】:
一种全篇专利文献的机器翻译方法,包括:A步骤:针对文献全文,识别出各级标题信息并标注;B步骤:对全文进行词法分析,得到分词和词性标注信息;C步骤:根据B步骤的分词和词性标注信息进行短语识别,得到识别名词短语RNP并将所述识别名词短语RNP翻译成目标语言;和D步骤:以句子为单位进行翻译,对于标注为RNP的短语直接使用C步骤所得的译文,翻译完毕后,按原文标题顺序输出;其中,所述C步骤包括:C01步骤:采用模板提取法、规则提取法、权重计算法或所述三种方法任意结合对短语进行提取;C02步骤:对提取的短语进行判定,得到候选短语;C03步骤:对候选短语进行错误识别和修正,得到识别名词短语RNP;C04步骤:为全文中出现的所有识别名词短语标注RNP标签;和C05步骤:翻译最终识别名词短语并存放在短语存储器中;其中,所述C01步骤中权重计算法的步骤包括:C0101步骤:对短语进行打分,方法为TF‑IDF法、TFC法或ITC法;C0102步骤:根据标题信息设置位置权重系数,短语的权重等于短语打分乘以位置权重系数;C0103步骤:判断短语是否存在于专利文档库的停用高频短语列表中,若存在,则排除该短语;停用高频短语列表的产生方法为:在专利文档库中,短语频率为该短语在文档库中出现的次数与文档库中所有短语出现的总次数的比值,降序排列后前N个短语组成停用高频短语列表,N为20‑1000的整数;和C0104步骤:当短语的权重高于设定值时,则判定其为候选短语,设定值为0.5×ω*,ω*为当前专利文档中短语权重的最大值;其中,所述的位置权重系数包括:β1,表示说明书摘要、背景技术、具体实施方式部分的权重;β2,表示权利要求、技术领域部分的权重;β3,表示附图说明部分的权重;和β4,表示标题、权利要求主题名称部分的权重;取值满足以下不等式:β1<β2<β3<β4。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国专利信息中心,未经中国专利信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310400123.X/,转载请声明来源钻瓜专利网。