[发明专利]一种基于条件随机场的柬‑汉人名翻译方法在审

专利信息
申请号: 201710630672.4 申请日: 2017-07-28
公开(公告)号: CN107608974A 公开(公告)日: 2018-01-19
发明(设计)人: 严馨;郭月江;雷青玲;余正涛;周兰江 申请(专利权)人: 昆明理工大学
主分类号: G06F17/28 分类号: G06F17/28;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 条件 随机 汉人 翻译 方法
【说明书】:

技术领域

发明涉及一种基于条件随机场的柬-汉人名翻译方法,属于自然语言处理技术领域。

背景技术

柬-汉人名翻译是分词、词性标注等工作中的主要环节,是其他高层应用的基础,起着极其重要的作用。在各类柬语信息处理软件或者系统中,柬-汉人名翻译是不可或缺的工作。随着互联网搜索技术的不断提高,柬-汉人名翻译也越来越备受关注,柬-汉人名翻译的程度决定着搜索的准确率;同时柬-汉人名翻译可以提高柬语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,因此,有必要提出一种准确率高的柬-汉人名翻译方法。

发明内容

本发明提供了一种基于条件随机场的柬-汉人名翻译方法,用于解决柬埔寨语人名翻译等问题,且基于条件随机场的柬-汉人名翻译方法准确率高、能进行有效的翻译。

本发明基于条件随机场的柬-汉人名翻译方法是这样实现的:所述方法的具体步骤如下:

Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场(CRFs)构建柬-汉双语人名翻译模型;

Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。

所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:

Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;

Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;

Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;

Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;

Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;

Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;

Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型;

所述步骤Step1.2的具体步骤:

Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;

Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。

所述步骤Step1.3的具体步骤:

Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;

Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;

Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;

Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。

所述步骤Step1.4的具体步骤:

Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;

Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;

Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710630672.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top