[发明专利]一种基于条件随机场的柬‑汉人名翻译方法在审
申请号: | 201710630672.4 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107608974A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 严馨;郭月江;雷青玲;余正涛;周兰江 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 随机 汉人 翻译 方法 | ||
技术领域
本发明涉及一种基于条件随机场的柬-汉人名翻译方法,属于自然语言处理技术领域。
背景技术
柬-汉人名翻译是分词、词性标注等工作中的主要环节,是其他高层应用的基础,起着极其重要的作用。在各类柬语信息处理软件或者系统中,柬-汉人名翻译是不可或缺的工作。随着互联网搜索技术的不断提高,柬-汉人名翻译也越来越备受关注,柬-汉人名翻译的程度决定着搜索的准确率;同时柬-汉人名翻译可以提高柬语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,因此,有必要提出一种准确率高的柬-汉人名翻译方法。
发明内容
本发明提供了一种基于条件随机场的柬-汉人名翻译方法,用于解决柬埔寨语人名翻译等问题,且基于条件随机场的柬-汉人名翻译方法准确率高、能进行有效的翻译。
本发明基于条件随机场的柬-汉人名翻译方法是这样实现的:所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场(CRFs)构建柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型;
所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710630672.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于神经网络的翻译方法及装置
- 下一篇:一种定向集音翻译机