[发明专利]一种基于微信公众平台的汉蒙语料库众包构建方法有效

专利信息
申请号: 201910859135.6 申请日: 2019-09-11
公开(公告)号: CN110472948B 公开(公告)日: 2022-02-08
发明(设计)人: 史树敏;苏日海;廖乐健;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06Q10/10 分类号: G06Q10/10;G06Q10/06
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 公众 平台 蒙语 料库众包 构建 方法
【权利要求书】:

1.一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:相关定义,包括:

定义1:微信客户端,即安装微信客户端的移动设备,数量范围为25000到30000个,移动设备包括手机和平板电脑;

定义2:微信公众平台,用于注册一订阅号或者服务号,用于与微信客户端建立连接和交互信息;

定义3:蒙古语水平测试问卷,即考核微信客户端语言能力的测试,内容包括15个汉蒙翻译测试题与用户的基本信息,用户的基本信息包括微信昵称、学历、年龄,所在城市和蒙古语学习年长;

定义4:过滤规则,即过滤微信客户端的规则,通过结合翻译测试结果打分和用户信息统计结果对微信客户端进行过滤的人工定义的规则;

定义5:后台管理员,即微信公众平台的管理人员,用于登录公众号平台实现与微信客户端的交互并进行语料管理;

定义6:众包,即一种面向互联网大众的分布式问题解决机制,通过整合计算机和互联网上未知的大众来完成特定任务;

定义7:众包质量控制,即对众包完成的任务进行答案整合,通过算法来保证结果的质量;

所述汉蒙语料库众包构建方法,具体操作包括如下步骤:

步骤1、对原始语料进行预处理,得到经过预处理后的原始数据集;

其中,对原始语料进行预处理的具体过程因翻译方向的不同而异,目的为对语料进行规范化处理,得到经过预处理后的原始语料;

其中,规范化处理为断句及删除无意义数据操作;

步骤2、微信公众平台向微信客户端推送蒙古语水平测试问卷,利用过滤规则对参与翻译任务的微信客户端进行初步过滤,得到过滤后的微信客户端;

步骤3、结合步骤1得到的预处理后的原始语料以及步骤2得到的过滤后的微信客户端,后台管理员得到汉语语料集,把汉语语料集通过推送的方式发送给有效微信客户端;

步骤4、微信客户端利用步骤3推送的汉语句,选择其中的若干汉语句翻译成蒙古语,通过微信客户端的语音功能,以语音形式将翻译后的蒙语句发送给微信公众平台,完成语料的众包收集;

步骤5、结合人工审核与多人投票的众包质量控制机制,后台管理员评估步骤4得到的语音语料,实现对已获取语料的质量评估;

其中,多人投票的具体做法是:将选出的蒙语语音转写成蒙文文本后推送给微信客户端,用户根据汉语原句与对应的蒙语翻译选项,选择自己认为正确的结果反馈给微信公众平台,统计投票人数最多的结果,选择有效的翻译结果;

步骤6、后台管理员接受正确的翻译结果,具体的,将正确的基于真实场景采集的汉蒙双语语料结果存储到语料库中。

2.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤1中的原始语料为教育、文娱、旅游、饮食以及百度贴吧领域的语料。

3.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤3中,汉语语料集的每一条由一个汉语句构成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910859135.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top