[发明专利]一种基于微信公众平台的汉蒙语料库众包构建方法有效
申请号: | 201910859135.6 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110472948B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 史树敏;苏日海;廖乐健;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06Q10/06 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 公众 平台 蒙语 料库众包 构建 方法 | ||
一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源构建领域。具体操作步骤包含:1)获取多体裁开放域原始语料;2)通过蒙古语水平测试问卷,对参与翻译任务的用户进行筛选过滤;3)用订阅号推送的方式给关注微信公众号的用户发送众包翻译任务;4)每个微信客户端将一个或多个源句翻译成蒙古语以语音形式反馈给后台;5)通过后台管理员审核与众包质量评估相结合的方式评估所述语料质量,实现语料的质量控制;所述基于微信公众平台的汉蒙语料库众包构建方法在线上完成语料收集,交互简单、用户体验好、用户参与度高、有效解决了在真实蒙语语言环境下收集开放域自然口语语料的问题,在互联网移动平台下展现了极高的实用前景。
技术领域
本发明涉及一种基于微信公众平台的汉蒙语料库众包构建方法,属于语料资源建设技术领域。
背景技术
由于目前蒙古语语料库种类单一、规模较小,汉蒙口语语音语料库建构的探索逐渐成为了自然语言研究领域的一个重要研究内容,特别是资源构建方法的研究将影响大规模语料资源的相关研究。另一方面因蒙古语自身复杂性而造成的文字编码不统一的问题,以语音语料库作为切入点可以作为语料库资源建设的一条可行途径。然而,目前的汉蒙口语语音语料库构建采用专家标注的方法缺花费大量的人力和物力,并且语料内容受限于单一领域,录音环境受限于单一场景,需要专门的人员对语料库构建过程进行采集、编辑以及处理,成本较大,周期相对较长。
发明内容
本发明的目的在为了克服上述现有汉蒙语料库众包构建方法存在收集真实场景下的口语语音成本高、投入大的技术缺陷,提供了一种基于微信公众平台的汉蒙语料库众包构建方法。
为实现上述技术目的,本发明采用如下技术方案:
首先进行相关定义,具体如下:
定义1:微信客户端,即安装微信客户端的移动设备,数量范围为25000到30000个,移动设备包括手机和平板电脑;
定义2:微信公众平台,用于注册一订阅号或者服务号,用于与微信客户端建立连接和交互信息;
定义3:蒙古语水平测试问卷,即考核微信客户端语言能力的测试,内容包括15个汉蒙翻译测试题与用户的基本信息,用户的基本信息包括微信昵称、学历、年龄,所在城市和蒙古语学习年长;
定义4:过滤规则,即过滤微信客户端的规则,通过结合翻译测试结果打分和用户信息统计结果对微信客户端进行过滤的人工定义的规则;
定义5:后台管理员,即微信公众平台的管理人员,用于登录公众号平台实现与微信客户端的交互并进行语料管理;
定义6:众包,即一种面向互联网大众的分布式问题解决机制,通过整合计算机和互联网上未知的大众来完成特定任务;
定义7:众包质量控制,即对众包完成的任务进行答案整合,通过算法来保证结果的质量;
一种基于微信公众平台的汉蒙语料库众包构建方法,具体操作包括如下步骤:
步骤1、对原始语料进行预处理,得到经过预处理后的原始数据集;
其中,原始语料为教育、文娱、旅游、饮食以及百度贴吧领域的语料;
其中,对原始语料进行预处理的具体过程因翻译方向的不同而异,目的为对语料进行规范化处理,得到经过预处理后的原始语料;
其中,规范化处理包括断句及删除无意义数据操作;
步骤2、微信公众平台向微信客户端推送蒙古语水平测试问卷,利用过滤规则对参与翻译任务的微信客户端进行初步过滤,得到过滤后的微信客户端;
其中,微信公众平台的阐述见定义2;微信客户端的阐述见定义1;蒙古语水平测试问卷的阐述见定义3;初步过滤中过滤规则的阐述见定义4;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910859135.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:异常对象识别方法及装置
- 下一篇:一种用于第三方支付的开放平台系统
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理