[发明专利]一种汉盲对照双语语料库的构建方法和系统有效
申请号: | 201810929248.4 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109344389B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 王向东;蔡佳;钱跃良;刘宏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/247 | 分类号: | G06F40/247 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对照 双语 语料库 构建 方法 系统 | ||
本发明涉及一种汉盲对照双语语料库的构建方法和系统,包括:获取内容相同的汉语文本和盲文文本;分别将盲文文本和汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成功的汉语句子和盲文句子;将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。本发明可由计算机自动从内容相同但不精确对应的汉语和盲文文件中自动对齐和抽取语料,生成篇章、句子、词语多级对照的汉盲双语语料库。相对于人工语料库构建方法,提高了效率、降低了成本。
技术领域
本发明涉及盲文和盲文语料领域,特别是涉及一种汉盲对照双语语料库的构建方法和系统。
背景技术
盲文是盲人日常阅读和获取信息的重要渠道。它是一种触觉符号系统,印刷在纸张或显示在点显器等电子设备上,可通过触摸进行阅读。盲文的基本单位是盲文符号,也称作“方”。在汉语盲文中,一般用2-3个盲文符号表示一个汉字,其中一方表示声母,一方表示韵母,另有一方表示声调,但声调有时可省略。汉语盲文与汉语最大的区别在于及其“分词连写”规则,即要求词与词之间用空方分隔,且盲文分词与汉语分词不同,许多汉语中的短语,如“王老师”、“大红花”等,在盲文中被连写为词。中国盲文标准中给出了100多条涉及语法和语义的详细规则定义哪些情况需要连写,如“‘不i和动词、能愿动词、形容词、介词、单音节程度副词均应连写”。
盲文语料库是指由大量的真实盲文文本形成的数据库。盲文语料库在盲文语言学研究和计算机盲文处理领域都具有重要作用。盲文专家可通过分析语料库中的语言现象,总结和统计盲文的语言特点和规律,以进一步指导盲文教育和盲文改革。计算机领域的研究者可基于盲文语料库研发盲文处理系统,如自动盲文分词系统、汉语-盲文自动翻译系统等。要进行上述的研究或开发工作,不只需要盲文文本,还需要该盲文对应的汉语文本,并且还要建立汉语与盲文之间在篇章、句子和词语级别的对应。例如,对于每一个盲文词,语料库中应该存有它对应的汉语词,这样才能方便地进行语言分析统计或计算机系统的研发。但是当前的汉语文本并不分词,这就需要人工处理汉语文本,将其按盲文的分词情况进行词语分割,从而生成汉盲对照的语料库。显然,这种人工构建汉盲对照语料库的方法工作量很大、效率很低,严重阻碍了盲文语言学研究和计算机盲文处理技术的发展。
当前,也存在一些内容相同的汉语和盲文文本,如同一本书的汉语和盲文的电子版文件等。但是,这些文件最多只能实现文件或篇章级的对应,而无法实现句子级和词语级的对照。要实现句子和词语级对照,就必须在汉语和盲文文本中精确地对齐句子和词语。但是,当前,即使同一本书的汉语和盲文文本,其内容也并不逐句、逐词的精确对照,而是会有一定差别,例如,为了便于盲人理解,盲文编辑会对内容进行适当的修改,比如文本增删、段落拆分和合并等,从而使盲文和汉语内容并不完全相同;另外,盲文会增加目录、页码等内容,且都作为文本,不能通过特定的格式标记去除。因此,很难通过计算机自动化处理实现所有句子和词语的完全对应,需要进行智能匹配,抽取能够对应成功的部分、丢弃匹配失败的部分,以匹配成功的部分构成最终生成的语料库。本发明的目标即是实现这种方式。
发明内容
针对现有技术尚无可用的汉盲双语对照,特别是词语级对照的语料库,而人工构建语料库工作量极大、效率很低的问题。本发明公开了一种自动从内容相同但不精确对照的汉语和盲文文本中对齐和抽取语料,以自动生成双语对照语料库的方法,可以大大提高构建语料库的效率。
具体地说,本发明公开了一种汉盲对照双语语料库的构建方法,其中包括:
步骤1、获取内容相同的汉语文本和盲文文本;
步骤2、分别将该盲文文本和该汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810929248.4/2.html,转载请声明来源钻瓜专利网。