[发明专利]一种基于编码转换的多国语分词方法有效

专利信息
申请号: 201911324149.4 申请日: 2019-12-20
公开(公告)号: CN111178061B 公开(公告)日: 2023-03-10
发明(设计)人: 杜权;徐萍 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/151
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 编码 转换 国语 分词 方法
【说明书】:

发明公开一种基于编码转换的多国语分词方法,包括以下步骤:1)数据预处理:输入待分词的数据和语言标签,过滤数据中的多余空格并调整数据为UTF‑8编码格式;2)加载编码转换文件:根据步骤1)中输入的语言标签加载对应语言的编码转换资源文件;3)编码转换:使用步骤2)加载的编码转换资源文件对数据进行编码转换;4)分词:使用标点、空格等符号对编码转换后的数据进行分词处理。本发明提出的基于编码转换的多国语分词方法能够同时满足多国语言的不同编码特征,有针对性的根据不同语言的特征进行分析和编码转换,满足使用一种分词方法能够同时对多国语言分词的需求。

技术领域

本发明涉及一种语言处理中的分词方法,具体为一种基于编码转换的多国语分词方法。

背景技术

语言是人类思想交流的媒介,是人们最重要的交际工具,随着人类社会而产生和发展,必然会对政治、经济和科技乃至文化本身产生影响。目前世界上已经查明的语言共有5651种,分别分布在世界各地的不同地方。

语言学家根据各语言的语音、语法和词汇等方面特征的共同之处与起源关系,把世界上的语言分成多个语系,每个语系中包含了数量不等的语种,这些语系和语种在地域上有一定的分布,很多文化特征都与此有密切的关系。

词是语言中能够独立运用的最小的语言单位,机器翻译系统中通常将词作为基本单元进行分析,因此一个有效且高质量的分词模块对机器翻译系统是至关重要的。

世界各国的语言各有其独特的特征,从分词方式区分,大体可以将语言分为两种:一种是类似于中文和日语的孤立语或黏着语;另一种是以英语为主的大部分西方国家语言,这些语言中词语以空格作为边界,称之为屈折语,屈折语的文本中词与词之间的空格可以指定词的边界,通过以空格作为切分标志的分词方式能够将句子拆分为多个连续的词的组合,实现对完整句子的切分。因此,对于西方国家大多数的语言,都可以采用以空格为切分标志的分词方式对其进行切分。

19世纪时,欧洲学者研究了世界上近一百种语言,发现有些语言的语音、词汇、语法规则之间有对应关系和相似之处,便将其归为一类,称之为同族语言;由于不同语族之间存在着对应关系,便将其归纳为同系语言,这就是语言的谱系关系。20世纪时,语言学家又将世界语言分成各种语系,如印欧语系、汉藏语系、闪含语系等等。然而各个国家的语言种类众多,分为不同的语系语支,每个语系的语言都有其各自的特征,同一语系语支下的不同语言之间也会存在很多差异,有的语言中还存在着多种不同的编码和书写方式,例如:

1)越南语有两种编码集,其中一种是独立的字符,另一种由两个字符合并而成。

2)阿拉伯字符有阿拉伯语、阿拉伯形式A和阿拉伯形式B等多种表现形式,波斯语中同时出现阿拉伯字符和阿拉伯形式B字符等两种编码数据。

3)保加利亚语属于印欧语系的南斯拉夫语支,使用西里尔字母书写,里面往往掺杂着大量需要转换的拉丁字母。

如上述情况所示,一种分词方法无法同时满足所有的语种特征,难以用相同的分词方式同时实现对所有语言的分词功能,但是现存的语言种类繁多,为每个语言设计一种独有的分词方式太过繁琐,也并不现实,因此需要对不同的语种进行学习和分析,根据各语种的特征有针对性的对其进行数据的编码转换预处理,之后再统一对其进行分词。

Unicode编码是为了解决传统的字符集编码方案局限性而产生的一种新的编码方案,它为每种语言中的每个字符统一设定了唯一的二进制编码,以满足跨语言、跨平台进行文本转换和处理的要求。Unicode编码中只有一个字符集,有效的避免了双字节字符集的二义性,目前Unicode编码在全球范围的信息交换领域均有广泛应用。在Unicode编码中,每个字符块基于同样的标准都有自己的编码范围,例如希腊字母、西里尔文、亚美尼亚文、缅甸文等,每一种文字都有自己特定范围的编码区间。图1为部分语言的Unicode编码区间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911324149.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top