[发明专利]一种基于特征词加权的文本多语种识别方法有效

专利信息
申请号: 201911324134.8 申请日: 2019-12-20
公开(公告)号: CN111178009B 公开(公告)日: 2023-05-09
发明(设计)人: 杜权;毕东 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/126 分类号: G06F40/126;G06F40/216;G06F40/263;G06F40/289;G06N3/082
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 特征 加权 文本 语种 识别 方法
【说明书】:

发明公开一种基于特征词加权的文本多语种识别方法,步骤为:数据预处理,得到泛化语料;利用泛化语料进行N‑Gram语言模型训练;利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果。本发明能够准确高效的对文本所属语种进行识别,能够识别语种的数量也远超于大多数文本语种识别方法,在具备语种数据的前提下,可以对识别语种数量进行不断的扩充。

技术领域

本发明涉及语种识别方法,具体为一种基于特征词加权的文本多语种识别方法。

背景技术

语言是人类最重要的交际工具,是人们进行沟通的主要表达方式。人们借助语言保存和传递人类文明的成果。而文字作为语言视觉化的表现,突破口语的时间和空间的限制,文字是人类可以在书面上完整地传承人类的智慧和精神财富,使人类能够完善教育体系,提高自己的智慧,发展科学技术,进入文明社会。

世界上的语言有5000余种,其中中文是世界上使用人口最多的语言,中文和英语是世界上使用最广泛的语言,但是还存在只有几千至几百人使用的语言,比如美洲的土著印第安语,中国的赫哲语。不同国家民族的人们使用语言的习惯有所不同,这些语言也具有不同的特征。正是因为语言具备差异性和复杂性的特点,有多种分类标准。其中,语言学家们按照世界上的语言相似程度将其分为语系、语族、语支和语种,在中国北京大学的语言分类法中,将世界语言分类为13个语系,45个语族。那么,在进行语种识别时,根据语言的特性进行相应的语言分析,不同语系的语种识别对相对容易,但是由于语种的复杂性,对于同语系内相似度程度高的语种进行语种识别可能非常困难。

在自然语言处理中,文本语种识别是根据给定文本内容判断是哪种语言。随着跨语言检索技术的发展,作为其核心技术的文本语种识别研究开始受到关注,文本多语种识别技术主要应用在机器翻译和多语言检索任务上。目前,文本多语种识别的研究主要是基于规则的方法和基于机器学习的方法。基于规则的方法需要人工总结归纳得到语言规则,然后进行字符串匹配,需要大量专业的语言学家对语言进行分析,并且准确率难以保障。

基于机器学习的方法大多基于N-Gram语言模型的文本多语种识别和基于神经网络的文本多语种识别,与基于规则的方法相比,基于机器学习的文本多语种识别方法具有较高的准确率且节省大量人力资源。但是该方法对于相同语系的不同语种的文本识别准确率还有进一步提高空间。例如:葡萄牙语和西班牙语同属“印欧语系-罗曼语族-西罗曼语支”,均由拉丁文构成,例句:“1.她用晚餐之前总是先关窗户。”和“2.文本语种识别是一项复杂的研究工作。”,翻译后为:

1.Ela fecha sempre a janela antes de jantar.(葡萄牙语)

1.Ella cierra siempre la ventana antes de cenar.(西班牙语)

2.O reconhecimento de linguagemtextualéum trabalho de pesquisacomplexo.(葡萄牙语)

2.El reconocimiento del lenguaje textual es un trabajo de investigación complejo.(西班牙语)

发现,葡萄牙语和西班牙语之间书写相近,其中很多的单词拼写方式都相同。语种之间的差异性越小,那么采用传统的机器学习方法进行文本语种识别会越差。

发明内容

针对现有的文本语种识别方法在实际使用中对同语系相似语种的识别准确率低、文本语种识别速度慢等问题,本发明要解决的问题是提供基于特征词加权的文本多语种识别方法,能够快速准确的对文本内容所属语种进行识别,并且具备实现简单、鲁棒性高等特点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911324134.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top