[发明专利]一种基于特征词加权的文本多语种识别方法有效
申请号: | 201911324134.8 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178009B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 杜权;毕东 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/216;G06F40/263;G06F40/289;G06N3/082 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 加权 文本 语种 识别 方法 | ||
本发明公开一种基于特征词加权的文本多语种识别方法,步骤为:数据预处理,得到泛化语料;利用泛化语料进行N‑Gram语言模型训练;利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果。本发明能够准确高效的对文本所属语种进行识别,能够识别语种的数量也远超于大多数文本语种识别方法,在具备语种数据的前提下,可以对识别语种数量进行不断的扩充。
技术领域
本发明涉及语种识别方法,具体为一种基于特征词加权的文本多语种识别方法。
背景技术
语言是人类最重要的交际工具,是人们进行沟通的主要表达方式。人们借助语言保存和传递人类文明的成果。而文字作为语言视觉化的表现,突破口语的时间和空间的限制,文字是人类可以在书面上完整地传承人类的智慧和精神财富,使人类能够完善教育体系,提高自己的智慧,发展科学技术,进入文明社会。
世界上的语言有5000余种,其中中文是世界上使用人口最多的语言,中文和英语是世界上使用最广泛的语言,但是还存在只有几千至几百人使用的语言,比如美洲的土著印第安语,中国的赫哲语。不同国家民族的人们使用语言的习惯有所不同,这些语言也具有不同的特征。正是因为语言具备差异性和复杂性的特点,有多种分类标准。其中,语言学家们按照世界上的语言相似程度将其分为语系、语族、语支和语种,在中国北京大学的语言分类法中,将世界语言分类为13个语系,45个语族。那么,在进行语种识别时,根据语言的特性进行相应的语言分析,不同语系的语种识别对相对容易,但是由于语种的复杂性,对于同语系内相似度程度高的语种进行语种识别可能非常困难。
在自然语言处理中,文本语种识别是根据给定文本内容判断是哪种语言。随着跨语言检索技术的发展,作为其核心技术的文本语种识别研究开始受到关注,文本多语种识别技术主要应用在机器翻译和多语言检索任务上。目前,文本多语种识别的研究主要是基于规则的方法和基于机器学习的方法。基于规则的方法需要人工总结归纳得到语言规则,然后进行字符串匹配,需要大量专业的语言学家对语言进行分析,并且准确率难以保障。
基于机器学习的方法大多基于N-Gram语言模型的文本多语种识别和基于神经网络的文本多语种识别,与基于规则的方法相比,基于机器学习的文本多语种识别方法具有较高的准确率且节省大量人力资源。但是该方法对于相同语系的不同语种的文本识别准确率还有进一步提高空间。例如:葡萄牙语和西班牙语同属“印欧语系-罗曼语族-西罗曼语支”,均由拉丁文构成,例句:“1.她用晚餐之前总是先关窗户。”和“2.文本语种识别是一项复杂的研究工作。”,翻译后为:
1.Ela fecha sempre a janela antes de jantar.(葡萄牙语)
1.Ella cierra siempre la ventana antes de cenar.(西班牙语)
2.O reconhecimento de linguagemtextualéum trabalho de pesquisacomplexo.(葡萄牙语)
2.El reconocimiento del lenguaje textual es un trabajo de investigación complejo.(西班牙语)
发现,葡萄牙语和西班牙语之间书写相近,其中很多的单词拼写方式都相同。语种之间的差异性越小,那么采用传统的机器学习方法进行文本语种识别会越差。
发明内容
针对现有的文本语种识别方法在实际使用中对同语系相似语种的识别准确率低、文本语种识别速度慢等问题,本发明要解决的问题是提供基于特征词加权的文本多语种识别方法,能够快速准确的对文本内容所属语种进行识别,并且具备实现简单、鲁棒性高等特点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324134.8/2.html,转载请声明来源钻瓜专利网。