[发明专利]一种基于特征词加权的文本多语种识别方法有效
申请号: | 201911324134.8 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111178009B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 杜权;毕东 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/216;G06F40/263;G06F40/289;G06N3/082 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 加权 文本 语种 识别 方法 | ||
1.一种基于特征词加权的文本多语种识别方法,其特征在于包括以下步骤:
1)数据预处理,包括对多个语种的泛化预处理,得到泛化语料;
2)利用泛化语料进行N-Gram语言模型训练,其中单字节语种训练5-Gram语言模型,多字节语种训练3-Gram语言模型;
3)利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;
4)特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;
5)语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果;
字节长度比计算公式:
其中,len(str)为字符长度,len(str.encode())为字节长度,len_rate为字节长度比(len_rate≥1)。
2.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤1)中,数据的预处理包括:
101)将各个语种数据按照8:1:1分为训练集、测试集和开发集数据,对训练集、测试集和开发集数据进行泛化预处理;
102)泛化预处理,包括大写字母小写化、数字替换和标点替换。
3.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤2)中,N-Gram语言模型为:
假设当前字Xn+1出现的概率与其前n个字有关,而与过去的字无关,即为n+1阶语言模型模型;当前字Xn+1出现的概率P(Xn+1|X1X2...Xn)仅仅依赖于前面两个字Xn-1和Xn,公式为:
P(Xn+1|X1X2...Xn)=P(Xn+1|XnXn-1)
在计算P(Xn+1|X1X2...Xn)转移概率时,采用极大似然估计法进行求解,公式如下,其中C(X1X2...Xn)表示X1X2...Xn出现次数:
N-Gram语言模型的输入数据获取采用滑动窗口方法,通过沿着句子拖动一个为n的窗口,然后建立用于训练N-Gram模型的字序列;
定义英语、法语和西班牙语语种为单字节语种,中文、日语和韩语语种为多字节语种。
4.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤3)中,根据其语言特点选取不同的分词方法进行分词预处理,具体为:
中文、日语、韩语、泰语没有明显的词语标记,采用基于语言模型的词语切分方法进行词语切分;与英语同语系的语种本身包含空格,按照空格标点切分即可,同时注意关键词。
5.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤3)中,词频是指某一个给定的词语在该数据中出现的次数,词频统计即为该数据中所有的词语出现次数的统计;
生成特征词表包括:
对数据进行泛化预处理和分词预处理后进行词频统计,选取每个语种频次前5%的词语生成该语种的初始化特征词表;在所有语种的初始化特征词表集合内对各个语种的初始化特征词表去重,最后得到具有唯一性的特征词表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324134.8/1.html,转载请声明来源钻瓜专利网。