[发明专利]一种基于编码和机器学习的多语种识别方法有效

申请号：	201611001398.6	申请日：	2016-11-14
公开（公告）号：	CN106528535B	公开（公告）日：	2019-04-26
发明（设计）人：	王宇;徐晓燕;周渊;刘庆良;郑彩娟;王海平;黄成;周游;陈婷婷	申请（专利权）人：	北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京永创新实专利事务所 11121	代理人：	祗志洁
地址：	100125 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于编码和机器学习的多语种识别方法，是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别，编码识别时还统计各语种的单词量，当机器学习单元的识别结果在编码识别单元的判定区间内，且二者识别的语言一致时，输出单一识别语言，当编码识别单元识别到多种语言时，进行混合语言规则判断，若第二语言在文本中的单词量比例达到设定比例，则判定文本为混合语言。本发明对长文本可先作随机采样再判定，以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别，同时支持混合语种文本识别，在海量数据分析以及舆情监控中具有广泛的应用前景。
搜索关键词：	一种基于编码机器学习语种识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于编码和机器学习的多语种识别方法，其特征在于，包括如下实现步骤：第一步，通过机器学习单元对文本进行语种识别；第二步，通过编码识别单元对文本进行处理，具体是：采用Unicode编码识别文本中含有的字符语种类别，对各语种的单词量进行统计；第三步，进行混合语种判断，输出最终语种识别结果；设机器学习单元识别的语种为第一语言；当编码识别单元识别的语言与第一语言一致时，输出最终语种识别结果为第一语言；当编码识别单元识别到多种语言时，进行混合语言规则判断，输出混合语言或单一语种；所述的混合语言规则判断，包括如下情况：(1)机器学习单元识别为中文，编码识别单元识别结果包含中文和藏文和/或维文，判断藏文或维文在文本中的单词量比例是否大于10％，若是则判定为混合语种，输出中文和藏文和/或维文在文本中的单词量比例，否则，判定为中文；(2)机器学习单元识别为日文，编码识别单元识别结果包含中文和日文，判断日文在文本中的单词量比例是否少于30％，若是判定为混合语言，输出中文和日文分别在文本中的单词量比例；否则，判定为日文；(3)机器学习单元识别为中文，编码识别单元识别结果包含中文和英文，判断英文在文本中的单词量比例是否大于60％，若是，修正输出结果为主语言为英文，并输出中文和英文分别在文本中的单词量比例，否则，判定为中文；(4)机器学习单元识别为俄文，编码识别单元识别结果包含俄文和蒙文和/或韩文，判断俄文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出俄文和蒙文和/或韩文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；机器学习单元识别为蒙文，编码识别单元识别结果包含蒙文和俄文和/或韩文，判断蒙文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出蒙文和俄文和/或韩文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；机器学习单元识别为韩文，编码识别单元识别结果包含韩文和俄文和/或蒙文，判断韩文在文本中的单词量比例是否小于40％，若是，判定为混合语言，输出韩文和俄文和/或蒙文分别在文本中的单词量比例，否则，直接输出机器学习单元的识别结果；(5)机器学习单元识别为法文，判断文本中是否含有法文专有字母/单词，若没有，修正识别语言为英文，否则输出法文；(6)机器学习单元识别为中文，但文本为乱码，编码识别单元未识别到任何汉字时，输出“unknown language”。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心，未经北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611001398.6/，转载请声明来源钻瓜专利网。

上一篇：基于专有名词的关联词提取方法
下一篇：一种基于词典与文法分析的多语种分词方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于编码和机器学习的多语种识别方法有效

专利文献下载