[发明专利]自然语言分词构造方法及系统、自然语言分类方法及系统有效
申请号: | 201710852703.0 | 申请日: | 2017-09-19 |
公开(公告)号: | CN107491440B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 罗欢;权圣 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 分词 构造 方法 系统 分类 | ||
本申请公开了一种自然语言分词构造方法,该方法包括:获取自然语言的Ngram分词,将Ngram分词按照位置序列顺序进行非连续组合,得到组合分词。可见,在原有的Ngram分词基础之上,再将得到的Ngram分词按照位置序列顺序进行组合,通过这样的方法加大了自然语言的表达能力,进而提高自然语言的分类准确率。并且,在本方案中,进一步的对组合分词设置窗口大小,以避免产生过多的组合分词特征量,提高了对自然语言的分类速度。相应的,本发明还公开了一种自然语言分词构造系统、一种自然语言分类方法及系统,同样具有上述有益效果。
技术领域
本发明涉及自然语言处理领域,特别涉及自然语言分词构造方法及系统、自然语言分类方法及系统。
背景技术
随着科学技术的发展,互联网已经成为人们获取知识的重要手段,其中,信息检索、文本分类和人机对话等技术已经深入人们生活的各个方面,人们都要或多或少地使用自然语言处理(Natural Language Processing,NLP)的研究成果来获取或挖掘在互联网上的各种知识和信息,因此,自然语言处理成为本世纪最热门的学科之一。
在自然语言处理当中,词是最小的能够独立活动的有意义的语言成分,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,所以导致了自然语言文本当中存在各种各样的歧义性或者是多义性。因此,对于自然语言的特征提取就成为人机交互的基础与关键。在现有的开源分词工具当中,往往是依靠于开源分词工具的正确率,并且需要对自然语言中的专有名词进行额外的处理,显然该方法过于繁琐。目前Ngram是最为有用的自然语言分类工具,在常用的NLP语料库中,人们可以利用Ngram来预计或者去评估一个句子是否合理。虽然Ngram分词能够解决专有名词的问题,但是它仍然会丢失一些句子的组合信息,所以怎样提高自然语言的分类准确率是本技术领域人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种自然语言分词构造方法,其目的在于提高自然语言的分类准确率。其具体方案如下:
一种自然语言分词构造方法,包括:
获取自然语言的Ngram分词;
将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
优选的,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行二组合。
优选的,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行三组合。
相应的,本发明还公开了一种自然语言分类方法,包括:
获取自然语言的样本;
利用如前述的分词构造方法提取所述样本的组合分词;
利用所述组合分词对所述样本进行分类。
优选的,所述利用所述组合分词对所述样本进行分类的过程,包括:
将所述组合分词输入至训练后模型中对所述样本进行分类;
其中,所述训练后模型为利用训练样本对基于逻辑回归算法构建的待训练模型进行训练后得到的模型,所述训练样本包括组合分词以及相应的分类信息。
相应的,本发明还公开了一种自然语言分词构造系统,包括:
分词获取模块,用于获取自然语言的Ngram分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710852703.0/2.html,转载请声明来源钻瓜专利网。