[发明专利]维吾尔语文本的情感分类方法及装置有效
申请号: | 201710080052.8 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106844743B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 李响;陈建新;崔力民;马宗达;运凯;景康;赵忠浩;任晴晴;曹进平 | 申请(专利权)人: | 国网新疆电力公司信息通信公司;国家电网公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 830000 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维吾尔 语文 情感 分类 方法 装置 | ||
本发明公开了一种维吾尔语文本的情感分类方法及装置。其中,该方法包括:获取多条维吾尔语文本;对多条维吾尔语文本进行拆分,得到第一文本集合和第二文本集合,其中,第一文本集合包括:第一数量的维吾尔语文本,第二文本集合包括:第二数量的维吾尔语文本,第一数量小于第二数量;基于第一文本集合和对应的标注信息,生成情感分类器;利用情感分类器对第二文本集合进行情感分类,得到情感分类结果。本发明解决了现有技术中维吾尔语文本的情感分类方法需要通过人工方式对大量维吾尔语文本进行情感标注,处理时间长且处理效率低的技术问题。
技术领域
本发明涉及少数民族语言网络舆情分析领域,具体而言,涉及一种维吾尔语文本的情感分类方法及装置。
背景技术
互联网发展迅速,全球各地的网民时刻会在网络中获取或发布信息,那么带有主观色彩的文本在网络中大范围传播。这种带有公众主观观点的文本对网络舆情以及社会舆论将会产生极大的影响,如果我们能对此进行深层次的研究,那必将会很有意义。
我国的少数民族呈现一个大杂居、小聚居的分布状态,并且多个民族都拥有自己的语言,为了更了解少数民族的心声,研究少数民族语言将对于民族团结和社会纠纷有重大作用。但又因很多少数民族拥有自己的语言,还不能很好的进行大范围的网络舆情研究,所以目前来看新疆地区各少数民族的网络舆情研究还处于初步阶段。维吾尔语在网络舆情的大范围传播,光依靠人工的方式处理是非常费时费力的,那么情感分析便能在这大显身手。
有监督学习的方法常用于情感分类方法需要人工标注的语料,如果没有一定量的已标注语料,分类器的效果便会降低。然而现有的少数民族语言的已标注语料还甚少,这就必然会使有监督学习捉襟见肘。
针对现有技术中维吾尔语文本的情感分类方法需要通过人工方式对大量维吾尔语文本进行情感标注,处理时间长且处理效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种维吾尔语文本的情感分类方法及装置,以至少解决现有技术中维吾尔语文本的情感分类方法需要通过人工方式对大量维吾尔语文本进行情感标注,处理时间长且处理效率低的技术问题。
根据本发明实施例的一个方面,提供了一种维吾尔语文本的情感分类方法,包括:获取多条维吾尔语文本;对多条维吾尔语文本进行拆分,得到第一文本集合和第二文本集合,其中,第一文本集合包括:第一数量的维吾尔语文本,第二文本集合包括:第二数量的维吾尔语文本,第一数量小于第二数量;基于第一文本集合和对应的标注信息,生成情感分类器;利用情感分类器对第二文本集合进行情感分类,得到情感分类结果。
进一步地,对多条维吾尔语文本进行拆分,得到第一文本集合和第二文本集合包括:基于预设筛选策略,对多条维吾尔语文本进行筛选,得到第一文本集合;根据多条维吾尔语文本中除第一文本集合之外的其他维吾尔语文本,得到第二文本集合。
进一步地,基于预设筛选策略,对多条维吾尔语文本进行筛选,得到第一文本集合包括:从多条维吾尔语文本中筛选包含预设类型的情感词的文本,得到第一文本集合。
进一步地,在利用情感分类器对第二文本集合进行情感分类,得到情感分类结果之前,上述方法还包括:使用k-means聚类对第二文本集合进行聚合,得到多个第一集合簇;对多个第一集合簇进行层次聚类,得到多个第二集合簇;利用情感分类器对多个第二集合簇进行情感分类,得到情感分类结果。
进一步地,使用k-means聚类对第二文本集合进行聚合,得到多个第一集合簇包括:从第二文本集合中,获取预设数量的初始集合簇;计算第二文本集合中每个样本点与每个初始集合簇的中心点的距离,得到多个第一集合簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网新疆电力公司信息通信公司;国家电网公司,未经国网新疆电力公司信息通信公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710080052.8/2.html,转载请声明来源钻瓜专利网。