[发明专利]维吾尔语文本的情感分类方法及装置有效
申请号: | 201710080052.8 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106844743B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 李响;陈建新;崔力民;马宗达;运凯;景康;赵忠浩;任晴晴;曹进平 | 申请(专利权)人: | 国网新疆电力公司信息通信公司;国家电网公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 830000 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维吾尔 语文 情感 分类 方法 装置 | ||
1.一种维吾尔语文本的情感分类方法,其特征在于,包括:
获取多条维吾尔语文本;
对所述多条维吾尔语文本进行拆分,得到第一文本集合和第二文本集合,其中,所述第一文本集合包括:第一数量的维吾尔语文本,所述第二文本集合包括:第二数量的维吾尔语文本,所述第一数量小于所述第二数量;
基于所述第一文本集合和对应的标注信息,生成情感分类器;
利用所述情感分类器对所述第二文本集合进行情感分类,得到情感分类结果;
其中,在利用所述情感分类器对所述第二文本集合进行情感分类,得到情感分类结果之前,所述方法还包括:使用k-means聚类对所述第二文本集合进行聚合,得到多个第一集合簇;对所述多个第一集合簇进行层次聚类,得到多个第二集合簇;利用所述情感分类器对所述多个第二集合簇进行情感分类,得到所述情感分类结果。
2.根据权利要求1所述的方法,其特征在于,对所述多条维吾尔语文本进行拆分,得到第一文本集合和第二文本集合包括:
基于预设筛选策略,对所述多条维吾尔语文本进行筛选,得到所述第一文本集合;
根据所述多条维吾尔语文本中除所述第一文本集合之外的其他维吾尔语文本,得到所述第二文本集合。
3.根据权利要求2所述的方法,其特征在于,基于预设筛选策略,对所述多条维吾尔语文本进行筛选,得到所述第一文本集合包括:
从所述多条维吾尔语文本中筛选包含预设类型的情感词的文本,得到所述第一文本集合。
4.根据权利要求1所述的方法,其特征在于,使用k-means聚类对所述第二文本集合进行聚合,得到多个第一集合簇包括:
从所述第二文本集合中,获取预设数量的初始集合簇;
计算所述第二文本集合中每个样本点与每个初始集合簇的中心点的距离,得到所述多个第一集合簇。
5.根据权利要求4所述的方法,其特征在于,计算所述第二文本集合中每个样本点与每个初始集合簇的中心点的距离,得到所述多个第一集合簇包括:
步骤A1,计算当前样本点与所述每个初始集合簇的中心点的距离;
步骤A2,根据所述当前样本点与所述每个初始集合簇的中心点的距离,将所述当前样本点存入对应的初始集合簇中,得到多个新的初始集合簇;
步骤A3,计算每个新的初始集合簇的中心点;
步骤A4,将所述当前样本点的下一个样本点作为所述当前样本点,并循环执行所述步骤A1至所述步骤A3,直至所述第二文本集合中所有样本点完成归类,得到所述多个第一集合簇。
6.根据权利要求1所述的方法,其特征在于,对所述多个第一集合簇进行层次聚类,得到多个第二集合簇包括:
步骤B1,计算任意两个第一集合簇的距离,得到多个第一距离;
步骤B2,从所述多个第一距离中获取最小距离对应的两个第一集合簇;
步骤B3,将所述两个第一集合簇进行合并,得到多个新的第一集合簇;
步骤B4,循环执行所述步骤B1至所述步骤B3,直至所述多个新的第一集合簇的数量与预设层次数相同,得到所述多个第二集合簇。
7.根据权利要求1所述的方法,其特征在于,利用所述情感分类器对所述第二文本集合进行情感分类,得到情感分类结果包括:
利用所述情感分类器对所述第二文本集合进行情感分类,得到第一概率;
对所述第二文本集合进行情感分类,得到第二概率;其中,所述第二概率通过人工标注方式对第二文本集合进行情感分类,通过未标注数据估算出来;
计算所述第一概率与所述第二概率的乘积,得到所述第二文本集合的最大后验概率。
8.根据权利要求1至7中任意一项所述的方法,其特征在于,获取多条维吾尔语文本包括:
通过网络爬虫爬取得到所述多条维吾尔语文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网新疆电力公司信息通信公司;国家电网公司,未经国网新疆电力公司信息通信公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710080052.8/1.html,转载请声明来源钻瓜专利网。