[发明专利]数据处理装置、数据处理方法和程序在审
申请号: | 201310495278.6 | 申请日: | 2013-10-21 |
公开(公告)号: | CN104572613A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 孙健;夏迎炬;王云芝;李中华 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 装置 方法 程序 | ||
1.一种用于判断社会性服务网络中用户发布的文本是否是问题的数据处理装置,包括:
主题特征获取单元,被配置为利用预先训练的主题模型获取所述文本的主题特征;
情感特征获取单元,被配置为利用预先训练的情感模型获取所述文本的情感特征;
疑问标记特征提取单元,被配置为获取所述文本的疑问标记特征;以及
分类器,被配置为利用所述主题特征、所述情感特征和所述疑问标记特征对所述文本进行分类。
2.根据权利要求1所述的数据处理装置,其中,所述主题特征获取单元包括:
分词模块,被配置为对所述文本进行分词;
关键词提取模块,被配置为提取所述文本中的一个或更多个实词作为反映所述文本的主题的关键词;以及
主题特征计算模块,被配置为基于所述关键词利用所述主题模型计算所述文本的主题特征,
其中,所述主题模型包括以下概率的至少一部分:文本、关键词和主题,以及前述各项的各种组合的概率、联合概率或者条件概率。
3.根据权利要求1所述的数据处理装置,其中,所述情感特征获取单元包括:
分词模块,被配置为对所述文本进行分词;
情感词和/或符号提取模块,被配置为提取所述文本中的一个或更多个非名词和/或符号作为反映所述文本的情感倾向的情感词和/或符号;以及
情感特征计算模块,被配置为基于所述情感词和/或符号利用所述情感模型计算所述文本的情感特征,
其中,所述情感模型包括以下概率的至少一部分:文本、情感词和/或符号和情感倾向,以及前述各项的各种组合的概率、联合概率或者条件概率。
4.根据权利要求2所述的数据处理装置,其中,所述主题特征计算模块被配置为计算以所述文本为前提的各个主题的条件概率。
5.根据权利要求3所述的数据处理装置,其中,所述情感特征计算模块被配置为计算以所述文本为前提的各个情感倾向的条件概率。
6.根据权利要求4所述的数据处理装置,其中,以所述文本为前提的主题的条件概率为以该主题为前提的各个关键词的条件概率与该主题的先验概率的乘积。
7.根据权利要求5所述的数据处理装置,其中,以所述文本为前提的情感倾向的条件概率为以该情感倾向为前提的各个情感词和/或符号的条件概率与该情感倾向的先验概率的乘积。
8.一种用于判断社会性服务网络中用户发布的文本是否是问题的数据处理方法,包括:
利用预先训练的主题模型获取所述文本的主题特征;
利用预先训练的情感模型获取所述文本的情感特征;
获取所述文本的疑问标记特征;以及
使用分类器利用所述主题特征、所述情感特征和所述疑问标记特征对所述文本进行分类。
9.一种训练用于判断社会性服务网络中的文本是否是问题的主题模型的方法,包括:
准备专家知识语料库;
对所述专家知识语料库中的每个文本进行分词;
提取文本中的一个或更多个实词作为反映所述文本的主题的关键词;以及
计算以下概率的至少一部分作为所述主题模型:文本、关键词和主题,以及前述各项的各种组合的概率、联合概率或者条件概率。
10.根据权利要求9所述的方法,其中,所述主题模型包括:各个文本的概率、以各个文本为前提的该文本的主题的条件概率、以各个文本的主题为前提的该文本中的关键词的概率、以及各个文本、文本的主题和文本中的关键词的联合概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310495278.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于微博信息源的新闻认证方法及系统
- 下一篇:一种报表分页方法和装置