[发明专利]数据处理装置、数据处理方法和程序在审
申请号: | 201310495278.6 | 申请日: | 2013-10-21 |
公开(公告)号: | CN104572613A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 孙健;夏迎炬;王云芝;李中华 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 装置 方法 程序 | ||
技术领域
本公开涉及数据处理领域,具体地涉及,涉及一种用于判断社会性服务网络中用户发布的文本是否是问题的数据处理装置、数据处理方法和程序。此外,本公开还涉及一种训练用于上述数据处理装置、数据处理方法或程序中的主题模型的方法,以及一种训练用于其中的情感模型的方法。
背景技术
在社会性服务网络中,比如在微博、facebook等社交网络中,用户常常发布一些针对某个话题的观点、评论、评价等。例如,用户可能发布一些针对身体健康问题的看法或情绪表达。因此,需要提供一种识别问题的方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于背景技术部分所述的需求,本发明关注于对社会性服务网络中用户发布的文本是否问题进行识别的装置和方法。具体地,本发明提出了一种通过使用预先训练的模型来获取文本中的相关特征从而基于这些相关特征来判断该文本是否是问题的数据处理装置和方法。
根据本发明的一个方面,提供了一种用于判断社会性服务网络中用户发布的文本是否是问题的数据处理装置,包括:主题特征获取单元,被配置为利用预先训练的主题模型获取文本的主题特征;情感特征获取单元,被配置为利用预先训练的情感模型获取文本的情感特征;疑问标记特征提取单元,被配置为获取文本的疑问标记特征;以及分类器,被配置为利用主题特征、情感特征和疑问标记特征对文本进行分类。
根据本发明的另一个方面,提供了一种用于判断社会性服务网络中用户发布的文本是否是问题的数据处理方法,包括:利用预先训练的主题模型获取文本的主题特征;利用预先训练的情感模型获取文本的情感特征;获取文本的疑问标记特征;以及使用分类器利用主题特征、情感特征和疑问标记特征对文本进行分类。
根据本发明的又一个方面,还提供了一种训练用于判断社会性服务网络中的文本是否是问题的主题模型的方法,包括:准备专家知识语料库;对专家知识语料库中的每个文本进行分词;提取文本中的一个或更多个实词作为反映文本的主题的关键词;以及计算以下概率的至少一部分作为主题模型:文本、关键词和主题,以及前述各项的各种组合的概率、联合概率或者条件概率。
根据本发明的另一个方面,还提供了一种训练用于判断社会性服务网络中的文本是否是问题的情感模型的方法,包括:准备针对是否是问题标注过的问题数据集;对问题数据集中的每个文本进行分词;提取文本中的一个或更多个非名词和/或符号作为反映文本的情感倾向的情感词和/或符号;计算以下概率的至少一部分作为情感模型:文本、情感词和/或符号和情感倾向,以及前述各项的各种组合的概率、联合概率或者条件概率。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
图1是示出了根据本申请的一个实施例的数据处理装置的结构框图;
图2是示出了根据本申请的一个实施例的数据处理装置中的主题特征获取单元的结构框图;
图3是示出了根据本申请的一个实施例的主题模型的产生过程的示意图;
图4是示出了根据本申请的一个实施例的数据处理装置中的情感特征获取单元的结构框图;
图5是示出了根据本申请的一个实施例的情感模型的产生过程的示意图;
图6是示出了根据本申请的一个实施例的数据处理方法的流程图;
图7是示出了根据本申请的一个实施例的处理处理方法中的主题特征获取步骤的流程图;
图8是示出了根据本申请的一个实施例的处理处理方法中的情感特征获取步骤的流程图;
图9是示出了根据本申请的一个实施例的主题模型训练方法的流程图;
图10是示出了根据本申请的一个实施例的情感模型训练方法的流程图;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310495278.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于微博信息源的新闻认证方法及系统
- 下一篇:一种报表分页方法和装置