[发明专利]信息处理装置和信息处理方法有效
申请号: | 201510109856.7 | 申请日: | 2015-03-13 |
公开(公告)号: | CN104933022B | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 中田康太;蟻生政秀 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 袁玥 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 方法 | ||
1.一种信息处理装置,包括:
第一特征计算器,被配置为针对预先选择的目标文档计算第一主题特征,所述第一主题特征代表所述目标文档与多个主题中的每个主题的相关性强度,所述主题是指文档的话题和文档的讲话方式中的至少一个;
第二特征计算器,被配置为针对多个候选文档中的每个候选文档计算第二主题特征,所述第二主题特征代表相应候选文档与所述多个主题中的每个主题的相关性强度;
相似度计算器,被配置为针对所述多个候选文档中的每个候选文档计算所述第一主题特征与所述第二主题特征的相似度;以及
选择器,被配置为从候选文档之中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。
2.根据权利要求1所述的装置,还包括主题信息获取单元,所述主题信息获取单元被配置为针对每个主题获取包含相关联的词语和分数对的集合的主题信息,每个所述分数代表相关联的词语与相应主题的相关性强度,其中
第一特征计算器和第二特征计算器被配置为基于所述主题信息计算所述第一主题特征和第二主题特征。
3.根据权利要求2所述的装置,其中第一特征计算器和第二特征计算器被配置为针对所述多个主题中的每个主题检测文档中的相关联的词语,针对所述多个主题中的每个主题累计与所检测的相关联的词语相应的分数,并且生成包含针对所述多个主题中的每个主题所累计的分数的第一主题特征和第二主题特征。
4.根据权利要求1所述的装置,还包括学习单元,所述学习单元被配置为基于所选择的候选文档学习所述语言模型。
5.根据权利要求2所述的装置,其中所述主题信息获取单元被配置为通过使用候选文档来生成所述主题信息。
6.根据权利要求5所述的装置,其中所述主题信息获取单元被配置为生成多条主题信息,其中每条主题信息包含不同数量的主题,所述主题信息获取单元还被配置为基于所生成的多条主题信息来针对所述目标文档计算多个主题特征,以及基于所计算的主题特征来从所生成的多条主题信息中选择一条主题信息。
7.根据权利要求5所述的信息处理装置,其中
所述主题信息获取单元被配置为针对每个词性组生成所述主题信息,以及
第一特征计算器和第二特征计算器被配置为基于每个词性组的主题信息来针对每个词性组计算所述第一主题特征和第二主题特征。
8.根据权利要求7所述的装置,还包括第三特征计算器,该第三特征计算器被配置为针对预先选择的相似用途文档的每个词性组计算第三主题特征,所述第三主题特征代表所述相似用途文档与所述多个主题中的每个主题的相关性强度,其中
针对所述多个候选文档中的每个候选文档,
所述相似度计算器被配置为计算针对第一词性组的第一主题特征与针对第一词性组的第二主题特征的第一相似度,并且计算针对第二词性组的第一主题特征与针对第二词性组的第三主题特征的第二相似度,以及
所述选择器被配置为选择第一相似度大于第一参考值并且第二相似度大于第二参考值的候选文档作为要用于学习所述语言模型的文档。
9.一种信息处理方法,包括:
针对预先选择的目标文档计算第一主题特征,所述第一主题特征代表所述目标文档与多个主题中的每个主题的相关性强度,所述主题是指文档的话题和文档的讲话方式中的至少一个;
针对多个候选文档中的每个候选文档计算第二主题特征,所述第二主题特征代表相应候选文档与所述多个主题中的每个主题的相关性强度;
针对所述多个候选文档中的每个候选文档计算所述第一主题特征与所述第二主题特征的相似度;以及
从候选文档中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510109856.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生成数字人的方法及系统
- 下一篇:一种多功能硬盘接口转换器