[发明专利]信息处理装置和信息处理方法有效

申请号：	201510109856.7	申请日：	2015-03-13
公开（公告）号：	CN104933022B	公开（公告）日：	2018-11-13
发明（设计）人：	中田康太;蟻生政秀	申请（专利权）人：	株式会社东芝
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	袁玥
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息处理装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种信息处理装置和信息处理方法。根据实施例，一种信息处理装置包括第一特征计算器，第二特征计算器，相似度计算器以及选择器。第一特征计算器被配置为计算代表至少一个主题的文档与目标文档的相关性强度的主题特征，所述目标文档与语言模型的用途匹配。第二特征计算器被配置为针对多个候选文档中的每一个候选文档计算所述主题特征。相似度计算器被配置为计算所述候选文档的每个主题特征与所述目标文档的主题特征的相似度。选择器被配置为从候选文档中选择相似度大于参考值的候选文档作为要用于学习语言模型的文档。

对相关申请的交叉引用

本申请基于2014年3月20日提交的日本专利申请号NO.2014-058246，并以该申请为优先权基础；该日本专利申请的全部内容通过引用方式并入在此。

技术领域

在此说明的实施例一般关于一种信息处理装置和信息处理方法。

背景技术

借助于计算机和互联网环境的普及，大量文档已经被电子化并存储。能够通过使用如此大量的电子化文档来学习用在例如语音识别的技术中的语言模型。通过使用例如在网络上可得的大量文档来学习一种用作一般用途的语言模型能够改善该语言模型的性能。相反，通过使用大量网络上可得的文档来学习一种用作特定用途的语言模型并不能大大改善其性能，因为包含大量关于除特定用途之外的用途的文档。

为了改善用作特定用途的语言模型的性能，有必要通过仅使用关于特定用途的文档(目标文档)来学习语言模型。例如，当特定用途是在呼叫中心的语音识别时，通过使用由录制呼叫中心的操作员的对话语音所得的文档来学习语言模型能够改善用作这一特定用途的语言模型的性能。

但是，使用这种方法，当没有足够数量的目标文档来用于学习时，无法实现用于多种表达的语言模型。然而，很难收集大量关于特定用途的文档。例如，将语音录制成文档的工作需要较大的经济和时间成本，因此难以获得足够数量的目标文档。

发明内容

实施例的一个目的是提供一种能够从除目标文档之外还包括大量文档的多个候选文档中适当选择要用于学习语言模型的文档的信息处理装置。

根据实施例，信息处理装置包括第一特征计算器，第二特征计算器，相似度计算器以及选择器。所述第一特征计算器被配置为计算主题特征，该主题特征代表至少一个主题的文档与目标文档的相关性强度，所述目标文档与语言模型所要用作的用途匹配。第二特征计算器被配置为计算多个候选文档中的每一个候选文档的所述主题特征。相似度计算器被配置为计算候选文档的每一个所述主题特征与所述目标文档的主题特征的相似度。选择器被配置为选择候选文档作为要用于学习语言模型的文档，该候选文档的相似度大于来自其他候选文档之中的参考值。

根据上述信息处理装置，能够从除目标文档之外还包含大量文档的多个候选文档中适当选择要用于学习语言模型的文档。

附图说明

图1是示出根据第一实施例的信息处理装置的配置的图；

图2是示出主题数量为50的主题信息的例子的表格；

图3是示出根据第一实施例的信息处理装置的处理流程的图表；

图4是示出目标文档的第一个例子的图；

图5是示出候选文档的第一个例子的图；

图6是示出候选文档的第二个例子的图；

图7是示出候选文档的第三个例子的图；

图8是示出主题特征计算流程的图表；

图9是示出单词一致度高的文档的例子的图；

图10是示出主题数量为10的主题信息的例子的表格；