[发明专利]主题推定装置、主题推定方法以及存储介质有效

申请号：	201780011714.4	申请日：	2017-02-10
公开（公告）号：	CN108701126B	公开（公告）日：	2022-03-04
发明（设计）人：	田村晃裕;隅田英一郎;木俵丰	申请（专利权）人：	国立研究开发法人情报通信研究机构
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/20;G06F40/284;G06F40/45;G06F17/18;G06F40/216;G06N5/04;G06F40/47;G06F40/237;G06F40/263
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	温剑;陈英俊
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	主题推定装置方法以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明所要解决的技术问题为，对以文档单位相对应的非对译语料库的各文档或者各单词进行跨语言的主题推定的精度不高。用于解决技术问题的方案为，通过主题推定装置来提高主题推定的精度，所述主题推定装置具备：单词分布信息保存部，与2个以上的各语言相对应地保存单词分布信息；文档主题分布生成部，取得多语言文档集合的文档主题分布信息；片段主题分布生成部，使用文档主题分布信息，取得各片段的片段主题分布信息；以及单词主题确定部，对于多语言文档集合具有的2个以上的各文档中包含的各单词，使用片段主题分布信息，确定并输出各单词的主题。

技术领域

本发明涉及主题(topic)推定装置等，其对于以文档单位相对应的非对译语料库的各文档或者各单词，分配跨语言的主题。

背景技术

以往，提出了很多以无教师的方式对隐藏在文档中的潜在主题进行解析的主题模型。主题模型最初是以单一语言文档集合为对象，但是近年来，提出了相对于多语言文档集合解析语言共同的主题的多语言主题模式，应用于跨语言文档分类或对译对抽取等许多的多语言处理任务(参照非专利文献1)。

而且，以Bilingual Latent Dirichlet Allocation(BiLDA：双语潜在狄利克雷分布)(参照非专利文献2、3)为主，多数多语言主题模型使用维基百科的文章集合等、无直接对译关系但以文档单位共有话题与领域的多语言文档集合(以下或称为可对照语料库)，推定主题。具体而言，通过利用可对照语料库的特征，使存在对应关系的文档的主题分布共同化，来进行反映出文档间的对应关系的主题推定。

此外，在BiLDA中，通过使存在对应关系的文档的主题分布共同化，来解析隐藏在多语言文档中的语言共同的主题。

详细而言，在BiLDA中，通过图14所示的模型，按照图15所示的算法取得文档的主题分布。

图14示出通过BiLDA生成由用语言e与f记述的D个文档对构成的可对照语料库的生成过程与图形化模型。以下，将各文档对d_i(i∈{1，……，D})中的语言e的文档表述为d_i^e、语言f的文档表述为d_i^f。在BiLDA中，各主题k∈{1，……，K})具有语言e的单词分布φ_k^e与语言f的单词分布φ_k^f。而且，各单词分布φ_k^l(l∈{e，f})是通过以β^l为参数的狄利克雷分布生成的(参照图15的步骤1至5)。在文档对d_i的生成过程中，首先，通过以α为参数的狄利克雷分布生成相对于d_i的主题分布θ_i(图15的步骤7)。由此，存在对应关系的d_i^e与d_i^f具有共同的主题分布θ_i。之后，相对于文档d_i^l的各单词位置m∈{1，……，N_i^l}，根据以θ_i为参数的多项分布(Multinomial(θ_i))生成潜在主题z_im^l(图15的步骤10)。然后，基于具体化的潜在主题z_im^l与语言l的单词分布φ^l，根据概率分布p(w_im^l|z_im^l，φ^l)生成单词w_im^l的主题(图15的步骤11)。

在先技术文献

非专利文献

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国立研究开发法人情报通信研究机构，未经国立研究开发法人情报通信研究机构许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201780011714.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载