[发明专利]文档分类装置及文档分类方法有效

专利信息
申请号: 201380042988.1 申请日: 2013-08-22
公开(公告)号: CN104584005B 公开(公告)日: 2018-01-05
发明(设计)人: 后藤和之;祖国威;宫部泰成;岩崎秀树 申请(专利权)人: 株式会社东芝;东芝解决方案株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 永新专利商标代理有限公司72002 代理人: 戚宏梅,杨谦
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 分类 装置 方法
【说明书】:

技术领域

本发明的实施方式涉及用于将电子化的大量文档根据其内容来进行分类的文档分类装置及文档分类方法。

背景技术

近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。作为用于将这样的大量文档整理成容易利用的形式的技术,期待有文档的自动分类及聚类等技术。

特别是如今企业等的活动的迅速国际化不断进展。在该状况下,需要高效地分类不仅用1个语言而是用如日语、英语、中文这样的多个自然语言来记述的文档。

例如有想要将在多个国家申请的专利文档无关于语言的不同而基于内容的相似性进行分类来分析申请趋势的需求。此外,例如还有想要在各国的接待中心受理针对在多个国家销售的产品的来自顾客的提问及投诉等信息并对该信息进行分类·分析的需求。此外,例如还有想要收集并分析在因特网上公开的用各种语言来记载的新闻报道、对产品·服务等的评论·意见等信息的需求。

作为将语言不同的的文档集合基于内容的相似性来跨语言地分类的方法之一,有使用机械翻译技术的方法。这是如下的方法:翻译用母语以外的语言(例如在日语为母语的情况下,为英语或中文)记述的文档,从而能够将全部文档作为1个语言(即母语)的文档来处理,在此基础上,进行自动分类或聚类等。

然而,该方法中,机械翻译的精度会影响到自动分类等处理的精度,存在如由于翻译错误等原因而导致文档无法被恰当地分类这样的、精度的问题。此外,一般来讲,机械翻译的处理用的计算成本很大,因此,在以大量文档为对象的情况下存在性能方面的问题。

进而,在多个用户对文档进行分类来利用的情况下,可以想到文档的母语也互不相同,要预先设想到该点而将大量文档翻译成多个语言是很困难的。

作为将用多个语言记述的文档集合跨语言地进行分类的方法,有使用对译辞典(或称作互译辞典)的方法。在此对译辞典是指,将用某个语言记述的单词或语句等的表述与其他语言的相同意思的表述之间相互建立了对应的辞典或同义词词典(thesaurus)。以下,为了简单起见,包括合成词及短语等在内,仅记作单词。

作为使用对译辞典来实现跨语言分类的方法的例子,首先,在用多个语言记述的文档集合当中,对用某个语言1记述的文档的部分集合进行分类来制作类目。然后,将表示该各类目的特征的语言a的单词,例如通过单词向量的形式来求出。另一方面,关于另外的语言b的文档,求出表示其特征的语言b的单词向量。

在此,如果能够将语言a的各类目的单词向量的各维(换句话说语言a的单词)与语言b的文档的单词向量的各维(换句话说语言b的单词)使用对译辞典建立对应的话,就能够计算语言a的单词向量与语言b的单词向量的相似度。然后,基于该相似度,能够将语言b的文档在语言a的类目当中分类到恰当的类目中。

在使用这样的对译辞典的方法中,对译辞典的质和量很重要。但是,要全部通过手动来制作的话需要劳力。于是,作为半自动地制作对译辞典的方法,有如下方法:对用某个语言记述的单词,基于在各语言的语料库(corpus:收集了文例的数据库)中的单词的同现频率和通用的对译辞典,来求出用恰当的其他的语言记述的单词,来作为其对译。

该方法中,首先,作为用于制作对译辞典的对象的单词,例如需要指定专门用语等,该专门用语的用一个语言进行的表述是已知的而用与该表述对应的另一个语言进行的表述是未知的。然而,在对内容未知的文档进行分类的情况下,无法预先设想是要对什么样的单词来制作对译辞典。

因此,使用同现频率和对译辞典的方法不适于利用聚类等探索式的分类手法来对未知内容的文档进行分类这样的目的。此外,在上述的方法中,相对于半自动地制作的对译辞典,还需要另外制作通用的对译辞典。但是,根据作为对象的语言,有时无法预先充分地准备其通用的对译辞典。

此外,例如,相对于英语的单词“character”而言,日本的单词有“性格”、“特性”、“人物”、“文字”等。因而,特别是在使用通用的对译辞典的情况下,需要与作为分类的对象的文档集合相对应地选择恰当的对译词。

此外,有使用通过上述方法制作的对译的同义词词典来对文档自动分类的方法。在该方法中,在文档未被分类到恰当的类目中的情况下,通过由用户来修正与类目对应的同义词词典的语义,能够应对分类的错误等。但是,该作业对于不习惯作为对象的语言的用户来讲,特别需要劳力。

先行技术文献

专利文献

专利文献1:特开2001-331484号公报

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝解决方案株式会社,未经株式会社东芝;东芝解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201380042988.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top