[发明专利]一种信息处理系统、信息处理方法、及计算机程序有效
申请号: | 201780084260.3 | 申请日: | 2017-08-07 |
公开(公告)号: | CN110235127B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 毛羽翔 | 申请(专利权)人: | 株式会社野村综合研究所 |
主分类号: | G06F40/20 | 分类号: | G06F40/20 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 系统 方法 计算机 程序 | ||
词典制作装置(14)对通过自然语言处理装置(16)进行自然语言处理过程中所使用的词典进行记忆,该词典是存储有作为意义可单独成立的单词的主题词的词典。词典制作装置(14)从专利文献DB(12)中保存的专利文献字符串中,以至少除去已经存储在词典中的主题词之外的剩余的字符串作为短语,从中提取多个短语。在提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,词典制作装置(14)将该相同的字符串作为主题词进行提取。词典制作装置(14)将提取的主题词存储至词典。
技术领域
本发明涉及数据处理技术,特别是涉及一种信息处理系统、信息处理方法、及计算机程序。
背景技术
为了有效地从多个文献中检索与关键词匹配的文献,有时会预先对检索母群体的文献进行词素分析,并制作用于检索的索引数据。
在先技术文献
专利文献
专利文献1:日本特开2002-297589号公报
发明内容
发明所要解决的课题
在词素分析中,需要预先准备好记录有单词等的用于分析的词典。此词典要求遗漏的单词少,即全面性。特别是当检索对象为专利文献等技术性文档时,由于记载了很多的专用术语,很难依靠人力保证词典的全面性。
鉴于上述课题,本发明的主要目的在于提供一种有助于实现词典的技术,该词典适合用于词素分析等的自然语言处理。
用于解决课题的方案
为了解决上述课题,本发明的一个实施方式的信息处理系统,具备:词典记忆部,用于记忆计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典;短语提取部,用于从第1文档的字符串中以至少除去已经存储在词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;主题词提取部,用于当由短语提取部所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;以及词典更新部,用于将主题词提取部所提取的主题词存储在词典中。
本发明的其他实施方式是一种信息处理方法。该方法通过信息处理装置实现,该信息处理装置记忆有计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典,该信息处理装置执行以下步骤:短语提取步骤,从第1文档的字符串中以至少除去已经存储在词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;主题词提取步骤,当短语提取步骤所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;以及将主题词提取步骤所提取的主题词存储至词典的步骤。
另外,在程序、存储程序的存储介质等之间,还可以对以上构成要素的任意组合、本发明的表达做出变化,这些作为本发明的实施方式也同样有效。
发明效果
通过本发明,能够有助于实现适合词素分析等的自然语言处理的词典。
附图说明
[图1]为表示实施例的信息处理系统的结构示意图。
[图2]为表示图1词典制作装置的功能结构的框图。
[图3]为表示短语字符串的模式图。
[图4]图4的(a)、图4的(b)、图4的(c)为表示短语拆分的示例图。
[图5]为从短语拆分部输出的多个第2短语的示例图。
[图6]为主题词词典的示例图。
[图7]为附随词词典的示例图。
[图8]为表示图1中的自然语言处理装置的功能结构的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社野村综合研究所,未经株式会社野村综合研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780084260.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通过笔感知式外壳程序捕获笔输入
- 下一篇:用于构造紧凑壁模型的系统和方法