[发明专利]一种信息处理系统、信息处理方法、及计算机程序有效
申请号: | 201780084260.3 | 申请日: | 2017-08-07 |
公开(公告)号: | CN110235127B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 毛羽翔 | 申请(专利权)人: | 株式会社野村综合研究所 |
主分类号: | G06F40/20 | 分类号: | G06F40/20 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 系统 方法 计算机 程序 | ||
1.一种信息处理系统,其特征在于,具备:
词典记忆部,用于记忆计算机的自然语言处理过程中所使用的词典,该词典是存储有作为意义可单独成立的单词的主题词的词典;
短语提取部,用于从第1文档的字符串中以至少除去已经存储在所述词典中的主题词之外的剩余的字符串作为短语,并从中提取多个短语;
主题词提取部,用于当由所述短语提取部所提取的多个短语中,指定个数以上的短语的开头部分存在相同的字符串时,将该相同的字符串作为主题词进行提取;
词典更新部,用于将所述主题词提取部所提取的主题词存储在所述词典中。
2.根据权利要求1所述的信息处理系统,其特征在于:当第1字符串、以及包括所述第1字符串的第2字符串这两个字符串作为主题词被提取时,所述词典更新部将所述第1字符串存储于所述词典的同时,阻止所述第2字符串存储于所述词典。
3.根据权利要求1或2所述的信息处理系统,其特征在于:还具备附随词提取部,
所述词典记忆部,对作为存储所述主题词的词典的主题词词典、和作为存储附随词的词典的附随词词典进行记忆,其中,附随词是用于附随于所述主题词的单词;
所述附随词提取部,从所述第1文档的字符串中除去存储在所述主题词词典中的主题词,从剩余的字符串中,将字符数为指定值以下的字符串作为附随词进行提取;
所述词典更新部将所述附随词提取部所提取的附随词存储至所述词典。
4.根据权利要求3所述的信息处理系统,其特征在于:所述附随词提取部,从所述剩余字符串中将长度为指定值以下的字符串作为附随词的候补进行提取,将作为候补的提取次数为指定排位以上的字符串判定为附随词。
5.根据权利要求1所述的信息处理系统,其特征在于:还具备分数设定部以及单词提取部,
所述词典记忆部,对作为存储所述主题词的词典的主题词词典、和作为存储附随词的词典的附随词词典进行记忆,其中,附随词是用于附随于所述主题词的单词;
所述分数设定部参照所述主题词词典,对以从作为自然语言处理对象的第2文档中读取的字符串中的各字符为起始的主题词进行确定,在以各字符为起始的主题词中,与内含附随词个数相对较多的主题词相比,将较大的分数赋予内含附随词个数相对较少的主题词;
所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、和以所述第1主题词中的第2个字符之后的字符为起始的第2主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
6.根据权利要求1所述的信息处理系统,其特征在于:还具备分数设定部以及单词提取部,
所述分数设定部参照所述词典,对以从作为自然语言处理对象的第2文档中读取的字符串中的各字符为起始的主题词进行确定,在以各字符为起始的主题词中,与字符数相对较少的主题词相比,将较大的分数赋予字符数相对较多的主题词;
所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、和以所述第1主题词中的第2个字符之后的字符为起始的第2主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
7.根据权利要求1所述的信息处理系统,其特征在于:还具备分数设定部以及单词提取部,
所述词典更新部将所述第1文档中的各主题词的出现次数记录至所述词典;
所述分数设定部参照所述词典,对以从作为自然语言处理对象的第2文档中读取的字符串中的各字符为起始的主题词进行确定,在以各字符为起始的主题词中,与所述出现次数相对较少的主题词相比,将较大的分数赋予所述出现次数相对较多的主题词;
所述单词提取部,根据以从所述第2文档读取的字符串中的处理对象位置为起始的第1主题词所被赋予的分数、和以所述第1主题词中的第2个字符之后的字符为起始的第2主题词所被赋予的分数的大小关系,将所述第1主题词作为单词进行提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社野村综合研究所,未经株式会社野村综合研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780084260.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通过笔感知式外壳程序捕获笔输入
- 下一篇:用于构造紧凑壁模型的系统和方法