[发明专利]词汇表管理装置、词汇表管理系统和词汇表管理方法有效
申请号: | 201510607171.5 | 申请日: | 2015-09-22 |
公开(公告)号: | CN105468581B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 大林雄一;辻知佳;实克洋;中村刚;野村高志;高木淳平;吉田大辅 | 申请(专利权)人: | 京瓷办公信息系统株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;H04N1/00 |
代理公司: | 北京航忱知识产权代理事务所(普通合伙)11377 | 代理人: | 陈立航 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇表 管理 装置 系统 方法 | ||
1.一种词汇表管理装置,具备:
读取部和输出部中的至少一个,所述读取部对文档进行读取,所述输出部对所述文档进行输出;
存储部,可存储根据从所述文档中抽取出的字符串而构成的词汇表;
获得部,从所述文档中获得文本数据;
分析部,对记述所述获得部获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;
用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配;以及
注册部,在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中,
在抽取出的所述字符串是只由西文字母构成且是固有名词以外的第一字符串的情况下,
所述用语匹配部将所述第一字符串与所述公共词典进行匹配,
在所述第一字符串与所述公共词典的关键词不一致时,所述注册部将所述第一字符串注册到所述词汇表中,
在抽取出的所述字符串是只由西文字母构成且是固有名词的第二字符串的情况下,
所述用语匹配部不将所述第二字符串与所述公共词典进行匹配,
所述注册部将所述第二字符串注册到所述词汇表中。
2.根据权利要求1所述的词汇表管理装置,其特征在于,
所述获得部在受理公司内外区分的输入并且所受理的所述公司内外区分表示公司内部文档时,判断为所述文档是公司内部文档,从所述文档中获得文本数据。
3.根据权利要求2所述的词汇表管理装置,其特征在于,
所述分析部在所分析的所述字符串的所述词性是名词或动词时,对所述字符串进行抽取。
4.根据权利要求1所述的词汇表管理装置,其特征在于,
所述读取部是扫描仪,所述扫描仪将所述文档作为图像数据进行读取。
5.根据权利要求1所述的词汇表管理装置,其特征在于,
所述输出部对所述文档进行显示输出、打印输出或者发送输出。
6.根据权利要求1至权利要求5中的任意一项所述的词汇表管理装置,其特征在于,
所述注册部将所述字符串和位置信息注册到所述词汇表中,
所述位置信息表示所述字符串是从所述文档的何处抽取的。
7.一种词汇表管理系统,具备:
图像形成装置和信息处理装置,所述信息处理装置通过网络与所述图像形成装置进行通信,
所述图像形成装置具备:
处理部,对文档进行复印或者打印的处理;
收集部,从所述处理部处理的所述文档中,对要注册到根据从所述文档中抽取出的字符串而构成的词汇表中的字符串进行收集;以及
发送部,将所述收集部所收集的所述字符串发送给所述信息处理装置,
所述信息处理装置具备:
存储部,对所述词汇表进行存储;
接收部,对从所述信息处理装置发送来的所述字符串进行接收;以及
注册部,将所述接收部接收的所述字符串注册到所述词汇表中,
所述收集部具有:
获得部,从所述文档中获得文本数据;
分析部,对记述所述获得部获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;和
用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配,
在抽取出的所述字符串是只由西文字母构成且是固有名词以外的第一字符串的情况下,
所述用语匹配部将所述第一字符串与所述公共词典进行匹配,
在所述第一字符串与所述公共词典的关键词不一致时,所述收集部将所述第一字符串作为要注册到所述词汇表中的字符串进行收集,
在抽取出的所述字符串是只由西文字母构成且是固有名词的第二字符串的情况下,
所述用语匹配部不将所述第二字符串与所述公共词典进行匹配,
所述收集部将所述第二字符串作为要注册到所述词汇表中的字符串进行收集。
8.一种词汇表管理方法,包含如下步骤:
通过获得部,从文档中获得文本数据;
通过分析部,对记述所获得的所述文本数据的语言和构成所述文本数据的字符串的词性进行分析,并基于分析结果抽取所述字符串;
通过用语匹配部,将所述抽取出的字符串与注册了用语的公共词典进行匹配;以及
通过注册部,在所述抽取出的字符串与所述公共词典的关键词不一致时,将所述抽取出的字符串注册到所述词汇表中,
在抽取出的所述字符串是只由西文字母构成且是固有名词以外的第一字符串的情况下,
所述用语匹配部将所述第一字符串与所述公共词典进行匹配,
在所述第一字符串与所述公共词典的关键词不一致时,所述注册部将所述第一字符串注册到所述词汇表中,
在抽取出的所述字符串是只由西文字母构成且是固有名词的第二字符串的情况下,
所述用语匹配部不将所述第二字符串与所述公共词典进行匹配,
所述注册部将所述第二字符串注册到所述词汇表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京瓷办公信息系统株式会社,未经京瓷办公信息系统株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510607171.5/1.html,转载请声明来源钻瓜专利网。