[发明专利]同义词辞典制作装置、同义词辞典制作程序以及同义词辞典制作方法在审
申请号: | 201880055753.9 | 申请日: | 2018-06-29 |
公开(公告)号: | CN111052123A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 吉田明子;粕渊清孝;吉和隆夫;山下义男 | 申请(专利权)人: | 株式会社斯库林集团 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F16/332 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 宋晓宝;陈林 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义词 辞典 制作 装置 程序 以及 制作方法 | ||
进行具有高精度的同义词判断而从文本中自动地生成同义词辞典。对文本进行词素分析,而将文本分割为多个单词,获得词素分析完毕文本。对词素分析完毕文本进行主题分类,从多个单词中选择属于各主题的至少一个主题词,从至少一个主题词中提取附带有各主题的特征的基准词。对多个单词进行多维向量化,而获得分别表现多个单词的多个向量。从多个单词中选择至少一个类似词。以使表现基准词的向量与表现至少一个类似词的各类似词的向量之间的类似度高于设定的基准的方式,选择至少一个类似词。制作登记有至少一个类似词的至少一部分的同义词辞典。
技术领域
本发明涉及制作同义词辞典的同义词辞典制作装置、同义词辞典制作程序以及同义词辞典制作方法。
背景技术
同义词辞典用于在进行对文书的检索、文书的分析等的情况下吸收记载偏差。
在同义词辞典的制作中,求出从文本中收集的多个单词之间的类似性,使用类似性而进行同义词判断,制作登记有根据同义词判断而被判断为同义词的单词的同义词辞典。同义词判断有根据在对文书的检索、文书的分析等中的单词的使用的履历而进行判断的情况,也有根据文章脉络、记载、读法、词类等单词的属性而进行判断的情况。专利文献1所记载的技术为前者的例,专利文献2所记载的技术为后者的例。
在专利文献1所记载的技术中,根据由同一使用者所进行的检索的时间间隔而制作定义单词彼此的关联度的间隔关联度辞典,根据各检索词的使用频率的时间序列的相关系数而制作定义单词彼此的关联度的时间序列关联度辞典,使用间隔关联度辞典及时间序列关联度辞典而将同义词群组化,从而制作同义词辞典(段落0012、0014及0033)。
在专利文献2所记载的技术中,取得基准词汇,使用文章脉络、记载、读法及词类的类似性而求出关于基准词汇及关联词汇的同义指标,根据同义指标的大小而判断关联词汇是否为基准词汇的同义词,从而输出同义词辞典(段落0013、0018及0022)。
现有技术文献
专利文献
专利文献1:日本专利特开平11-312168号公报
专利文献2:日本专利特开2013-16011号公报
发明内容
发明所要解决的问题
在已知的同义词辞典的制作中,存在下述问题:无法进行具有高精度的同义词判断、存在有无法制作同义词辞典的情况、对于同义词辞典的制作需要大量的时间等。
例如,在专利文献1所记载的技术中,在不存在过去的检索履历的情况下,无法进行具有高精度的同义词判断,或无法制作同义词辞典。
在专利文献2所记载的技术中,因为必须取得基准词汇,因此在基准词汇的取得上需要时间,对于同义词辞典的输出则需要大量的时间。此外,会产生被包含在文本且应被包含在同义词辞典的单词却未被包含在同义词辞典的遗漏,每当发生遗漏时则需要重复执行维护,而对同义词辞典的制作则需要大量的时间。并且,在存在有专门用语等的读法及词类未被登记的词汇的情况、存在有读法及词类互不相同的同义词的情况等,则无法进行具有高精度的同义词判断。
本发明是为了解决上述课题而完成。本发明想要解决的课题在于提供进行具有高精度的同义词判断而从文本自动地生成同义词辞典的同义词辞典制作装置、同义词辞典制作方法及同义词辞典制作程序。
解决问题的技术方案
本发明针对同义词辞典制作装置、同义词辞典制作程序及同义词辞典制作方法。
在同义词辞典的制作中,对文本进行词素分析(morphological analysis),将文本分割为多个单词,而获得词素分析完毕文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社斯库林集团,未经株式会社斯库林集团许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880055753.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光引发剂改性的多元酸聚合物
- 下一篇:搭载核酸的单元型聚离子复合物