[发明专利]文档检索系统及文档检索方法有效
申请号: | 200810005866.6 | 申请日: | 2008-02-15 |
公开(公告)号: | CN101295307A | 公开(公告)日: | 2008-10-29 |
发明(设计)人: | 大井洋子;丹羽芳树;小原清弘 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 曲瑞 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 检索系统 检索 方法 | ||
技术领域
本发明涉及一种文档检索系统及文档检索方法,涉及包含数值数据的文档的检索系统及检索方法。
背景技术
随着文档信息的电子化,从大量的信息中高效率地找出用户需要的信息成为重要的问题。信息检索技术是用于解决这种问题的技术,因特网的检索引擎应用信息检索技术,如果用户输入检索请求,则从大量的文档信息中检索与输入相关联的信息,并按关联度顺序显示。
另外,在特开2000-155758号公报“将多个文档数据库作为对象的文档检索方法及文档检索服务”中公开了被称为文档联想检索的方法,在该方法中,作为检索请求,将文档群作为输入,检索相同文档数据库内的相关联的文档群。在文档联想检索中,采取如下方法:将文档分解成单词(或字符串),生成某文档中某个单词出现几次的单词出现频度的矢量,根据输入文档与文档数据库内的文档的矢量间的相似度(非专利文献1“语言表现的矢量空间模型中的最佳计量距离”)、或基于概率模型的文档间的相似度(参照特开平9-62693号公报“基于概率模型的文档分类方法”),检索相似文档。
专利文献1:特开2000-155758号公报
专利文献2:特开2004-178490号公报
专利文献3:特开平9-62693号公报
非专利文献1:语言表现的矢量空间模型中的最佳计量距离,持桥大地等、电子信息通信学会论文志“信息·系统:D-II”,J88-D-II,No.4,pp.747-756,April,2005
非专利文献2:以数值信息作为关键词从报纸报道中提取信息,齐藤公一等,自然语言处理研究会报告,1998-NL-125,信息处理学会,1998
发明内容
发明所要解决的技术问题
在文档联想检索中,在文档中包含数值数据(例如实测值数据)的情况下,数值数据作为1个单词来计算出现频度,计算相似度。可是,对于数值,有时想将相近的数值作为同一词处理。作为例子,在利用电子病历或排序系统等医疗信息系统的现场,医师或药剂师想检索与某患者的状态相似的患者的信息。
在这种情况下,参照电子病历的经过记录(在记载了初始记录后,按照经过来输入患者的叙述或诊察所见、检查结果、医师的推论或判断结果治疗方针等)等的记述,搜索症状相似的患者。在经过记录的文档中,还记载检查值等为了表现患者的症状而具有重要含义的数值数据。因此,将经过记录等文档分解成单词,生成出现频度矢量,搜索与某患者的文档的出现频度矢量相似的文档,进行相似患者的信息的联想检索。但是,在“血糖值124mg/dl”、“血糖值125mg/dl”、“血糖值180mg/dl”中,前2个数值意味着中度血糖值,作为症状相似,而与意味着高血糖的后者的症状不同,但由于不考虑具有重要含义的数值数据的相似度,所以作为同一相似度检索,从而检索精度降低。
另外,在病历上记载症状所见时,有时同时使用表现症状的标准用语·代码和数值(例如,对于大小,同时使用“米粒大”和“3mm至4mm左右的数值”)。若根据以标准用语·代码或数值中的任何一方记载的文档进行联想检索,则以另一方的表述记载的文档不作为检索对象,所以同样产生检索精度的降低。
解决技术问题的技术方案
因此,在本发明中,对于属性A的数值的集合D,生成包含D的全部要素的数值区间的集合E,通过使在区间内包含D的要素x的区间对应1,使不包含的区间对应0,对文档中的数值附加索引。在包含多个属性的数值的情况下,生成针对各个属性的数值的数值区间集合,对数值附加索引。文本部分使用单词的频度、数值部分使用上述数值的索引附加方法,来对包含数值的文档数据附加索引。使用文档数据的索引,计算基于矢量空间法或概率模型的文档数据间的相似度,从相似度高的文档数据开始按顺序提示。
作为相似度的计算方法的例子,列举基于矢量空间法的例子。首先,以多维矢量表现文档。
[式1]
x=(x1,x2,…,xl)
文档矢量的各要素既有某单词是否在该文档中出现的2值的情况,也有某单词在该文档中出现几次的出现频度的情况,还有通过适当的方法(TF-IDF等)加权后的实数值的情况。
使用两个文档矢量X1和X2的余弦距离,作为两个文档的相似度。
[式2]
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810005866.6/2.html,转载请声明来源钻瓜专利网。