[发明专利]关键字提取系统及采用该系统的文本检索系统有效
申请号: | 98115909.5 | 申请日: | 1998-07-02 |
公开(公告)号: | CN1206158A | 公开(公告)日: | 1999-01-27 |
发明(设计)人: | 佐藤光弘;野口直彦;菅野祐司;野本昌子;稻叶光昭;福重贵雄 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/21 |
代理公司: | 上海专利商标事务所 | 代理人: | 张政权 |
地址: | 日本国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键字 提取 系统 采用 文本 检索系统 | ||
1.一种在文本检索系统中帮助用户搜索文本库的方法,所述文本检索系统的功能包括接收查询请求和返回所检索文本的文本ID目录;其特征在于所述方法包括:
为构成文本库的每个文本管理与用于每个所述文本的单字、组合单字和句子有关的局部统计信息;
管理与构成文本库的任何文本中所用单字有关的总统计信息;
用户从文本库中选择至少一个文本,以提供具有所选文本之文本ID的所选文本目录;
利用对所选文本的局部统计信息和总统计信息,为所选文本中包含的每个单字计算重要度;
按照重要度顺序对所选文本中包含的单字排序;
显示预定数量的已排序的单字作为相关关键字;以及
利用相关关键字帮助用户进入查询请求。
2.如权利要求1所述的方法,其特征在于,所述管理局部统计信息的步骤,包括在所述局部统计信息中包括每个所述文本中所用每个单字的单字ID,以及与所述单字ID有关的单字出现计数,所述单字出现计数表示每个所述文本中所用每个所述单字的出现数;
其中,所述管理总统计信息的步骤包括这样的步骤,即在所述总统计信息中,包括在构成所述文本库的任一所述文本中所用每个单字的单字ID、总的单词出现计数、以及与任何所述文本中所用每个单字的单字ID有关的包含文本计数,所述总单字出现计数表示在构成所述文本库的所有文本中出现的总数,所述包含文本计数表示含有任何所述文本中所用每个单字的文本数,以及
所述方法进一步包括这样的步骤,即限定所述重要度,由此使所述重要度与为所选文本所取的所述单字出现计数的总数、所选文本数以及为所选文本中包含的每个单字所限定的量成正比,如此,当每个单字出现在构成所述文本库的多个文本中时,所述量变得更小。
3.如权利要求2所述的方法,其特征在于所述限定所述重要度的步骤包括用下式表示所述重要度的步骤:
其中,Wj为所述检索文本中所含每个单字之单字ID,C为常数,WOr(Wj)为每个所检索文本RTr中的每个单字Wj的单词出现计数,RCT(Wj)为所检索文本数,它包含每个单字Wj,且IDF(Wj)为所述的量,RTr为每个检索文本的文本ID,r=1,2,…,R(R=所选文本数)。
4.如权利要求1所述的方法,其特征在于所述用户选择至少一个文本的步骤包括如下步骤:
所述用户利用其慎重考虑后产生的检索条件提供查询请求,以获得所检索文本的目录;以及
所述用户从所述检索文本中选择所述至少一个文本。
5.如权利要求1所述的方法,其特征在于包括如下步骤:
所述用户提出进一步的查询请求以获得较小目录作为所述目录的子集;
利用与所述目录中列出的检索文本中所用单字有关的统计信息以及与所述较小目录中列出的文本中所含单字有关的统计信息,为所述检索文本中所含每个单字计算分配指数,所述分配指数如此定义,如果所选文本中所含每个单字分配于所述较小目录中列出的较多文本中而分配于较少所选文本中,则所述指数变得较大;以及
用所述分配指数对所述重要度加权。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98115909.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有系统相关自适应延迟的多媒体通信
- 下一篇:投影式显示装置及其照射光学系统