[发明专利]确定与给定的词集相关的词有效
申请号: | 200910007161.2 | 申请日: | 2009-02-13 |
公开(公告)号: | CN101566997A | 公开(公告)日: | 2009-10-28 |
发明(设计)人: | 雅尼斯·拉布罗;B·托马斯·阿德勒;斯特吉奥斯·斯特吉奥;艾伯特·莱因哈德;大卫·马尔维特 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 黄纶伟 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 给定 相关 | ||
技术领域
本发明大体涉及词法(lexigraphical)分析,更具体地说,涉及确 定与给定的词集相关的词。
背景技术
本申请要求由Bo Adler等人于2008年2月13日提交的发明名称为 “Techniques and Architecture for Research Searching”的美国临时专利申请 61/028,233的优先权。
数据的语料库(corpus)可以保持大量信息,然而,找寻相关信息可 能很难。用户可以通过搜索查询来搜索信息。然而,在特定情况下,已 知的搜索技术可能还不够。
附图说明
图1示出了利用描述主题的统计分布对主题进行建模的系统的一个 实施例;
图2示出了可以与图1的系统一起使用的亲和度(affinity)模块的 一个实施例;
图3示出了记录基本亲和度的亲和度矩阵的一个示例;
图4示出了记录有向亲和度的亲和度矩阵的一个示例;
图5示出了记录平均亲和度的亲和度矩阵的一个示例;
图6示出了亲和度图的一个示例;
图7示出了可以与图1的系统一起使用的聚类模块的一个实施例;
图8示出了可以与图1的系统一起使用的本体(ontology)特征模块 的一个实施例;
图9示出了可以与图1的系统一起使用的标签模块的一个实施例;
图10示出了确定重要词条的方法的一个示例;
图11示出了确定与给定的词条集相关的词条的Taggr法的一个示 例;
图12A到12H示出了可用于进行搜索的图形用户界面(GUI)的 示例;以及
图13A到13E示出了可用于利用所选择的搜索结果来精炼搜索的 图形用户界面的示例。
具体实施方式
概述
在一个实施方式中,接收查询的初始词条集。对候选词条集进行初 始化。对以下操作执行预定次数的迭代:针对候选词条集的各候选词条 获取预定数量的临时词条,该预定数量的临时词条对于各候选词条具有 较高的差分亲和度;将各临时词条和相关联的较高差分亲和度放置到临 时词条集中,如果从多于一个候选词条中获得了临时词条,则临时词条 的差分亲和度与对于所述多于一个候选词条的差分亲和度相关;计算临 时词条集中的各临时词条的平均差分亲和度,该平均差分亲和度代表从 各临时词条到初始词条集中的每个词条的差分亲和度的平均值;从临时 集中移除具有不满足预定阈值的平均差分亲和度的一个或更多个词条; 以及将临时集中的具有较高差分亲和度的一个或更多个词条放到候选词 条集中。选择候选词条集中的一个或更多个词条。返回所选择的词条。
在一个实施方式中,针对文档的词条集中的各个词条确定词条频度- 逆文档频度(term frequency-inverse document frequency,TF-IDF)值。根 据TF-IDF值对词条进行排序以产生有序列表,具有最高TF-IDF值的第 一词条位于有序列表的顶部,具有最低TF-IDF值的第二词条位于该有序 列表的底部。对于有序列表中的各个连续词条计算连续词条的TF-IDF值 的差以产生多个差。计算该差的标准偏差。根据该标准偏差从有序列表 中移除一个或更多个词条,并且输出剩余的词条。
在一个实施方式中,启动图形用户界面的用户输入窗口的显示。接 收被输入到用户输入窗口以启动第一搜索的搜索词条。根据该搜索词条 来确定来自文档语料库的一个或更多个第一搜索结果。启动在图形用户 界面的当前搜索词条窗口处的搜索词条的显示。启动在图形用户界面的 搜索结果窗口处的第一搜索结果的显示。启动在图形用户界面的搜索建 议窗口处的第一搜索建议的显示。
示例实施方式
在具体实施方式中,领域本体(domain ontology)的创建及查询包 括以下步骤:
1、收集领域中的文档。在具体实施方式中,文档(document)是词 条(term)的集合。文档可包括可读文本,例如,一本《新约》。文档不 需要以描述形式来包括词,例如,文档可以包括一组单独和共同地描述 图像的内容的用户输入标签(tag)。文档的集合可称为“领域语料库 (domain corpus)”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910007161.2/2.html,转载请声明来源钻瓜专利网。