[发明专利]用于关键字提取的方法无效
申请号: | 201080066155.5 | 申请日: | 2010-04-14 |
公开(公告)号: | CN103038764A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 杨胜文;熊宇红;刘伟 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 马永利;李浩 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 关键字 提取 方法 | ||
1. 一种计算机实施的提取关键字的方法,包括:
获得文档全集;
确定作为关键字出现在存在于所述文档全集中的文档中的第一字集合;
确定出现在所述文档全集中但是不一定作为关键字出现在所述文档中的第二字集合;以及
通过组合第一字集合与第二字集合来确定所述文档的最终关键字集合。
2. 根据权利要求1所述的方法,其中,确定作为关键字出现在文档中的第一字集合的所述步骤包括:
学习关于所述文档全集的统计话题模型;
关于所述文档,根据所述统计话题模型来推断话题关于所述文档的多项式分布,以确定所述文档的主要话题;
确定话题关于所述文档中的字的后验分布以将话题指派给所述文档中的字,从而产生以三元组的形式的加标记的字的集合;
通过利用名词短语分块方法从所述文档中提取名词短语;
根据利用所述主要话题进行标记的字的出现率,对所述名词短语进行评分;
按照降序对所述名词短语进行排序;以及
将具有最高得分的靠前名词短语输出为作为所述文档的关键字出现的第一字集合。
3. 根据权利要求2所述的方法,在所述学习步骤之前还包括预处理步骤,所述预处理步骤包括:
去除无用字;
字干处理;以及
将所述文档全集变换成字与文档的矩阵。
4. 根据权利要求2所述的方法,其中,所述统计话题模型由字关于话题的多项式分布集合来表示,并且可选地由话题关于所述文档全集的多项式分布集合来表示。
5. 根据权利要求2所述的方法,其中,通过概率潜在语义分析(PLSA)或潜在狄利克雷分配(LDA)统计话题建模方法来学习所述统计话题模型。
6. 根据权利要求2所述的方法,其中,确定所述文档的主要话题包括:选择具有最大概率的话题。
7. 根据权利要求2所述的方法,其中,以三元组的形式的所述加标记的字的集合被表示为<字,话题,概率>。
8. 根据权利要求2所述的方法,在所述评分步骤之前还包括用于过滤前置冠词的预处理步骤。
9. 根据权利要求1所述的方法,其中,确定出现在所述文档全集中的第二字集合的所述步骤包括:
学习关于所述文档全集的统计话题模型;
对于所述全集中的每个文档,确定话题关于字的后验分布以将话题指派给字,从而产生以三元组的形式的加标记的字的集合;
对于所述全集中的每个文档,通过利用名词短语分块方法从所述文档中提取名词短语;
通过根据所述三元组将每个字与话题和权重相关联来为每个提取的名词短语加标记;以及
将加标记的名词短语输出到储存库中。
10. 根据权利要求9所述的方法,还包括:从所述储存库中读出加标记的名词短语并且利用索引引擎对所述名词短语编制索引。
11. 根据权利要求10所述的方法,还包括:
对于所述文档的主要话题,通过按照布尔逻辑级联所述文档的主要话题来构造串查询;以及
将所述串查询提交到所述索引引擎,从而产生经匹配的名词短语的已排序列表,其中靠前的名词短语是出现在所述文档全集中的第二字集合。
12. 根据权利要求1所述的方法,其中,所述文档全集是从储存库获得的。
13. 一种系统,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括用于执行下列操作的指令:
获得文档全集;
确定作为关键字出现在存在于所述文档全集中的文档中的第一字集合;
确定出现在所述文档全集中但是不一定作为关键字出现在所述文档中的第二字集合;以及
通过组合第一字集合与第二字集合来确定所述文档的最终关键字集合。
14. 一种包括计算机程序装置的计算机程序,当所述程序在计算机上运行时,所述计算机程序装置适于执行权利要求1的所有步骤。
15. 根据权利要求14所述的计算机程序,其被具体实现在计算机可读介质上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080066155.5/1.html,转载请声明来源钻瓜专利网。