[发明专利]关键词的确定方法及系统、权值向量的学习方法及系统无效
申请号: | 200910080611.0 | 申请日: | 2009-03-20 |
公开(公告)号: | CN101504667A | 公开(公告)日: | 2009-08-12 |
发明(设计)人: | 刘文硕 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 龙 洪;霍育栋 |
地址: | 102218北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 确定 方法 系统 向量 学习方法 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及一种关键词的确定方法及系统和一种权值向量的学习方法及系统。
背景技术
关键词用于表达文本资料的主题内容,可以辅助信息的分类和检索。关键词提取是自然语言处理领域内的传统话题,已经被广泛研究。在应用中,关键词是从文本资料的标题、摘要或全文中抽选出来的,具有实际意义的自然语言词汇,作为信息存贮和检索依据的一种检索语言。例如,各大搜索引擎和网络数据库除了提供分类检索外,几乎都提供关键词检索法。
现有技术主要集中使用一些经典的机器学习思想,例如贝叶斯分类器,支持向量机(SVM),决策树等等。这些方法虽然有效,但是由于算法的复杂度较高,导致其时间效率并不突出,在一些针对大规模数据的应用中,可行性并不高。
因此有必要提供针对大规模数据应用的关键词提取技术,以解决当前使用经典的机器学习思想提取关键词时针对大规模应用可行性不高的问题。
发明内容
本发明所要解决的技术问题是在于需要提供一种关键词的确定方法及系统,以及权值向量的学习方法及系统,可以应用于大规模数据应用的关键词提取。
为了解决上述技术问题,本发明提供了一种关键词的确定方法,该方法包括:
确定一目标领域;
通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域内的候选关键词的集合;
通过整理多个领域中的若干文本资料,获得一通用语料库;
结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;
设置一与所述特征向量同维的权值向量;
利用所述目标语料库及特征向量,对所述权值向量进行学习;
对所述目标领域中一欲要确定关键词的目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词;及
获得所述目标文本各候选关键词的特征向量,结合学习后的权值向量,确定所述目标文本的关键词。
如上所述的方法中,获得所述目标语料库的步骤,可以包括:
人工标注所述若干文本资料的关键词,并对所述若干文本资料进行停用词过滤;人工标注的关键词及停用词过滤后的实意词,合为所述目标语料库。
进一步地,对所述权值向量进行学习的步骤,可以包括:
把所述目标语料库中人工标注的关键词作为正样例,其余候选关键词作为负样例,对于所述特征向量中的每个特征,通过该特征区分所述正样例与负样例的区分度来调整权值,完成对所述权值向量的学习。
如上所述的方法中,确定所述目标文本的关键词的步骤,可以包括:
将所述目标文本各候选关键词的特征向量与学习后的权值向量进行内积,得到各候选关键词的内积结果;
将内积结果作为对应候选关键词的得分,根据所述得分对所述个候选关键词进行排序;及
根据所述排序确定所述目标文本的关键词。
如上所述的方法中,所述特征向量中的特征,可以包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
为了解决上述技术问题,本发明还提供了一种关键词的确定系统,该系统包括:
领域确定模块,用于确定一目标领域;
语料设置模块,与所述领域确定模块相连,用于获取该目标领域中的若干文本资料,以及多个领域中的若干文本资料;还用于将该目标领域中的若干文本资料及该多个领域中的若干文本资料分别整理成一目标语料库及一通用语料库;其中所述目标语料库为所述目标领域的候选关键词的集合;
特征向量设置及计算模块,与所述语料设置模块相连,用于结合所述通用语料库,为所述目标语料库中的各候选关键词设置并计算特征向量;
权值向量设置模块,与所述特征向量设置及计算模块相连,用于设置一与所述特征向量同维的权值向量;
权值向量学习模块,与所述语料设置模块、特征向量设置及计算模块及权值向量设置模块相连,用于利用所述目标语料库及特征向量,对所述权值向量进行学习;
预处理模块,与所述特征向量设置及计算模块相连,用于接收所述目标领域中一欲要确定关键词的目标文本,对所述目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词,获得所述目标文本各候选关键词的特征向量;及
关键词确定模块,与所述预处理模块及权值向量学习模块相连,用于利用所述目标文本各候选关键词的特征向量及学习后的权值向量,确定所述目标文本的关键词。
如上所述的系统中,所述语料设置模块,可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910080611.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:整合互动式健康管理系统
- 下一篇:一种RFID硬件中间件的过滤方法模型