[发明专利]文献资源主题聚类共现潜在语义向量空间模型语义核方法有效
申请号: | 201611095873.0 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106708969B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 牛奉高;张亚宇 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 14105 山西五维专利事务所(有限公司) | 代理人: | 郭海燕 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 向量空间模型 潜在语义 构建 聚类 语义向量空间 语义信息提取 文献资源 复杂度 预处理 词频统计 矩阵使用 聚类算法 文献数据 核函数 权重 维度 应用 | ||
本发明属于语义向量空间模型语义核方法技术领域,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。本发明主要解决目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题。本发明文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:第一步文献数据的预处理;第二步所提取的关键词进行词频统计,以备后续建立共现矩阵使用;第三步以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步共现潜在语义向量空间模型的构建;第五步语义核函数的构建;第六步文献聚类。
技术领域
本发明属于语义向量空间模型语义核方法技术领域,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。
背景技术
大数据时代给我们带来大量的非结构化的文本资源,聚类作为一种无监督的机器学习方法是实现文本资源挖掘的主要手段之一。文本聚类不同于一般的数据聚类,其先要将文本信息进行数据化结构表示。文本表示的基本模型是向量空间模型(VSM),它将每篇文档映射成文本空间中的一个高维稀疏的向量,因此在进行文本聚类时文本之间语义的相似度计算问题便可以转化为向量空间中的向量的计算,即:通过计算向量之间的相似性来度量文本间的相似性进而实现文本聚类。然而,由于VSM忽视了词与词之间的语义关系,导致文本相似性的计算不准确。广义向量空间模型(GVSM)的提出挖掘了词与词之间的共现信息,提高了文本相似度计算的准确性,但是仍不能改变文本表示向量中语义信息提取不充分的问题。因此,此后的研究主要是基于VSM或GVSM模型,通过本体或语料库等背景知识来构建语义向量空间模型(SVSM)实现文献相似性的计算。然而,通用的本体建设成本较高,且领域知识尚不完善。
语义核作为核函数的一种其概念最早由Siolas G提出,并将其作为支持向量机方法中的基础核用于文本挖掘。一直以来语义核函数的研究主要分为两类:一类的研究主要是通过WordNet、Wikipedia和HowNet等大型的本体作为知识背景来抽取特征词与特征词之间的语义关系实现语义核函数的构建,然而,本体知识构建复杂度大且领域知识尚不完善;另一类研究则是基于统计学方法,通过挖掘特征词之间的潜在概念来构建语义核,现有的应用于文本资源聚类的语义核函数的研究中大都基于基本向量空间模型和广义向量空间模型构建,语义信息提取不够充分,聚类效果较差。
发明内容
本发明主要针对目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题,提供一种文本资源主题聚类共现潜在语义向量空间模型语义核方法。
本发明为解决上述问题而采取的技术方案为:
文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:
第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;
第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;
第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:
dl=(al1,al2,...,alm)T∈Rm,l=1,2,…,n.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611095873.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:软件异常检测方法及装置
- 下一篇:一种煤矿高压电网短路电流并行计算方法