[发明专利]一种基于互联网服务单词语义权重的文本主题挖掘方法在审

专利信息
申请号: 202110096343.2 申请日: 2021-01-25
公开(公告)号: CN112836489A 公开(公告)日: 2021-05-25
发明(设计)人: 陆佳炜;赵伟;郑嘉弘;徐俊;张元鸣;肖刚 申请(专利权)人: 浙江工业大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/30;G06F40/284
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互联网 服务 单词 语义 权重 文本 主题 挖掘 方法
【权利要求书】:

1.一种基于互联网服务单词语义权重的文本主题挖掘方法,其特征在于,所述方法包括以下步骤:

第一步:使用Python中的自然语言工具包,对Mashup服务描述文档进行中的单词进行词性标注,步骤如下:

1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;

1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;

1.3重复步骤1.1直至处理完所有Mashup服务;

第二步:统计单词词频信息,计算TF-IDF信息,步骤如下:

2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:

其中,TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;

2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:

IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;

2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值,计算公式如下:

TF-IDF(x)=rF(x)*IDF(x)

TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值;

第三步:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重,步骤如下:

3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContext(wx),计算公式如下:

其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度,WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;

3.2计算单词的服务标签语义权重信息WeightTag(wx),计算公式如下:

其中Taga表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;

3.3基于TF-IDF值,并结合3.1和3.2中的计算结果,重新计算单词的语义权重,得到文档-单词语义权重矩阵D;

第四步:通过NMF模型求解Mashup主题特征,步骤如下:

4.1通过由3.3中给定的文档-单词语义权重矩阵D,将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的函数表示为:

subject to:θ≥0 and Z≥0,θ∈RNxK,Z∈RVxK

其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置,NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;

4.2将4.1中函数通过矩阵迹运算展开得到以下函数:

J(θ,Z)=Tr((D-θZT)(D-θZT)T)

进一步运算得到以下公式

J(θ,Z)=Tr(DDT-2DZθT+θZTT)

Tr表示矩阵求迹,根据正则化约束得到以下目标函数:

L=J(θ,Z)+Tr(aθT)+Tr(βZT)

其中α,β为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:

令α⊙θ=0,β⊙Z=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:

-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0

-(DTθ)⊙Z+(ZθTZ)⊙Z+β⊙Z=0

进一步更新参数:

通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z。

2.如权利要求1所述的一种基于互联网服务单词语义权重的文本主题挖掘方法,其特征在于,所述3.3的过程如下:

3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中

3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:

SemWeight(wx)=TF-IDF(wx)

3.3.3重复3.3.1-3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110096343.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top