[发明专利]一种构建文档-关键词异构网络模型方法在审

申请号：	201910904571.0	申请日：	2019-09-24
公开（公告）号：	CN110717042A	公开（公告）日：	2020-01-21
发明（设计）人：	段大高;闫光宇;韩忠明;杨伟杰;尹丹琪	申请（专利权）人：	北京工商大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F40/30
代理公司：	11335 北京汇信合知识产权代理有限公司	代理人：	张焕响
地址：	100037***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	构建文档异构网络文本结构化语料库权重停用语料保存词语词频文本特征提取关键词处理结构化形式处理算法后端处理文本聚类文本文档互信息停用词单词转换应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种构建文档-关键词异构网络模型方法，其特征在于：包括如下步骤：

1)获取文本语料作为语料库；

2)获取停用词语料；

3)用获取的停用词语料对获取的文本语料进行去停用词处理，得到经过去停用词处理后的单词；

4)计算和保存步骤3)中得到的单词的词频，所述词频定义为某个单词在某一篇文章中出现的次数，取词频大于等于N的单词作为关键词，所述N为本发明预定义的一个固定的整数值，其数值大于1；

5)计算和保存关键词间互信息PMI(i,j)，如下述公式所示：

其中，i和j是步骤4)中作为关键词的单词，#W(i)是语料库中包含单词i的文档的数量，#W(i,j)是同时包含单词i和j的文档的数量，#W是语料库中文档的总数量；

6)计算和保存文档-词的权重TF-IDF，如下述公式所示：

TF-IDF＝tf(t,D_i)×idf(t)

其中,tf(t,D_i)为单词t在第i篇文档中的词频，M为文档的总数，n_t为文档集中出现单词t的文档数量，IDF表示倒文本频率，倒文本频率是文本频率的倒数，所述文本频率是指某个关键词在整个语料所有文章中出现的次数；

7)构建文档-词异构网络。

2.根据权利要求1所述的构建文档-关键词异构网络模型方法，其特征在于，步骤7)具体过程为：把每个文档作为网络中的一个节点，每个关键词也作为一个节点，然后构建不同节点之间的边，节点i和节点j之间边的边缘权重A_ij，用如下公式计算得到：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工商大学，未经北京工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910904571.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载