[发明专利]一种检测文章与关键词关联程度的方法有效
申请号: | 201510211370.4 | 申请日: | 2015-04-29 |
公开(公告)号: | CN104965817A | 公开(公告)日: | 2015-10-07 |
发明(设计)人: | 蒋大可;何俊;莫燕峰 | 申请(专利权)人: | 湖北光谷天下传媒股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 冯卫平 |
地址: | 430077 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 文章 关键词 关联 程度 方法 | ||
1.一种检测文章与关键词关联程度的方法,其特征在于:包括以下步骤:
1.1.将从网络上获取的帖子、文章发送到至系统,系统将每篇文章、帖子所有内容包括标点符号全部转换成中文,并且将文档第一个全角句号之前的内容识别为文章的标题;
1.2.采用ICTCLAS系统对已转换成中文的文章、帖子的内容标注词性;
1.3.将没有特性的词语全部删除,保留有特性的词语并将这些词语合并成一行;
1.4.将文章、帖子的标题、段首、段中、段尾、用空格分离;
1.5.将每个的词语、词性、出现的次数、出现的位置(标题、段首、段尾)进行标注、存储;
1.6.将ISCTCLAS系统的同义词词林导入至数据库中,来检索分词出来的关键词以及同义词,针对其进行危险等级标注为1~10级并存储,其中1-3级为安全,4-6级为危险,7级以上为高危;
1.7.根据导入数据库中的词语,计算标注过的词语与词林导出的词语之间的相似度,将标注过的词语与同义词词林导入至数据库中的词语设定一个数字的相似距离,初始为-10,相同的词语相似距离为0,针对每个词语做比较,如果有同义词或者同性词,会对标注过的词语增加其相似距离,从而计算出每个标注过的词语的相似度;
1.8.计算标注过的词语与词林导出的词语之间的居间度
将顶点Vi的居间度bci定义为:
此处n表示顶点的个数,gmk是顶点m和k之间的最短路径的个数,gmk(Vi)是顶点m和k之间的最短路径中经过顶点Vi的条数;
1.9.计算关键词的总得分,总得分=危险等级总和/(危险次数+相似度+居间度),得分最高的K个为最终的关键词,将结果保存至历史归档信息里以供分析和判断。
2.根据权利要求1所述的一种检测文章与关键词关联程度的方法,其特征在于:步骤1.6中所述的ISCTCLAS系统是汉语词法分析系统。
3.根据权利要求1所述的一种检测文章与关键词关联程度的方法,其特征在于:步骤1.8中对于对于无向图可以通过如图2所示的矩阵表示,赋予无向图的终点数值为1.0,而其之前的一个节点,平分这个值,依次类推,这样可以通过系统,计算出每个从终点到指定关键词所有节点的最短距离,从而得出词语之间的居间度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北光谷天下传媒股份有限公司,未经湖北光谷天下传媒股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510211370.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于浏览器的检索方法及检索装置
- 下一篇:一种终端