[发明专利]一种检测文章与关键词关联程度的方法有效
申请号: | 201510211370.4 | 申请日: | 2015-04-29 |
公开(公告)号: | CN104965817A | 公开(公告)日: | 2015-10-07 |
发明(设计)人: | 蒋大可;何俊;莫燕峰 | 申请(专利权)人: | 湖北光谷天下传媒股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉天力专利事务所 42208 | 代理人: | 冯卫平 |
地址: | 430077 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种文字处理方法,特别是一种检测文章与关键词关联程度的方法,通过本方法对待检文章进行检测,可以得出一个量化的关联程度得分,通过这个分数,我们可以明确的看出,文章与关键词的关联程度,从而判断文章与事件的关联程度及其是否存在违法、违规的内容。 | ||
搜索关键词: | 一种 检测 文章 关键词 关联 程度 方法 | ||
【主权项】:
一种检测文章与关键词关联程度的方法,其特征在于:包括以下步骤:1.1.将从网络上获取的帖子、文章发送到至系统,系统将每篇文章、帖子所有内容包括标点符号全部转换成中文,并且将文档第一个全角句号之前的内容识别为文章的标题;1.2.采用ICTCLAS系统对已转换成中文的文章、帖子的内容标注词性;1.3.将没有特性的词语全部删除,保留有特性的词语并将这些词语合并成一行;1.4.将文章、帖子的标题、段首、段中、段尾、用空格分离;1.5.将每个的词语、词性、出现的次数、出现的位置(标题、段首、段尾)进行标注、存储;1.6.将ISCTCLAS系统的同义词词林导入至数据库中,来检索分词出来的关键词以及同义词,针对其进行危险等级标注为1~10级并存储,其中1‑3级为安全,4‑6级为危险,7级以上为高危;1.7.根据导入数据库中的词语,计算标注过的词语与词林导出的词语之间的相似度,将标注过的词语与同义词词林导入至数据库中的词语设定一个数字的相似距离,初始为‑10,相同的词语相似距离为0,针对每个词语做比较,如果有同义词或者同性词,会对标注过的词语增加其相似距离,从而计算出每个标注过的词语的相似度;1.8.计算标注过的词语与词林导出的词语之间的居间度将顶点Vi的居间度bci定义为:
此处n表示顶点的个数,gmk是顶点m和k之间的最短路径的个数,gmk(Vi)是顶点m和k之间的最短路径中经过顶点Vi的条数;1.9.计算关键词的总得分,总得分=危险等级总和/(危险次数+相似度+居间度),得分最高的K个为最终的关键词,将结果保存至历史归档信息里以供分析和判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北光谷天下传媒股份有限公司,未经湖北光谷天下传媒股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510211370.4/,转载请声明来源钻瓜专利网。
- 上一篇:基于浏览器的检索方法及检索装置
- 下一篇:一种终端