[发明专利]一种Markdown特征感知的无监督关键词提取方法有效

专利信息
申请号: 202010316221.5 申请日: 2020-04-21
公开(公告)号: CN111680505B 公开(公告)日: 2023-08-08
发明(设计)人: 杨凌锋;赵慧;华丽萍 申请(专利权)人: 华东师范大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30
代理公司: 上海德禾翰通律师事务所 31319 代理人: 陈艳娟
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 markdown 特征 感知 监督 关键词 提取 方法
【说明书】:

发明提供一种Markdown特征感知的无监督关键词提取方法,其包括:利用Markdown丰富的语义描述的特点提取出一种新的文本特征MD‑Feature(Markdown feature),帮助提升Markdown格式的博客文章关键词提取准确率;并使用MD‑Feature在TF‑IDF算法和TextRank算法的基础上提出改进算法MD‑TFIDF(Markdown feature aware TF‑IDF)和MD‑TextRank(Markdown feature aware TextRank);结合MD‑TFIDF算法和MD‑TextRank算法,提出一种Markdown特征感知的关键词提取算法‑‑MDKE,帮助解决针对Markdown格式的博客文章关键词提取问题。采用本发明方法,能提高关键词提取准确率,满足针对Markdown格式的博客文章个性化需求。

技术领域

本发明涉及关键词提取技术领域,尤其涉及一种Markdown特征感知的无监督关键词提取方法,特别是针对Markdown格式的博客文章的关键词提取。

背景技术

随着信息技术的进步和互联网技术的发展,人们逐渐从信息匮乏的时代进入信息多元化时代,甚至进入信息过载(information overload)的时代。以中国较为活跃的互联网IT技术交流社区——掘金网为例,这是一个集成化的技术与知识传播和共享服务平台,技术爱好者和从业人员可以在技术社区中发表博客或者帖子来记录和分享自己对于某一技术的经验或看法,可以浏览或者收藏自己感兴趣的技术文章,可以去关注某位技术大牛的动态,还可以参与到相关技术话题的讨论中去。技术爱好者和从业人员每天都会产生大量的技术文章,以及浏览、收藏、评论、点赞等行为。随着数据越来越多,无论是技术文章的消费者还是技术文章的产出者都面临着巨大的挑战:作为技术文章的消费者,如何从海量的技术文章中找到自己感兴趣的技术文章成为一件非常困难的事情;而作为技术文章的产出者,如何将自己产出的技术文章传播的更广,收到更多人的关注,也成了一件十分困难的事情。推荐系统就是在信息过载环境下为用户有效筛选信息的有效解决方案,即通过用户兴趣和爱好自适应地为用户提供满足用户需求的信息。

而关键词抽取作为文本挖掘中的重要技术,是推荐系统的基础性和必要性工作,能有效帮助解决信息过载问题。

常见的无监督关键词提取方法大多是基于主题模型的关键词提取、基于TF-IDF词频统计的关键词提取和基于TextRank算法的关键词提取。基于主题模型的关键词提取算法是通过文档和单词主题分布的相似性来计算单词的重要性,由于该类方法通常需要从语料中训练得到主题分布信息,因此,该类方法提取的关键词质量受训练语料主题分布的影响很大。基于TF-IDF词频统计的关键词提取算法是一种常用的关键词提算法,主要通过计算词频和词的逆文档频率来判断词对文章的重要性,该类方法过于依赖词的统计特征,而忽略了语义、上下文等特征。基于TextRank算法的关键词提取算法是一种基于图的关键词提取算法,利用局部词汇之间的关系(例如,共现窗口关系)构建词图进而对文中的词进行排序,然而该类方法单词的权重往往没有实际意义仅与共现关系有关,缺少了对上下文的理解。

IT技术社区中的博文多数以Markdown格式保存。Markdown是一种轻量级标记语言,允许人们使用一些预定义的符号编写文档。Markdown格式的文本不同于传统文本,文本中出现的一些特殊符号拥有特殊的语义。例如“#”在纯文本中应当按照停用词处理,而在Markdown格式的文本中却是用来表示一级标题。如何利用Markdown的语义特征来提升无监督关键词提取的有效性成了一个值得研究的创新点。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010316221.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top