[发明专利]一种Markdown特征感知的无监督关键词提取方法有效
申请号: | 202010316221.5 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111680505B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 杨凌锋;赵慧;华丽萍 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 陈艳娟 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 markdown 特征 感知 监督 关键词 提取 方法 | ||
1.一种Markdown特征感知的无监督关键词提取方法,包括以下步骤:
(1)对Markdown格式的文本的语义表述特点,提取出文本特征MD-Feature,具体步骤如下:
(1.1)划分语义块:将每一篇Markdown格式的文本划分为语义块的集合;
(1.2)对文本进行分词:使用jieba分词和专业名词词典及停用词词典对每个语义块进行分词处理;
(1.3)计算位置信息:计算每个词在语义块的位置信息;
(1.4)计算MD-Feature:通过计算词wijk所在的第j个语义块的词数占全部词数的比例的倒数来衡量语义块词的个数对词的权重的影响,再计算词wijk在第j个语义块中的位置顺序比重来衡量词在语义块中的位置对权重的影响,并基于不同的语义块有着不同的语义描述,于是为每一个语义块给予不同的语义权重Wmd;最后将三者相乘获得MD-Feature的计算公式:
其中,Kq表示第q个语义块的词的个数;
(2)基于TF-IDF算法和TextRank算法的基础上,使用MD-Feature提出改进算法MD-TFIDF和MD-TextRank;其中,
改进算法MD-TFIDF具体算法公式如下:
其中,tfik表示词wijk在文档di中的词频,idfjk表示词wijk在文档集合D中出现词wijk的文档数nj占总文档数N的倒数,即逆文档频率,MDF(wijk)表示词wijk的MD-Feature分数值;
具体步骤如下:
(2.1)语义块切分成词:用分词工具将需要提取关键词的博文di的每一个语义块切分成词,记为其中Wij表示博文i的第j个语义块的分词结果,表示分词结果中的第k个词,K为语义块Wij分词结果中词的个数;
(2.2)统计词的频数:使用totenCount以词为键,以词在文中出现的次数为值,用键值对的方式统计分词结果中每个词出现的频数;
(2.3)计算词的得分数:统计在数据集中有几篇文本出现了词的idf值,使用公式(2)计算出每个词的得分数score;
(2.4)记录分数:以词Wij为键,以score为值记录在tokenScore中;
(2.5)排序:对tokenScore中的词进行排序,将score靠前的TopK个词作为文本的关键词;
MD-TextRank改进算法:假设G(V,E)是点集V和边集E组成的有向图,其中V集合中的点就是文本中的词语,E集合中的边则表示出现在同一个共现窗口中的词的连接;对于某个确定的点vi,将所有的入度节点集合记为In(vi),将所有出度节点集合记为Out(vi),节点权重的计算公式如下:
其中,wsji表示vj与点vi之间的权重,调节系数d设置为0.85;mdf(vi)表示节点vi对应的词的MD-Feature分数值;
具体步骤如下:
(2.5.1)语义块切分成词:用分词工具将需要提取关键词的博文d的每一个语义块切分成词,记为其中表示博文di的第j个语义块的分词结果中第k个词,K为语义块Wij分词结果中词的个数;
(2.5.2)计算每个词的MD-Feature;
(2.5.3)记录分数:以词为键,计算得到的MD-Feature为值,用键值对的方式存储在Weight中,按照共现关系构建词图G(V,E),并使用Weight为每个节点初始化权重,使用公式(3)进行迭代计算,并将收敛时的权重以键值对的形式更新到Weight中;
(2.5.4)排序:对Weight中的词,按照权重进行排序,选取TopN个权重靠前的词作为文本di的关键词;
(3)在(2)基础上提出MDKE算法,利用词的统计信息、位置信息以及通过MD-Feature特征融入的用户潜在语义信息,对Markdown格式的文本中的关键词进行提取,具体步骤如下:
(3.1)计算关键词候选集L1:使用算法MD-TFIDF计算出文档的关键词候选集L1;
(3.2)计算关键词候选集L2:使用MD-TextRank算法计算出文档的关键词候选集L2;
(3.3)获取候选集的交集L,评估交集L大小并进行调整:取(3.1)中关键词候选集L1和(3.2)中关键词候选集L2的交集L;判断L候选集的大小是否小于预设的候选集大小Msize,如果小于Msize就从关键词候选集L1和关键词候选集L2中选取得分靠前的其他候选词加入交集L,使得交集L的集合大小为大于等于Msize为止;
(3.4)对候选词进行打分,并排序输出:使用主题模型对候选集L中的词进行排序,最后选取排序结果中的前K个词作为文本的关键词输出。
2.如权利要求1所述的Markdown特征感知的无监督关键词提取方法,其特征在于,步骤(1.1)中语义块的划分为根据Markdown标记的语义描述将Markdown文本划分为不同的语义块,每个语义块通过正则表达式从原始的Markdown格式的文档中提取出来,并用“\001”分割语义块的类型和语义块内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010316221.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通用飞机用电子传感器防护安装机构
- 下一篇:一种硅片截面试样的制备方法