[发明专利]一种融合TFIDF和LDA实现抽取式文本摘要方法在审
申请号: | 202111336084.2 | 申请日: | 2021-11-12 |
公开(公告)号: | CN113987133A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 刘冰;张甜甜;周威威 | 申请(专利权)人: | 长春工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/279 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 130000 吉林省长春*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 tfidf lda 实现 抽取 文本 摘要 方法 | ||
1.一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征包括如下步骤:
S1:对输入数据进行数据清洗,然后将文档拆分成句子集合;
S2:对每个句子分词,然后过滤停用词、特定词性的词和指定长度的词;
S3:采用融合TFIDF和LDA计算每个词素的权重w_tfidf-lda(i);
S4:计算词位置的权重w_dest(i);
S5:计算词性的权重w_attr(i);
S6:计算词长的权重w_len(i);
S7:计算词跨度的权重w_span(i);
S8:利用每个句子进行归一化的结果表示文本T;
S9:基于MMR算法综合相关性和多样性计算每个句子最终的权值;
S10:权值降序排列每个句子,抽取排名靠前的若干句作为最终结果。
2.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S3的w_tfidf-lda(i) 计算方法为:
首先,TF-IDF进行归一化处理,计算公式为:
其中,指特征项在文档中出现的次数、指出现特征项的文档的倒数、N表示总文档数、指出现特征项的文档数;
其次,LDA模型具体定义如下:文档集中,代表文档集的文档数目,单一文档为,代表特征词个数,则文档中的第个特征词为,潜在主题集合,则LDA模型生成文档时首先计算主题中的特征词分布概率向量和主题分布概率向量,接着求解每个特征词,特征词生成的概率公式为:
其中,;
最后,基于上述论断,确定融合TF-IDF和LDA的计算公式为:
根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S4的 ,以及S5的的设置方式如下表所示:
计算词位置的权重,位置权重设置表如表1所示:
表1 位置权重设置表
计算词性的权重,词性权重设置表如表2所示:
表2 词性权重设置表
。
3.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S6的w_len(i)计算方法为:
w_len(i) = len_i / (len_i + 4)其中,i表示词素,len_i表示词长。
4.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S7的w_span(i)计算方法为:
w_span(i) = num_i / total_num其中i表示词素,num_i表示i出现的段落数,total_num表示文章总段落数。
5.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S8的T的表示方法为:具体的模型表述为:一个句子由M个词素组成,一个文本由N个句子组成,即、,其中表示公式为:
其中,为各种不同权重的加权系数,本发明取为1.5,为 1.1,为0.8;利用上述公式计算出每一个句子的权值,从而表示出T。
6.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S9中MMR的简化为:
其中,weight(i)表示文章第i句的权重,即表示当前句子i与已经成为候选摘要的句子j的余弦相似度;为需要调节的参数,用来控制文章摘要的多样性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春工业大学,未经长春工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111336084.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种管座芯片共晶装置
- 下一篇:低翘曲玻纤改性PP复合材料的制备方法