[发明专利]一种基于LDA和D2V进行摘要抽取的文本生成方法有效
申请号: | 201911391922.9 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111159393B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 贾海涛;李清;任利;贾宇明;李建;许文波;刘芳;罗心 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda d2v 进行 摘要 抽取 文本 生成 方法 | ||
1.一种基于LDA和D2V进行摘要抽取的文本生成方法,其特征在于,包括以下步骤:
步骤1:将利用LDA模型对数据源进行主题分类,得到各主题的分类概率;
步骤2:将数据源中的每个文本单独处理,对单独的文本依次进行分句、分词处理;再计算各句子所属主题的概率:一个句子中的词所属各个主题的概率之和除以句子长度;所述句子长度为句子中词的总数;根据各句子所属主题的概率将各句子分类到所属概率最大的主题下,得到文本中各主题下的句子簇;
步骤3:句子向量化处理:将文本中各主题下的句子簇输入到训练好的D2V模型中,得到相应句子簇的句子向量集合;
步骤4:在各个句子簇中计算各句子的句子向量与其他句子向量间相似性的熵,选择熵最大的句子作为该簇的摘要句;
步骤5:将文本中所有主题的摘要句组织成该文本的摘要内容。
2.如权利要求1所述方法,其特征在于,其中,各句子的熵的计算方式为:
其中,为同一个句子类簇中的第i个句子的句子向量si与第j个句子的句子向量sj之间的相似度,m为同一句子类簇中除第i个句子以外的其余句子向量的个数,d(si,sj)表示两个句子向量之间的欧姆距离,表示第i个句子在句子簇中的熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911391922.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卡扣夹具及装夹工装
- 下一篇:果蔬贮运一体化包装箱