[发明专利]一种用于文本段落划分的方法和装置有效

专利信息
申请号: 201910927810.4 申请日: 2019-09-27
公开(公告)号: CN110674635B 公开(公告)日: 2023-04-25
发明(设计)人: 李敏;吴家鸣 申请(专利权)人: 北京妙笔智能科技有限公司
主分类号: G06F40/284 分类号: G06F40/284
代理公司: 厦门福贝知识产权代理事务所(普通合伙) 35235 代理人: 陈远洋
地址: 100015 北京市朝阳区酒*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 文本 段落 划分 方法 装置
【权利要求书】:

1.一种用于文本段落划分的方法,其特征在于,所述方法包括以下步骤:

S1:计算各自然段之间的相似度数值,然后计算所述相似度数值的平均值,再基于门槛值进行大段落划分;

S2:对所述大段落分别进行词语特征值计算,并计算所述大段落中特征值最大的n个共同词的熵;

S3:基于所述相似度数值的平均值进行门槛值滑动,通过不同的门槛值分别计算所述共同词的熵,取所述熵最小的划分结果为最优划分;

其中,计算共同词的熵,具体包括:

pm=∑npi    (4)

E=-pm·logpm    (5)

其中,在公式(4)中,n为具有共同词的总数,pi为其中一个具有共同词的概率,在公式(5)中,E是所述共同词的熵,pm是具有所述共同词的概率。

2.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述方法的所述步骤S1之前还包括:

S0:对待处理文本进行预处理,去除所述文本的html标签,再对所述文本进行分词处理和停用词去除。

3.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述步骤S1具体还包括:

通过余弦相似性算法计算各自然段之间的相似度数值:

其中,s为相似度,|A|×|B|为自然段之间的向量内积,A·B为自然段的向量长度。

4.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述步骤S1具体还包括:

通过simhash算法计算各自然段之间的相似度数值:

通过hash算法将各自然段中的词语转为hash值,同时计算所述词语的tf-idf值,基于所述tf-idf值为权值计算所述词语的权重值;

合并各自然段中词语的hash值和权重值,再计算所述自然段之间的海明距离。

5.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述步骤S2的词语特征值计算,具体包括:

tfidfi=tfi·idfi    (3)

其中,ni,j是第j段大段落中第i个词语的数量,∑knk,j是第j段大段落的词语数量,|D|为划分的大段落中含有的自然段的数量,|{j:ti∈dj}|为含有第i个词语的自然段的数量。

6.一种用于文本段落划分的装置,其特征在于,所述装置包括:

相似度计算模块,设置用于计算各自然段之间的相似度数值,然后计算所述相似度数值的平均值,再基于门槛值进行大段落划分;

词语处理模块,设置用于对所述大段落分别进行词语特征值计算,并计算所述大段落中特征值最大的n个共同词的熵;

最优选择模块,设置用于基于所述相似度数值的平均值进行门槛值滑动,通过不同的门槛值分别计算所述共同词的熵,取所述熵最小的划分结果为最优划分;

其中,所述词语处理模块包括熵计算模块,设置用于计算共同词的熵,具体包括:

pm=∑npi    (4)

E=-pm·logpm    (5)

其中,在公式(4)中,n为具有共同词的总数,pi为其中一个具有共同词的概率,在公式(5)中,E是所述共同词的熵,pm是具有所述共同词的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京妙笔智能科技有限公司,未经北京妙笔智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910927810.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top