[发明专利]一种用于文本段落划分的方法和装置有效
申请号: | 201910927810.4 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110674635B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 李敏;吴家鸣 | 申请(专利权)人: | 北京妙笔智能科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 100015 北京市朝阳区酒*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 文本 段落 划分 方法 装置 | ||
1.一种用于文本段落划分的方法,其特征在于,所述方法包括以下步骤:
S1:计算各自然段之间的相似度数值,然后计算所述相似度数值的平均值,再基于门槛值进行大段落划分;
S2:对所述大段落分别进行词语特征值计算,并计算所述大段落中特征值最大的n个共同词的熵;
S3:基于所述相似度数值的平均值进行门槛值滑动,通过不同的门槛值分别计算所述共同词的熵,取所述熵最小的划分结果为最优划分;
其中,计算共同词的熵,具体包括:
pm=∑npi (4)
E=-pm·logpm (5)
其中,在公式(4)中,n为具有共同词的总数,pi为其中一个具有共同词的概率,在公式(5)中,E是所述共同词的熵,pm是具有所述共同词的概率。
2.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述方法的所述步骤S1之前还包括:
S0:对待处理文本进行预处理,去除所述文本的html标签,再对所述文本进行分词处理和停用词去除。
3.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述步骤S1具体还包括:
通过余弦相似性算法计算各自然段之间的相似度数值:
其中,s为相似度,|A|×|B|为自然段之间的向量内积,A·B为自然段的向量长度。
4.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述步骤S1具体还包括:
通过simhash算法计算各自然段之间的相似度数值:
通过hash算法将各自然段中的词语转为hash值,同时计算所述词语的tf-idf值,基于所述tf-idf值为权值计算所述词语的权重值;
合并各自然段中词语的hash值和权重值,再计算所述自然段之间的海明距离。
5.根据权利要求1所述的用于文本段落划分的方法,其特征在于,所述步骤S2的词语特征值计算,具体包括:
tfidfi=tfi·idfi (3)
其中,ni,j是第j段大段落中第i个词语的数量,∑knk,j是第j段大段落的词语数量,|D|为划分的大段落中含有的自然段的数量,|{j:ti∈dj}|为含有第i个词语的自然段的数量。
6.一种用于文本段落划分的装置,其特征在于,所述装置包括:
相似度计算模块,设置用于计算各自然段之间的相似度数值,然后计算所述相似度数值的平均值,再基于门槛值进行大段落划分;
词语处理模块,设置用于对所述大段落分别进行词语特征值计算,并计算所述大段落中特征值最大的n个共同词的熵;
最优选择模块,设置用于基于所述相似度数值的平均值进行门槛值滑动,通过不同的门槛值分别计算所述共同词的熵,取所述熵最小的划分结果为最优划分;
其中,所述词语处理模块包括熵计算模块,设置用于计算共同词的熵,具体包括:
pm=∑npi (4)
E=-pm·logpm (5)
其中,在公式(4)中,n为具有共同词的总数,pi为其中一个具有共同词的概率,在公式(5)中,E是所述共同词的熵,pm是具有所述共同词的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京妙笔智能科技有限公司,未经北京妙笔智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910927810.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文字交互方法及服务端设备
- 下一篇:一种用电行为分析方法