[发明专利]基于信息熵的关键词提取方法、装置、设备及介质有效
申请号: | 202110284776.0 | 申请日: | 2021-03-17 |
公开(公告)号: | CN112686026B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 许丹 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/33 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 关键词 提取 方法 装置 设备 介质 | ||
1.一种基于信息熵的关键词提取方法,其特征在于,所述基于信息熵的关键词提取方法包括:
对接收的标签文本进行预处理,得到待处理文本;
根据所述待处理文本构建至少一个词语序列;
根据所述至少一个词语序列计算词频矩阵;
对所述词频矩阵进行行归一化处理,得到第一矩阵,并对所述词频矩阵进行列归一化处理,得到第二矩阵;
根据所述第二矩阵计算概率矩阵,所述概率矩阵中的每个元素为:
其中,p[i,j]表示所述概率矩阵中第i行、第j列的元素;m表示所述词频矩阵的行数;y[i,j]表示所述第二矩阵中第i行、第j列的元素;i、j、m为正整数;
根据所述概率矩阵构建信息熵向量,并计算所述信息熵向量的逆信息熵向量;
计算所述第一矩阵及所述逆信息熵向量的乘积,得到词权重矩阵;
根据所述词权重矩阵提取目标关键词。
2.如权利要求1所述的基于信息熵的关键词提取方法,其特征在于,所述对接收的标签文本进行预处理,得到待处理文本包括:
识别所述标签文本中的英文字母,并对所述英文字母进行规范化处理,得到第一文本;
识别并删除所述第一文本中的指定类型的字符,得到第二文本;
采用结巴分词算法切分所述第二文本,并在切分后得到的分词间插入空格,得到第三文本;
调用预先配置的词典对所述第三文本进行词语转化,得到第四文本;
对所述第四文本进行去重处理,得到所述待处理文本。
3.如权利要求1所述的基于信息熵的关键词提取方法,其特征在于,所述对所述词频矩阵进行行归一化处理,得到第一矩阵包括:
计算所述词频矩阵中每行的模;
对于所述词频矩阵中的每个元素,从每行的模中提取出与每个元素对应的模;
计算每个元素与对应的模的商作为每个元素进行行归一化处理后得到的元素;
将所述词频矩阵中的每个元素替换为进行行归一化处理后得到的元素,得到所述第一矩阵。
4.如权利要求1所述的基于信息熵的关键词提取方法,其特征在于,所述对所述词频矩阵进行列归一化处理,得到第二矩阵包括:
获取所述词频矩阵的行数;
计算所述词频矩阵中的每个元素与所述词频矩阵的行数的商作为每个元素对应的第一数值;
对所述第一数值进行求和运算,得到第一和值;
计算每个元素与所述第一和值的商作为每个元素进行列归一化处理后得到的元素;
将所述词频矩阵中的每个元素替换为进行列归一化处理后得到的元素,得到所述第二矩阵。
5.如权利要求1所述的基于信息熵的关键词提取方法,其特征在于,所述根据所述概率矩阵构建信息熵向量,并计算所述信息熵向量的逆信息熵向量包括:
计算所述概率矩阵中每个元素的对数值;
计算每个元素的对数值与对应元素的乘积作为第二数值;
对所述第二数值进行求和运算,得到第二和值;
根据所述第二和值的负数构建所述信息熵向量;
根据所述信息熵向量的倒数构建所述逆信息熵向量。
6.如权利要求1所述的基于信息熵的关键词提取方法,其特征在于,所述计算所述第一矩阵及所述逆信息熵向量的乘积,得到词权重矩阵包括:
计算所述第一矩阵中的每个元素与所述逆信息熵向量中每个元素的乘积,得到所述词权重矩阵的每个元素;
根据所述词权重矩阵的每个元素构建所述词权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110284776.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体封装结构及其制备方法
- 下一篇:声源寻向方法和XR设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置