[发明专利]文本内容识别方法、装置、电子设备和可读介质在审
申请号: | 202111681434.9 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114328933A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 赵翔;王堂辉;陈天多 | 申请(专利权)人: | 天翼云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;李建忠 |
地址: | 100007 北京市东城区青*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 内容 识别 方法 装置 电子设备 可读 介质 | ||
本公开提供一种文本内容识别方法、装置、电子设备和可读介质,其中,文本内容识别方法包括:确定数据样本中的数据属于指定属性的概率;确定数据样本的属性划分的样本子集的熵;根据概率和熵确定属性的信息增益权重;根据数据样本的属性对应的相关系数确定相关系数权重;根据信息增益权重和相关系数权重构建朴素贝叶斯分类模型,朴素贝叶斯分类模型用于对文本内容进行识别。通过本公开实施例,提升了朴素贝叶斯分类模型对文本内容进行识别的准确性和可靠性。
技术领域
本公开涉及文本识别技术领域,具体而言,涉及一种文本内容识别方法、装置、电子设备和可读介质。
背景技术
目前,数据分类是数据挖掘领域里的一个重要组成部分,主要是通过对样本数据的学习,根据样本数据属性的特征构建分类模型。这个模型可以对未知数据类型的样本数据进行判定,使其与目标类联系起来。
在相关技术中,传统的分类算法和理论有很多,尤其是朴素贝叶斯(naive Bayes,NB)分类器的应用室分广泛。朴素贝叶斯分类器是基于贝叶斯理论实现的,其核心是通过比较给定样本数据在目标类上的后验概率,然后把样本数据归为后验概率较大的那个目标类。
但是,朴素贝叶斯分类算法是基于概率的分类算法,在分类过程中假设样本数据集中每个属性之间不相关,彼此是独立的,也被叫做属性独立性假设。在实际应用中,绝大多数的样本数据集中的样本属性是有相互关联的,属性完全独立的样本数据集在现实生活中很少出现,因此,利用传统朴素贝叶斯算法对各个场景下的文本进行分类时,由于数据场景不同和文本分布差别等原因,导致文本分类的可靠性和准确性均较差。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本内容识别方法、装置、电子设备和可读介质,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的朴素贝叶斯算法对文本识别的准确性差问题。
根据本公开实施例的第一方面,提供一种文本内容识别方法,包括:确定数据样本中的数据属于指定属性的概率;确定所述数据样本的属性划分的样本子集的熵;根据所述概率和所述熵确定所述属性的信息增益权重;根据所述数据样本的属性对应的相关系数确定相关系数权重;根据所述信息增益权重和所述相关系数权重构建朴素贝叶斯分类模型,所述朴素贝叶斯分类模型用于对文本内容进行识别。
在本公开的一种示例性实施例中,确定所述数据样本的属性划分的样本子集的熵包括:确定所述属性有K种取值;根据K种所述取值将所述数据样本划分为K个子集;根据所述K个子集的概率确定所述属性对应的熵。
在本公开的一种示例性实施例中,将所述概率记作P(Ci),根据所述K个子集的概率确定所述属性对应的熵的表达式包括:其中,所述dm表征所述数据样本中属性值等于所述属性的值的样本数,所述dij表征所述K个子集中属于所述Ci的样本数目,所述Ci表征一个目标属性,所述E(Ai)表征所述熵。
在本公开的一种示例性实施例中,根据所述概率和所述熵确定所述属性的信息增益权重的表达式包括:其中,所述Gain(Ai)表征所述信息增益权重。
在本公开的一种示例性实施例中,根据所述数据样本的属性对应的相关系数确定相关系数权重包括:选取所述属性中的一个属性作为决策属性;将所述属性中除所述决策属性以外的属性确定为条件属性;根据所述决策属性和所述条件属性确定所述相关系数权重。
在本公开的一种示例性实施例中,根据所述决策属性和所述条件属性确定所述相关系数权重包括:确定所述决策属性的取值与所述条件属性的取值之间的协方差;确定所述决策属性的取值的方差,记作第一方差;确定所述条件属性的取值的方差,记作第二方差;根据所述协方差、所述第一方差和所述第二方差确定所述相关系数权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼云科技有限公司,未经天翼云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111681434.9/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法