[发明专利]文本识别方法、装置、电子设备以及存储介质有效
申请号: | 201910431256.0 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110134792B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 李长亮;樊骏锋;汪美玲;唐剑波 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/216 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 吴肖肖 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 以及 存储 介质 | ||
1.一种文本识别方法,其特征在于,包括:
获取多个文本的文本集;
提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
根据所述文本集中的每个文本中语句包含的主题关键词,生成所述每个文本在语句层面的关键词分布矩阵,作为所述主题关键词在所述文本集中每个文本的第一分布,以及根据所述文本集中的每个文本中语句包含的实际主题关键词,生成所述每个文本在语句层面的实际关键词分布矩阵,作为所述实际主题关键词在所述文本集中每个文本的第二分布;
将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
2.根据权利要求1所述的文本识别方法,其特征在于,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
3.根据权利要求1所述的文本识别方法,其特征在于,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
4.根据权利要求1所述的文本识别方法,其特征在于,所述获取从所述文本集中至少一个文本中提取的实际主题关键词,包括:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
获取所述人工提取的所述至少一个文本所述实际主题关键词。
5.根据权利要求1所述的文本识别方法,其特征在于,所述分类器,采用如下方式进行构建:
根据所述关键词分布矩阵与所述每个文本中包含的语句的关联关系、预设分类规则以及所述每个文本中包含的语句的对应的权重,构建所述分类器;
相应的,执行所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤;
所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句,包括:
将携带所述主题关键词分布矩阵和所述实际主题关键词分布矩阵的所述文本集中的文本输入所述分类器进行关键句和非关键句识别,获得所述文本集中文本的关键句和非关键句。
6.根据权利要求1所述的文本识别方法,其特征在于,所述将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句步骤执行之后,还包括:
根据所述文本集中文本的关键句和非关键句的数目,计算每个文本的召回率和/或准确率;
根据所述每个文本的召回率和/或所述准确率优化所述分类器。
7.根据权利要求6所述的文本识别方法,其特征在于,所述计算每个文本的召回率,包括:
统计所述每个文本中包含的关键句总数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句总数目二者的比值,作为所述每个文本的召回率。
8.根据权利要求6所述的文本识别方法,其特征在于,所述计算每个文本的准确率,包括:
统计输出的所述每个文本的关键句数目以及输出的所述每个文本的关键句中包含的实际关键句数目;
计算所述实际关键句数目与所述关键句数目二者的比值,作为所述每个文本的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431256.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、电子设备及存储介质
- 下一篇:文本情感分类方法