[发明专利]文本识别方法、装置、电子设备以及存储介质有效
申请号: | 201910431256.0 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110134792B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 李长亮;樊骏锋;汪美玲;唐剑波 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/216 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 吴肖肖 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 以及 存储 介质 | ||
本说明书提供文本识别方法、装置、电子设备以及存储介质,其中所述文本识别方法包括:获取多个文本的文本集;提取文本集中文本的主题关键词,并获取从文本集中至少一个文本中提取的实际主题关键词;确定主题关键词在文本集中每个文本的第一分布,以及实际主题关键词在文本集中每个文本的第二分布;将携带第一分布和第二分布的文本集中文本输入分类器进行识别,获得文本集中文本的关键句和非关键句;通过文本识别方法,能够快速准确的获取文本的关键句和非关键句,通过对文本的非关键句进行清洗,方便了对文本的关键句进行标注,提高了知识图谱的构建效率,并通过保留文本的关键句,方便了用户在查阅文本时能够快速的了解文本的主要内容。
技术领域
本说明书涉及自然语言处理技术领域,特别涉及一种文本识别方法。本说明书同时涉及一种文本识别装置、一种电子设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,通过网络获取需要的信息是大家经常使用的一种手段,用户在通过网络查询同一领域的信息时,为了方便用户可以在查询信息时,快速的了解每篇文章的主题,通过将每篇文章的主题关键句筛选展示给用户,用户通过查看主题关键句即可了解每篇文章中是否包含需要的信息。
现有技术中,在提取每篇文章的主题关键句时,有多种方法可以实现,可以通过非监督关键词筛选方法,提取每篇文章的主题关键词,根据每篇文章的每段句子中包含的关键词数量的多少确定主题关键句。
然而,由于通过非监督关键词筛选方法提取的主题关键词的准确度不是很高,很大程度上降低了提取每篇文章的主题关键句的准确度,使得用户在查阅文章时,查看的主题关键句不一定是文章的实际主题关键句。
发明内容
有鉴于此,本说明书实施例提供了一种文本识别方法,以解决现有技术中存在的技术缺陷。本说明书实施例同时提供了一种文本识别装置,一种电子设备,以及一种计算机可读存储介质。
根据本说明书实施例的第一方面,提供了一种文本识别方法,包括:
获取多个文本的文本集;
提取所述文本集中每个文本的主题关键词,并获取从所述文本集中至少一个文本中提取的实际主题关键词;
确定所述主题关键词在所述文本集中每个文本的第一分布,以及所述实际主题关键词在所述文本集中每个文本的第二分布;
将携带所述第一分布和所述第二分布的所述文本集中文本输入分类器进行关键句和非关键句的识别,获得所述文本集中文本的关键句和非关键句。
可选的,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
将所述每个文本的关键词输入至主题生成模型进行主题关键词识别,输出关键词并作为所述主题关键词。
可选的,所述提取所述文本集中每个文本的主题关键词,包括:
通过分词处理算法对所述文本集中每个文本进行分词处理,根据分词处理结果确定所述文本集中每个文本的关键词;
计算所述关键词在对应的文本匹配的频次,以及所述关键词在所述文本集中每个文本的逆向关键词频率;
根据所述频次与所述逆向关键词频率二者的乘积确定所述关键词的关键词评分;
将所述关键词评分大于关键词评分阈值的关键词作为所述主题关键词。
可选的,所述获取从所述文本集中至少一个文本中提取的实际主题关键词,包括:
从所述文本集中随机选取至少一个文本,随机提取的所述至少一个文本通过人工提取相应的实际主题关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431256.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、电子设备及存储介质
- 下一篇:文本情感分类方法