[发明专利]一种报告生成方法、系统、存储介质及电子设备有效
申请号: | 202210139471.5 | 申请日: | 2022-02-16 |
公开(公告)号: | CN114186066B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 张壹鼎;李伟;顾夏辉;安涛;刘威 | 申请(专利权)人: | 子长科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/166;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 100101 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 报告 生成 方法 系统 存储 介质 电子设备 | ||
本发明涉及人工智能自然语言处理技术领域,特别地涉及一种报告生成方法、系统、存储介质以及电子设备。公开了一种报告生成方法、系统、存储介质及电子设备,所述方法包括:获取目标文本数据;对所述目标文本数据进行去重,获得去重后的目标文本数据;对所述去重后的目标文本数据进行分类,获得分类数据;按照预设时间间隔更新所述分类数据;在达到预设时刻时,获取当前时刻的分类数据;对所述当前时刻的分类数据进行排序,获得排序后的分类数据;根据所述排序后的分类数据生成目标报告。根据用户提供的长文本数据通过深度学习可以高效地生成报告内容,有效降低了人工成本,并提高了生成的报告的精准度。
技术领域
本发明涉及人工智能自然语言处理技术领域,特别地涉及一种报告生成方法、系统、存储介质以及电子设备。
背景技术
报告是一段时间内针对某个事件的一个总结,内容需要简洁明了并能突出事件核心的要点,也要拥有较强的说服力。伴随着报告在商业中的应用领域越来越多,更加需要生成高效的报告说明书。
由于网上的数据大都是非结构化的数据,通过人工去筛选复杂的文本类型的数据既耗时又耗力,而新闻报告的时效性要求比较高,所以传统的人工的方法无法高效的实时的呈现出研究报告。
发明内容
针对上述问题,本发明提出一种报告生成方法、系统、存储介质及电子设备,解决了通过人工去筛选复杂的文本类型的数据既耗时又耗力,无法高效的实时的呈现出研究报告的问题。
本发明的第一个方面,提供了一种报告生成方法,所述方法包括:
获取目标文本数据;
对所述目标文本数据进行去重,获得去重后的目标文本数据;
对所述去重后的目标文本数据进行分类,获得分类数据;
按照预设时间间隔更新所述分类数据;
在达到预设时刻时,获取当前时刻的分类数据;
对所述当前时刻的分类数据进行排序,获得排序后的分类数据;
根据所述排序后的分类数据生成目标报告。
在一些实施例中,所述按照预设时间间隔更新所述分类数据,包括:
从所述获取目标文本数据的时刻开始计时,每当达到预设时间间隔时,获取当前时刻的目标文本数据;
根据所述当前时刻的目标文本数据和所述分类数据,获取汇总数据;
对所述汇总数据进行去重,获得去重后的汇总数据;
对所述去重后的汇总数据进行分类,获得分类后的汇总数据;
将所述分类后的汇总数据作为更新后的分类数据。
在一些实施例中,所述对所述目标文本数据进行去重,获得去重后的目标文本数据,包括:
去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据;
去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
在一些实施例中,所述去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据,包括:
通过布隆过滤器去除所述目标文本数据中完全相同的文本,得到去重后的第一数据。
在一些实施例中,所述去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据,包括:
通过Simhash算法去除所述第一数据中相似的文本,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于子长科技(北京)有限公司,未经子长科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210139471.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有停泊时缓冲防撞功能的邮轮
- 下一篇:一种汽车底盘衬套的双工位扩孔工装