[发明专利]一种摘报文本生成方法、装置、服务器及可读存储介质在审
申请号: | 202010139749.X | 申请日: | 2020-03-03 |
公开(公告)号: | CN111858908A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 宋灿灿;左琦;张佳琪;王更新;马倩云;刘彤;杨杰 | 申请(专利权)人: | 北京市计算中心 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/186;G06F40/242;G06F40/284;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 摘报 文本 生成 方法 装置 服务器 可读 存储 介质 | ||
1.一种摘报文本生成方法,其特征在于,包括:
步骤一,获取数据源,抽取预设时间内的数据作为摘报文本生成的数据源;
步骤二,数据预处理,对所述步骤一中的所述抽取的数据进行预处理,得到预处理后的数据;
步骤三,聚类处理,对所述步骤二中获取的所述预处理后的数据进行聚类处理,得到聚类结果集;
步骤四,簇内长词合并和关键词提取,对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取,并分别得到长词候选集和关键词候选集,合并所述长词候选集和所述关键词候选集得到词语候选集;
步骤五,词频统计,对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计,按照预设筛选比例,形成摘报热点;
步骤六,摘报文本生成,根据所述步骤五中得到的所述摘报热点,形成摘报文本。
2.根据权利要求1所述的摘报文本生成方法,其特征在于,所述步骤二中的所述数据预处理为:第一,利用分词工具对所述步骤一中的所述抽取的数据进行分词处理,第二,对经过分词处理后的数据进行向量化处理,得到数据预处理后的结果。
3.根据权利要求2所述的摘报文本生成方法,其特征在于,所述使用分词工具对所述抽取的数据进行分词处理进行切分时,利用自定义词典和网络公开的常用停用词库对所述抽取的数据进行切分,所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。
4.根据权利要求2所述的摘报文本生成方法,其特征在于,所述分词工具为HanLP、Jieba、THULAC或NLPIR。
5.根据权利要求4所述的摘报文本生成方法,其特征在于,所述分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分。
6.根据权利要求1所述的摘报文本生成方法,其特征在于,所述步骤三中对所述步骤二中获取的所述预处理后的数据进行K-Means聚类处理,同时根据DBI评价指标来形成最佳聚类结果集,对所述最佳聚类结果集分别进行簇内长词合并和关键提取。
7.根据权利要求6所述的摘报文本生成方法,其特征在于,对所述最佳聚类结果集分别进行簇内长词合并包括:
判断一个词语的相邻词语的词性,
如果相邻词语的词性是名词、人名、地名、机构团体、其它专名、名动词、名形词或者方位词时,则进行拼接,得到合并长词;
否则,不拼接。
8.根据权利要求7所述的摘报文本生成方法,其特征在于,还包括对拼接后得到的所述合并长词进行剔除筛选:
所述剔除筛选包括:
通过停用词表对拼接后得到的所述合并长词进行过滤,得到过滤后的合并长词;
求取所述拼接后得到的所述合并长词与所述过滤后的合并长词的交集;
判断所述交集与所述步骤一中抽取的数据;
如果所述交集与所述步骤一中抽取的数据匹配,则留下作为所述长词候选集,
否则,舍弃所述交集。
9.根据权利要求1所述的摘报文本生成方法,其特征在于,对所述步骤三中得到的所述聚类结果集使用TFIDF进行关键词提取,并得到关键词候选集。
10.根据权利要求1所述的摘报文本生成方法,其特征在于,步骤六中还包括,对所述抽取的数据进行多维度统计,得到多维度统计结果,根据所述步骤五中得到的所述摘报热点、所述多维度统计结果与摘报模板,形成摘报文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市计算中心,未经北京市计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010139749.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:擦拭器片和安装擦拭器片的方法
- 下一篇:门开闭装置