[发明专利]一种摘报文本生成方法、装置、服务器及可读存储介质在审

申请号：	202010139749.X	申请日：	2020-03-03
公开（公告）号：	CN111858908A	公开（公告）日：	2020-10-30
发明（设计）人：	宋灿灿;左琦;张佳琪;王更新;马倩云;刘彤;杨杰	申请（专利权）人：	北京市计算中心
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/35;G06F40/186;G06F40/242;G06F40/284;G06F40/289
代理公司：	暂无信息	代理人：	暂无信息
地址：	100094***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种摘报文本生成方法装置服务器可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种摘报文本生成方法，其特征在于，包括：

步骤一，获取数据源，抽取预设时间内的数据作为摘报文本生成的数据源；

步骤二，数据预处理，对所述步骤一中的所述抽取的数据进行预处理，得到预处理后的数据；

步骤三，聚类处理，对所述步骤二中获取的所述预处理后的数据进行聚类处理，得到聚类结果集；

步骤四，簇内长词合并和关键词提取，对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取，并分别得到长词候选集和关键词候选集，合并所述长词候选集和所述关键词候选集得到词语候选集；

步骤五，词频统计，对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计，按照预设筛选比例，形成摘报热点；

步骤六，摘报文本生成，根据所述步骤五中得到的所述摘报热点，形成摘报文本。

2.根据权利要求1所述的摘报文本生成方法，其特征在于，所述步骤二中的所述数据预处理为：第一，利用分词工具对所述步骤一中的所述抽取的数据进行分词处理，第二，对经过分词处理后的数据进行向量化处理，得到数据预处理后的结果。

3.根据权利要求2所述的摘报文本生成方法，其特征在于，所述使用分词工具对所述抽取的数据进行分词处理进行切分时，利用自定义词典和网络公开的常用停用词库对所述抽取的数据进行切分，所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字。

4.根据权利要求2所述的摘报文本生成方法，其特征在于，所述分词工具为HanLP、Jieba、THULAC或NLPIR。

5.根据权利要求4所述的摘报文本生成方法，其特征在于，所述分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分。

6.根据权利要求1所述的摘报文本生成方法，其特征在于，所述步骤三中对所述步骤二中获取的所述预处理后的数据进行K-Means聚类处理，同时根据DBI评价指标来形成最佳聚类结果集，对所述最佳聚类结果集分别进行簇内长词合并和关键提取。

7.根据权利要求6所述的摘报文本生成方法，其特征在于，对所述最佳聚类结果集分别进行簇内长词合并包括：

判断一个词语的相邻词语的词性，

如果相邻词语的词性是名词、人名、地名、机构团体、其它专名、名动词、名形词或者方位词时，则进行拼接，得到合并长词；

否则，不拼接。

8.根据权利要求7所述的摘报文本生成方法，其特征在于，还包括对拼接后得到的所述合并长词进行剔除筛选：

所述剔除筛选包括：

通过停用词表对拼接后得到的所述合并长词进行过滤，得到过滤后的合并长词；

求取所述拼接后得到的所述合并长词与所述过滤后的合并长词的交集；

判断所述交集与所述步骤一中抽取的数据；