[发明专利]一种自适应微博话题摘要的生成方法有效
申请号: | 201610865867.2 | 申请日: | 2016-09-29 |
公开(公告)号: | CN106503064B | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 王莹;罗准辰;罗威;韦博;陈钧 | 申请(专利权)人: | 中国国防科技信息中心 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q50/00 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;王蔚 |
地址: | 100142 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种自适应微博话题摘要的生成方法,所述方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)对博文子集进行处理,生成最终的摘要。该方法能够提高微博话题摘要的质量,提升用户体验。 | ||
搜索关键词: | 一种 自适应 话题 摘要 生成 方法 | ||
【主权项】:
1.一种自适应微博话题摘要的生成方法,所方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)将博文子集合并成一段文本作为最终的摘要;所述步骤4)还包括:建立子话题博文选取模型,所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,所述方法包括:步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,每个训练数据集包括:若干个子话题、每个子话题对应的博文集,通过人工标注得到的博文的排序;步骤S2)对两个训练数据集中的博文提取相同的特征;步骤S3)建立时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型;两个模型都为排序模型;输入为每个子话题的若干个博文的特征组成的特征向量,输出为博文的排序;步骤S4)对两种排序模型进行训练;两个模型的差别为在博文时间归一化特征上分配的权重不同;所述步骤S2)的特征包括:博文长度归一化示、博文时间归一化表示、转发数归一化表示、博文是否包含超链接、博文是否包含主题词和博文是否包含提及信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国国防科技信息中心,未经中国国防科技信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610865867.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种号码输入保护的方法及终端
- 下一篇:一种终端信息分享的方法及装置