[发明专利]焦点信息提取方法、装置、计算机设备和存储介质在审

专利信息
申请号: 202111512320.1 申请日: 2021-12-07
公开(公告)号: CN116303874A 公开(公告)日: 2023-06-23
发明(设计)人: 刘必为 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/279
代理公司: 华进联合专利商标代理有限公司 44224 代理人: 李文渊
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 焦点 信息 提取 方法 装置 计算机 设备 存储 介质
【权利要求书】:

1.一种焦点信息提取方法,其特征在于,所述方法包括:

获取待处理文本,对所述待处理文本进行聚类,得到聚类主题、主题特征信息以及所述待处理文本和所述聚类主题的对应关系;

根据所述对应关系,拼接所述待处理文本,得到与所述聚类主题对应的聚类文本,从所述聚类文本中提取关键文本特征;

根据所述关键文本特征,对所述聚类主题进行合并,得到目标聚类主题;

根据所述目标聚类主题、所述主题特征信息以及所述关键文本特征,得到焦点信息。

2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行聚类,得到聚类主题、主题特征信息以及所述待处理文本和所述聚类主题的对应关系包括:

对所述待处理文本进行分词以及词性分词,根据预设停用词库以及词性分析结果对分词结果进行过滤,得到与所述待处理文本对应的待处理文本词集;

根据所述待处理文本词集,对所述待处理文本进行聚类,得到聚类主题、主题特征信息以及所述待处理文本和所述聚类主题的对应关系。

3.根据权利要求2所述的方法,其特征在于,所述根据所述待处理文本词集,对所述待处理文本进行聚类,得到聚类主题、主题特征信息以及所述待处理文本和所述聚类主题的对应关系包括:

获取聚类主题数量;

根据所述聚类主题数量,为所述待处理文本词集中每个待处理文本单词随机指定初始聚类主题;

根据所述初始聚类主题,对所述待处理文本单词进行聚类主题估计,得到聚类主题,并确定所述待处理文本单词和所述聚类主题的归属关系;

根据所述归属关系,确定所述待处理文本和所述聚类主题的对应关系;

根据所述对应关系和所述归属关系,得到主题特征信息。

4.根据权利要求3所述的方法,其特征在于,所述根据所述归属关系,确定所述待处理文本和所述聚类主题的对应关系包括:

根据预设领域词库,确定所述待处理文本单词中目标文本单词,为所述目标文本单词设置特定词权重;

根据所述特定词权重和所述归属关系,确定所述待处理文本归属于各聚类主题的归属概率;

根据所述归属概率,得到所述待处理文本和所述聚类主题的对应关系。

5.根据权利要求3所述的方法,其特征在于,所述根据所述对应关系和所述归属关系,得到主题特征信息包括:

根据所述对应关系,确定与所述聚类主题对应的待处理文本数量,并根据所述归属关系,确定所述聚类主题对应的待处理文本单词出现概率;

根据所述待处理文本数量和所述待处理文本单词出现概率,得到主题特征信息。

6.根据权利要求1所述的方法,其特征在于,所述从所述聚类文本中提取关键文本特征包括:

对所述聚类文本进行分词,得到与所述聚类文本对应的聚类文本词集;

根据所述聚类文本词集,得到聚类文本词图;

根据所述聚类文本词图,确定所述聚类文本词集中聚类文本单词的单词权重;

根据所述单词权重,得到与所述聚类文本对应的关键文本特征。

7.根据权利要求1所述的方法,其特征在于,所述根据所述关键文本特征,对所述聚类主题进行合并,得到目标聚类主题包括:

根据所述关键文本特征,确定所述聚类主题之间的主题相似度;

根据所述主题相似度,对所述聚类主题进行合并,得到目标聚类主题。

8.根据权利要求1所述的方法,其特征在于,所述根据所述目标聚类主题、所述主题特征信息以及所述关键文本特征,得到焦点信息包括:

归集属于同一目标聚类主题的主题特征信息,得到目标主题特征信息,并归集属于同一目标聚类主题的关键文本特征,得到目标关键文本特征;

根据所述目标聚类主题、所述目标主题特征信息以及所述目标关键文本特征,得到焦点信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111512320.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top