[发明专利]一种新闻自动推导关联机构方法及系统在审
申请号: | 201911374911.X | 申请日: | 2019-12-27 |
公开(公告)号: | CN111177407A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 黄毅;王涛;王义 | 申请(专利权)人: | 南京思通聚宝信息技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/9535;G06F40/117;G06F40/205;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210038 江苏省南京市经济技术*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 自动 推导 关联 机构 方法 系统 | ||
1.一种新闻自动推导关联机构方法,其特征在于,包括如下步骤:
S1、基本语料库建立:根据进行的事件对新闻资讯设定数据源收集范围,并组建基本语料库,根据当前基本语料库,进行情报汇集;
S2、新闻资讯收集:采用互联网数据采集工具,根据S1中组建的基本语料库,面向新闻媒体、财经媒体、金融机构进行对应的新闻语句收集;
S3、新闻资讯解析:通过S2获取大量新闻资讯数据后需要对收集的新闻语句进行文本解析;
S4、新闻资讯识别:对文本解析后的新闻资讯进行多个实体单元识别,并对识别后的实体单元进行标记;
S5、新闻资讯关联:对标记后的实体单元进行判断分析以及分析彼此之间存在的隐含性关联关系;
S6、新闻结果推导:根据建立的关联关系推导出最终的新闻事件。
2.根据权利要求1所述的新闻自动推导关联机构方法,其特征在于,所述的步骤S1中对基本语料库的组建包括如下步骤:
S11、根据所要组建的基本语料库,先组建学习模型;
S12、根据收集范围,使用学习模型,收集对应的新闻语句;
S13、对收集到的新闻语句进行解析,获取解析结果;
S14、根据解析结果,进行态度分析,判断新闻语句是否有语料价值,若是则将对应新闻语句加入基本语料库,最终完成所述基本语料库的组建。
3.根据权利要求1所述的新闻自动推导关联机构方法,其特征在于,所述的步骤S2中互联网数据采集工具的对数据采集包括:预先给定初始抓取种子样本,预先给定的网页分类目录和与分类目录对应的种子样本、通过模拟用户浏览过程显示标注的抓取数据样本和通过预先设置关键词对大型垂直网站进行搜索式数据抓取。
4.根据权利要求1所述的新闻自动推导关联机构方法,其特征在于,所述的步骤S2中对新闻语句收集时还包括特定新闻主题收集,所述特定新闻主题收集根据网址种子地址仓库,在实时网站或网页抓取时对内容进行处理筛选;所述网站或网页为基于目标网页特征的所采集、存储并索引的对象。
5.根据权利要求4所述的新闻自动推导关联机构方法,其特征在于,所述网页特征包括网页的内容特征和网页的链接结构特征。
6.根据权利要求1所述的新闻自动推导关联机构方法,其特征在于,步骤S4中所述实体单元为事件、地点、人物、机构或企业中的一项或者多项的组合单元,并且实体单元通过原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以折射到这个较小的集合。
7.根据权利要求6所述的新闻自动推导关联机构方法,其特征在于,所述变量集建立的方式分为数据方法和矩阵方法。
8.根据权利要求7所述的新闻自动推导关联机构方法,其特征在于,所述矩阵方法中,所有的数据通过计算方差一协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。
9.根据权利要求8所述的新闻自动推导关联机构方法,其特征在于,所述矩阵方法的主成分方法中用建立在BERT学习规则基础上的PCA神经网络方法。
10.根据权利要求1所述的新闻自动推导关联机构方法,其特征在于,所述的步骤S3中文本解析为对收集到的语句进行中文语言分词,其具体方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
11.根据权利要求10所述的新闻自动推导关联机构方法,其特征在于,所述基于统计的分词方法包括如下步骤:
S31、使用字与字相邻共现的频率或概率反映成词的可信度;
S32、对语料中相邻共现的各个字的组合的频度进行统计,计算互现信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京思通聚宝信息技术有限公司,未经南京思通聚宝信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911374911.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图片中隐私信息保护的处理方法及装置
- 下一篇:一种仿兔毛绒纤维面料