[发明专利]一种公司形象提升系统的社交网络数据提取方法及系统有效
申请号: | 201911183109.2 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110991637B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 于灏;樊奕良;陈睿欣;刘睿;郑厚清;贾德香;孙艺新;王西胜;陈爽;曹瑾;李艳娜;林坤新;王玓;刘素蔚;王智敏;刘威;高洪达;崔维平;王程;李心达;柳占杰;陈光 | 申请(专利权)人: | 国网能源研究院有限公司;国网北京市电力公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F16/35;G06Q50/00 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
地址: | 102209 北京市昌平区北七*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公司 形象 提升 系统 社交 网络 数据 提取 方法 | ||
本发明公开了一种公司形象提升系统的社交网络数据提取方法及系统,一种公司形象提升系统的社交网络数据提取方法,包括以下步骤:S1:基于规则对待测数据划分模块;S2:“模式自动归纳”抽取模型建立模块;S3:基于负反馈的规则、模型调整模块;一种公司形象提升系统的社交网络数据提取系统,所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块;本发明能在大量的社交媒体数据中提取出精确的关键信息,相对于现有技术方案,本技术路线只需使用少量规则的“规则判断”,就可以替代“人工标注”获得初始标准语料,降低了人工的工作量和出错率。
技术领域
本发明涉及社交网络数据提取技术领域,具体为一种公司形象提升系统的社交网络数据提取方法及系统。
背景技术
目前,网络平台已成为我国最主要的社交模式之一,同时也是当今社会信息舆论传播的最快传播途径。在当今市场上,通过网络社交媒体来提升公司品牌价值、更好的分析客户需求以服务客户,已成为了重要的途径。与此同时,在这些社交媒体上每日都涌现出大量能公开访问且实时的媒体数据。在这每日更新的大数据中,一方面,提供了大量包含了已有客户或是目标客户的需求点以及公司业务不足之处的信息;另一方面,能及时获得实时舆论焦点,在舆论变成失去真实性甚至是失控之前,使得相关部门能监测网民情绪变化,并进行有效引导。这时,在大量的数据中得到精确的关键字,能让相关部门在最短的时间内得出用户或者舆论的具体结论,从而采取措施。
其中,最难的是准确地从大数据中提取有用的关键字;目前的处理技术:利用提取方法,即针对特定内容在网页中的上下文信息,编写正则表达式等规则,然后对生成的规则按网络的传导途径进行连接和整理,并提出一种从训练后的三层前馈网络中抽取分类规则。首先对每个隐层结点与输出层结点之间的规则(规则集1)和输入层结点与隐层结点之间的规则(规则集2);最后将两部分规则进行合并得到最终的分类规则,对符合公司具体服务数据作进一步分析处理,从而构建相对独立的公司用户需求预测模型以及情绪判别模型。
传统的规则抽取技术需要针对所有站点开展规则编制、维护和测试,工作量较大且容易出错,且召回率较低、健壮性不足,难以覆盖全面的结构化字段和关键指标。社交媒体所包含的信息,大多需要进行挖掘分析与计算,从而获得关键字指标。如博客的标题,微博的评论,微信公众号的点赞数等,这些不同的社交媒体展示信息的结构方式、指标都不尽相同,仅仅是利用规则提取技术是不能适应当今社交媒体大数据信息的处理,同时,目前的规则抽取基于结构方式过分依赖网页结构,这就导致了出现一个新的信息源就要重新构造一套抽取程序,造成系统的可扩展性差。
发明内容
本发明的目的在于提供一种公司形象提升系统的社交网络数据提取方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种公司形象提升系统的社交网络数据提取方法,包括以下步骤;
S1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;
S2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;
S3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作。
在S1中,对特定内容在网页中的上下文信息,编写正则表达式等规则,基于此规则对待抽取的原始文本语料进行筛与文本提取,抽取出命中规则的语料作为模块二的输入,且语料为1%,而剩下占原始语料99%的未命中规则的语料不参与模块二的计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网能源研究院有限公司;国网北京市电力公司,未经国网能源研究院有限公司;国网北京市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911183109.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种筛选控件
- 下一篇:一种公司形象提升系统的社会网络模型构建模块