[发明专利]一种公司形象提升系统的社交网络数据提取方法及系统有效
申请号: | 201911183109.2 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110991637B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 于灏;樊奕良;陈睿欣;刘睿;郑厚清;贾德香;孙艺新;王西胜;陈爽;曹瑾;李艳娜;林坤新;王玓;刘素蔚;王智敏;刘威;高洪达;崔维平;王程;李心达;柳占杰;陈光 | 申请(专利权)人: | 国网能源研究院有限公司;国网北京市电力公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F16/35;G06Q50/00 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
地址: | 102209 北京市昌平区北七*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公司 形象 提升 系统 社交 网络 数据 提取 方法 | ||
1.一种公司形象提升系统的社交网络数据提取方法,其特征在于,包括以下步骤;
S1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;
S2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;
S3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作;
在S1中,对特定内容在网页中的上下文信息,编写正则表达式等规则,基于此规则对待抽取的原始文本语料进行筛与文本提取,抽取出命中规则的语料作为模块二的输入,且语料为1%,而剩下占原始语料99%的未命中规则的语料不参与模块二的计算;
在S2中,完成模型训练的准备工作包括:指示词词库的构建、特征模板的构建与训练/测试语料的选择与标注,准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征,并设定阈值进行特征筛选,最后将词汇和特征组合转换为词向量注入条件随机场模型,使用Improved Iterative Scaling改进的迭代尺度法训练参数,得到一个可以用于预测实体的最终模型。
2.根据权利要求1的一种公司形象提升系统的社交网络数据提取方法,其特征在于:在S3中:基于负反馈思想对“模式自动归纳”抽取模型进行测试,以测试样本集在抽取模型上的测试正确率作为判断标准,对该抽取模型是否符合需求进行判断。
3.一种实施权利要求1或2所述方法的公司形象提升系统的社交网络数据提取系统,其特征在于:所述“模式自动归纳”抽取模型建立模块包括模型预处理子模块、基于CRF的文本序列标注子模块与基于改进的迭代尺度法的模型训练子模块;基于条件随机场模型,提出采用人工智能的序列标注算法与规则提取相结合的技术路线,解决异构社交媒体关键信息提取。
4.根据权利要求3的一种公司形象提升系统的社交网络数据提取系统,其特征在于:所述模型预处理子模块,将基于规则的待测数据划分模块中命中规则的语料作为该模块的输入数据;基于CRF的文本序列标注子模块,使用了开源的“自动序列标注“类算法CRF++进行文本的自动标注,构建“模式自动归纳”抽取模型,提出了使用基于改进的迭代尺度法的模型训练子模块,使用改进的迭代尺度法进行模型参数估计,提出了初步特征模板和组合特征模板,进行词性的分析,词组的组合以及关键信息的提取;基于改进的迭代尺度法的模型训练子模块,条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大似然估计。
5.根据权利要求3的一种公司形象提升系统的社交网络数据提取系统,其特征在于:所述基于负反馈的规则、模型调整模块,补充指定的规则数量,逐步将模型的正确率提升,得到最终训练模型。
6.根据权利要求5的一种公司形象提升系统的社交网络数据提取系统,其特征在于:所述最终训练模型可作为正式的抽取模型部署,对原始预料直接进行抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网能源研究院有限公司;国网北京市电力公司,未经国网能源研究院有限公司;国网北京市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911183109.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种筛选控件
- 下一篇:一种公司形象提升系统的社会网络模型构建模块