[发明专利]一种针对政府工作报告的NLP识别方法在审
申请号: | 202110150275.3 | 申请日: | 2021-02-03 |
公开(公告)号: | CN114004218A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 陈毓敏;余哲;叶健;张宇阳;李绪生;李杨 | 申请(专利权)人: | 上海析鲸信息科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/284;G06Q50/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200433 上海市杨浦区四*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 政府工作报告 nlp 识别 方法 | ||
本发明公开了一种针对政府工作报告的NLP识别方法,涉及数据处理技术领域。通过对政府工作报告这一特殊文本通过分词+提取关键词+tf‑idf+字典赋权+分位数归一化等方法训练出来的模型,可以准确的提炼出政府工作报告中所表达出来的信息。通过识别当地政府关注和重视的产业,做出不同产业的支持度占比饼图,来更加客观认识不同区域的产业分布情况和不同年份的产业发展情况。通过对政府工作报告的程度词和情感词的识别比较,来区分政府医疗、住房、教育、养老等八大领域的执政能力和最终成效,构建政府绩效的雷达图,来从绩效角度考评政府债务融资的投资效率,从而对政府未来偿债能力有更直接的判断依据。
技术领域
本发明涉及数据处理技术领域,具体为一种基于tf-idf(term frequency–inverse document frequency)思想的、并构建金融分析产业字典和政府执政类别字典的产业支持度和政府执政能力判别方法别方法。
背景技术
总所周知,政府的工作报告决定了,当地未来一段时间的基本发展策略,对于投资者而言,这是至关重要的获取投资信息的一种手段。现阶段人们对于政府工作报告的解读主要还是依赖于人的主观判断,没有办法运用客观定量的方法来识别解读,因此对于不同的报告以及不同的人来解读同一篇政府工作报告,所得到的信息差别也是较大的,导致投资者无法获得高效有用的信息。
发明内容
针对现有技术的不足,本发明提供了一种针对政府工作报告的NLP识别方法。
2.为实现以上目的,本发明通过以下技术方案予以实现:一种针对政府工作报告的NLP识别方法,包括以下步骤:
S1:获取数据,读取历史政府工作报告文本,并且读取公司自行构建的金融分析产业字典中的产业及产业相关词;
S2:获取句子对应标签,首先剔除包含相关消极关键词的句子,随后运用Textrank提取每个句子的关键词,然后将字典中的行业词与每个句子的关键词进行完全匹配,如果匹配成功,则返回相关行业,否则则进行相关词的模糊匹配,将未匹配到的句子标记为“未知”;
S3:读取每篇报告每个句子的相关产业标签,并重新创建一个DataFrame进行保存,然后通过所有类别出现的总次数/各个类别出现的次数,在开根号,计算每个类别的idf值,如果在训练集中没有出现该类别,则将该类别出现的次数标记为1,将所得到的行业idf值进行保存,用于对新的政府工作报告的预测;
S4:读取待预测的政府工作报告,将文章按照顿号、句号、感叹号、问号进行切分句子,加入顿号作为切分句子的原因是因为在报告中,使用顿号时,代表着分割同类的并列的事;然后对于输入报告的每句话,运用Textrank提取前十个关键词,与行业类别词语以及金融分析产业字典进行匹配,进行行业标注;
S5:读取相关行业编号字典,将待预测报告中出现行业的次数小于3次的剔除出去,然后读取预训练的行业idf值,并且根据实际情况以及专业人员的先验概率的基础之上,对个人电子、集成电路、工业机器人以及石墨烯等行业的权重进行一定程度的降低,设定idf值上限,并且调低关于文化传媒以及人工智能的idf值,然后将待预测报告中的tf值与预训练得到的idf值进行相乘,得到这篇文章所包含行业的tf-idf值,进而得到该篇报告对于各个行业的产业支持度情况;
S5:收集政府工作报告,对所有的报告进行遍历,并对报告中的每句话运用Hanlp技术进行分词,剔除相关停用词;
S6:选择高频词进行人为打分,根据高频词出现的次数进行不同程度的打分,得到专业词典;
S7:将政府报告重新送入模型,得到经济运行、就业、住房、教育、医疗、养老、基建和城市管理八个方面的相关得分分布,包括相关类别的均值、中值、众数、方差以及标准差,然后根据相关得分,设置上下限,大于上限的归为上限,小于下限的归为下限,并且对数据进行归一化处理,在乘以基础分10分,得到八个方面,最低分为0分、最高分为10分的相关得分。最后计算八个方面的总得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海析鲸信息科技有限公司,未经上海析鲸信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150275.3/2.html,转载请声明来源钻瓜专利网。