[发明专利]社会场景自动识别及其检查计划动态生成方法在审
申请号: | 202210657033.8 | 申请日: | 2022-06-10 |
公开(公告)号: | CN115062107A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 宋超伟;谢秋妹;杨立功 | 申请(专利权)人: | 浙江嘉兴数字城市实验室有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/211;G06K9/62 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 张晓英 |
地址: | 314001 浙江省嘉*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社会 场景 自动识别 及其 检查 计划 动态 生成 方法 | ||
1.一种社会场景自动识别及其检查计划动态生成方法,其特征在于,包括以下步骤:
S1.接收开放式社会性事件文本;
S2.分别抽取每个社会性事件文本中的场景和事件;
S3.将场景与场景舱中的已知场景进行匹配,根据匹配结果将相应的场景归类为已知场景或未知场景;
S4.将已知场景列入待处理清单,将未知场景列入候选场景列表;
S5.将候选场景列表中满足推送条件的场景,或场景及相应事件推送给相关部门以供相关部门添加相应未知场景至场景舱;
基于待处理清单动态生成检查清单,并基于检查清单和预警规则向相关部门派发检查工作。
2.根据权利要求1所述的社会场景自动识别及其检查计划动态生成方法,其特征在于,步骤S1中,所述的开放式社会性事件文本包括舆情热点和公众诉求;
对于舆情热点进行社会性事件甄别,采用网络爬虫从各大新闻载体中爬取娱乐、体育和国际版块以外的新闻报道以筛选出新闻类社会性事件后进入步骤S2;
对于公众诉求,根据数据字排除咨询类事件以筛选出民生类社会性事件后进入步骤S2。
3.根据权利要求2所述的社会场景自动识别及其检查计划动态生成方法,其特征在于,步骤S1中,通过以下方式从新闻载体中筛选出新闻类社会性事件:
S11.锁定舆情热点,累计相应事件在所有新闻载体中的浏览量、评论数、点赞量、转发量,并基于浏览量、评论数、点赞量、转发量判断是否满足热点条件,若是,则将相应事件作为舆情热点;
S12.排除非社会性事件,提取步骤S21中锁定的舆情热点事件,采用经过训练的BERT模型判断相应舆情热点是否为娱乐、体育和国际的非社会性事件以筛选出新闻类社会性事件。
4.根据权利要求1所述的社会场景自动识别及其检查计划动态生成方法,其特征在于,步骤S2具体包括:
S21.根据百度PaddleNLP的中文全词类序列标注工具生成标注序列,形如:Tner={(word1,tag1),(word2,tag2),...,(wordm,tagm)},其中tagi的值域为中文全词类的实体标签,wordi为tagi对应到输入文本中的词串;
S22.基于数据结构双向链表合并序列Tner中相邻同标签、不及物动词和助词、副词和修饰词、场景词和方位词等词串得到新的标注序列T′ner;
S23.将序列T′ner分割成Tword和Ttag两个序列后,采用多关键词匹配算法WuManber找到场景词标签在Ttag序列中的位置,并根据位置将Tword和Ttag划分成子句集;
S24.从中文全词类序列标注工具的标签结果集中统计出主谓宾、主谓及动宾的事件抽取的模式串;
S25采用WuManber算法从Ttag子串中找出事件模式串的匹配位置,并根据匹配位置在对应的Tword子串中查找主谓宾、主谓及动宾词串以抽取场景和事件;
S26当事件抽取模板对当前句子抽取失效时,采用依存句法分析器抽取文本的主谓宾三元组作为事件抽取的补充。
5.根据权利要求4所述的社会场景自动识别及其检查计划动态生成方法,其特征在于,步骤S3中的匹配为相似度匹配,且先对步骤S2中抽取出来的主谓宾、主谓及动宾词串进行同义词替换计算以对词串进行标准化,然后与场景舱中的已知场景进行相似度匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江嘉兴数字城市实验室有限公司,未经浙江嘉兴数字城市实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210657033.8/1.html,转载请声明来源钻瓜专利网。