[发明专利]一种环境类投诉举报文本自动标注和分类方法在审
申请号: | 202110274415.8 | 申请日: | 2021-03-14 |
公开(公告)号: | CN113065341A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 范青武;杨凯;陈光;王子栋 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/289;G06F16/33;G06K9/62;G06N3/02 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 环境 投诉 举报 文本 自动 标注 分类 方法 | ||
本发明提供一种环境类投诉举报文本自动标注和分类方法,属于文本特征提取与文本分类领域。本发明通过从大量无标签数据中提取出不同领域对应的特征触发词,构建出对应领域特征词典;利用词典和文本相似度计算可以对不同领域的文本进行自动标注,将无标签数据转化为有标签数据,并利用其对神经网络进行训练,得到合适的分类模型。相比于现有技术,本发明减少了由人工标注数据所引起的误差,节省人力与时间;避免了无监督学习方式带来的准确率低、模型复杂、算力要求高等问题;构建的分类模型具有较强的泛化能力,并且可以在模型部署上线后,不断进行升级与改进。
技术领域
本发明涉及文本特征提取与文本分类领域,具体涉及一种环境类投诉举报文本自动标注和分类方法。
背景技术
涉及环境类的监督举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升一定的事件处理效率。但就目前所获取到的数据来看,绝大多数的投诉数据没有标签,再结合投诉举报文本具有口语化严重、表述不清的特点,直接构建分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。因此,本发明提出将自动标注与深度学习模型相结合,实现投诉举报类文本自动分类的任务。
投诉举报分类问题的实质就是文本分类问题。针对文本分类领域,目前相关的工作主要分为两种方式:基于知识工程的分类方法和基于机器学习的分类方法。基于知识工程等方法要求在领域专家的辅助下对每一个分类的特征进行人工判定,给出识别规则,这种方法耗时耗力,并且很依赖专家的水平。随着科学技术的不断发展,很多学者提出利用机器学习的方法实现文本分类,针对特定领域实现了投诉举报文本的自动分类功能,一定程度上节省了人力物力。
目前在文本分类研究领域中,针对投诉举报文本进行分类的研究不多,并且都只集中在少数特定领域,并没有关于环境类投诉举报文本进行专门研究的先例,而且环境类投诉举报文本自动分类尚面临如下问题:
1)不同领域、行业所存在的问题各不相同,例如电信行业的投诉信息往往会包含通话、手机信号、网络质量等大量相关的专业词汇;而环境类的投诉信息更多的是有关大气污染、噪音污染等的描述。因此,根据某一领域建立起的分类模型其普适性就显得较差。
2)投诉举报文本存在语句冗长、表述不清、语法随意等问题。例如,有关水环境的投诉举报文本大概率会包括“污水”、“污染”等词汇,这些词汇并不能反映水污染具体原因。
3)针对水环境领域,结合从相关部门获取的数据来看,仅有少部分数据带有污染源类别标注,并且其分类模式较为粗放,仅有“工业废水”、“矿山废水”、“生活废水”、“其他”四大类。这种分类体系无法快速准确地根据其所分类定位问题所在,给处理污染事件的相关工作人员带来了一定的困难。
综上所述,绝大多数的环境类投诉举报数据没有标签,为文本分类任务带来了巨大的困难。传统的人工标注方式开销昂贵,费时费力,且容易受到标注者主观的影响,而直接利用深度学习网络搭建分类器,则会面临模型复杂、算量巨大的问题。所以,发明一种环境类投诉举报文本自动标注和分类方法具有重要的意义。
投诉举报文本的口语化、非结构化等特点使得仅依靠少量带有标签的样本进行监督学习的方式往往不具备较强的泛化能力;选择不依赖标签的无监督学习,则需要面临搭建复杂的深度神经网络的问题,况且,这些无标签数据又来源于不同的领域,而这些不同的领域又拥有各自独特的知识表达方式,对于机器学习模型来说,要解决上述问题,需要花费大量算力和时间去学习该领域独有的特征,并且无法保证训练得到的模型的性能。
发明内容
针对以上问题,本发明提供一种可以对环境类投诉举报文本进行自动标注和分类的方法,能够解决环境类投诉举报数据标签缺失以及无法根据污染源类型自动分类的问题,具体包括以下步骤:
S1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;
S2:对样本数据进行预处理,包括中文分词、去停用词、滤除过短文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110274415.8/2.html,转载请声明来源钻瓜专利网。