[发明专利]一种热点分析建模方法在审
申请号: | 202010135826.4 | 申请日: | 2020-03-02 |
公开(公告)号: | CN111368539A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 周玲;朱州;张克贤;张刚;黄渊军;杨松;吴方权;曾路;钟璐;殷志易;吴漾;葛松;方继宇;谢祈鸿;万欣欣;宋奕;汪浩 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 胡绪东 |
地址: | 550002 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点 分析 建模 方法 | ||
本发明公开了一种热点分析建模方法,该方法包括步骤:数据获取:从客服工单信息表中选取数据宽表作为建模数据;数据处理:剔除来电内容为‘无意义的来电内容工单;搭建停用词词库:搭建通用的停用词词库,根据停用词库中文分词,根据分词结果对停用词词库进行更新;分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典,根据通用词库进行中文分词,分词结果进行去停用词处理;构建分词词典;提取关键词:根据停用词词库以及自定义词典,选取tf‑idf的关键词提取方法进行关键词提取。本发明关键词提取方法准确率最高,且停用词词库和分词词库不断更新,词库不断丰富,分词以及关键词提取的准确率越高。
技术领域
本发明属于电力管理技术领域,具体涉及一种热点分析建模方法。
背景技术
关于热点分析问题的中,最重要的问题是文本分词的准确性,高质量的文本分词结果,可极大的提高热点分析结果的准确率,但大多关于中文分词的研究都是基于通用词典,分词结果会将电力专业词汇进行拆分,混淆专业词汇的含义。
发明内容
本发明要解决的技术问题是:提供一种热点分析建模方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种热点分析建模方法,该方法包括以下步骤:
(1)数据获取:从客服工单信息表中选取客服工作单标识、供电单位、业务子类标识、受理时间、来话内容字段组成的数据宽表作为建模数据;
(2)数据处理:剔除来电内容为‘测试’、为空、‘1’和‘。’的来电内容工单;
(3)搭建停用词词库:搭建通用的停用词词库,根据停用词库进行第一次中文分词,根据分词结果对停用词词库进行更新,将对电力行业无用的词汇进行添加到停用词词库中,不断进行更新停用词词库,更新停用词词库也就是特征选取,剔除一些对于电力专业无关紧要的词,无关紧要的词包括‘客户’和‘一些’,将无关紧要的词更新到停用词词库中;
(4)分词:利用结巴中文分词方法对客服工单中的来电内容进行中文分词,其中分词用到的分词词典为通用词典(结巴分词自带词典,是适合所有场景的通用词典,但是相对的电力专业词汇较少),根据通用词典进行中文分词,分词结果进行去停用词处理;
(5)构建分词词典:根据步骤(3)中更新的停用词词库以及步骤(4)中中文分词结果,利用语义槽的处理,对去除停用词之后的分词结果进行位置匹配,若去除停用词之后,相邻词汇的位置信息也相差1,则将二者进行结合,组合成短语,将得到的短语结果进行人工筛选,选取电力专业的专业词汇进行保存,得到关键短语,将以上得到的关键短语进行保存,基于以上关键短语构建自定义分词词典;
(6)提取关键词:根据步骤(5)中停用词词库以及自定义词典,选取tf-idf的关键词提取方法进行关键词进行提取;
tf_idf的计算公式如下:
计算词频:
计算逆文档率:
计算tf_idf:tf_idf=tf×idf。
tf_idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
语义槽具体处理流程如下:
1)根据通用的分词词典将原始工单内容进行分词处理;
2)针对分词结果进行特征筛选,将与电力专业相关性低的词进行剔除;
3)将与电力专业相关性低的词之后剩余的关键词词汇带到原始工单内容中进行文本搜索,文本搜索的范围就是以原始工单内容的长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010135826.4/2.html,转载请声明来源钻瓜专利网。