[发明专利]一种基于文本挖掘的金融类逾期短信智能判别方法有效

申请号：	201610951973.2	申请日：	2016-11-02
公开（公告）号：	CN106547738B	公开（公告）日：	2019-05-07
发明（设计）人：	邱峰;张满才	申请（专利权）人：	北京亿美软通科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06Q40/02
代理公司：	北京永创新实专利事务所 11121	代理人：	祗志洁
地址：	100025 北京市朝阳区四惠东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于文本挖掘的金融类逾期短信智能判别方法，属于文本数据挖掘领域。本发明方法主要包括：获取短信文本进行分词，计算短信文本的相似度，提取短信模板；对短信模板抽样标注是否为金融逾期短信；对所有短信模板进行分词，挖掘新词和领域词组，形成新词库；用新词库对短信模板重新分词，提取对逾期判别具有重要价值的分词，组成特征向量空间；将标注的短信模板作为训练数据，采用支持向量机算法训练金融逾期分类器模型，训练好后输入所有短信，进行逾期分类判别。采用本发明方法，可以快速地从大量短信文本中提取金融逾期类相关的短信，从而为个人征信业务提供重要参考价值。
搜索关键词：	一种基于文本挖掘金融类逾期短信智能判别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，包括以下步骤：步骤1：批量获取通过短信服务平台推送的短信文本；步骤2：对短信文本逐条进行分词，并去除停用词；步骤3：根据分词结果，计算两个短信文本的相似度；设置相似度阈值，若两条短信文本的相似度大于阈值，则认为两条短信相似，属于同一个模板，提取短信模板；步骤4：对所提取出的短信模板，抽样人工标注其是否为金融逾期短信；步骤5：对所提取出的所有短信模板进行分词，并挖掘新词和领域词组；步骤6：将步骤5得到的新词和领域词组加入分词词库，形成新词库；步骤7：对步骤3提取出的所有短信模板利用新词库重新分词，通过TF‑IDF算法计算各个分词的重要程度，提取对逾期判别具有重要价值的分词；步骤8：将步骤7提取的分词组成词向量，构成特征空间Feature＝(to₁,to₂,…,to_n)，其中，to_i为步骤7提取的分词，i＝1,2,…,n；步骤9：将步骤4标注的短信模板作为训练数据，采用支持向量机算法训练金融逾期分类器模型；步骤10：将所有短信文本作为测试数据，输入训练好的金融逾期分类器模型，进行逾期分类判别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京亿美软通科技有限公司，未经北京亿美软通科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610951973.2/，转载请声明来源钻瓜专利网。

上一篇：耐冲击比水轻隔音的泥塑玻复合隔热泡沫墙
下一篇：一种可调节的家用装饰背景墙

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本挖掘的金融类逾期短信智能判别方法有效

专利文献下载