[发明专利]基于机器学习的新词识别方法及终端设备在审
申请号: | 201811198025.1 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109472022A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 吴壮伟;陈志辉;钟宇;凌羽;赵小梅;满龙林 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06F16/35 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于机器学习的新词识别方法及终端设备,包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对候选字符串中的任一字符串,将字符串与预设停用词库中的前停词、后停词和广义停词进行比对;若字符串不属于广义停词、字符串的第一个字不属于前停词、以及字符串的最后一个字不属于后停词,则判断字符串为新词,将字符串收录至新词词库。本发明通过深度神经网络分词模型对待处理文本进行分词,通过筛选字符串的长度降低计算量,以及将字符串与预设停用词库进行比对,快速精准的获取新词。 | ||
搜索关键词: | 字符串 词库 分词 预设 候选字符串 基于机器 神经网络 新词识别 终端设备 比对 停用 文本 筛选 第一个字 分词处理 快速精准 计算量 学习 | ||
【主权项】:
1.一种基于机器学习的新词识别方法,其特征在于,该方法包括:通过深度神经网络分词模型,对待处理文本进行分词处理,得到多个字符串;对所述多个字符串进行筛选,获得字符串长度在预设长度范围内的字符串作为候选字符串;针对所述候选字符串中的任一字符串,将所述字符串与预设停用词库中的前停词、后停词和广义停词进行比对,其中,所述前停词是指出现在词尾但不会出现在词首的词,所述后停词是指出现在词首但不会出现在词尾的词,所述广义停词为预设置的已知词汇;若所述字符串不属于所述广义停词、所述字符串的第一个字不属于所述前停词、以及所述字符串的最后一个字不属于所述后停词,则判断所述字符串为新词,将所述字符串收录至新词词库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811198025.1/,转载请声明来源钻瓜专利网。