[发明专利]信息挖掘方法、电子装置及可读存储介质有效
申请号: | 201710313993.1 | 申请日: | 2017-05-05 |
公开(公告)号: | CN107220300B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 金戈;徐亮;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 信息对应 预设结构 可读存储介质 电子装置 核心观点 信息挖掘 词性标注 分词处理 预先确定 树构建 数据源 词性 解析 挖掘 | ||
1.一种信息挖掘方法,其特征在于,所述方法包括以下步骤:
实时或者定时从预先确定的数据源获取特定类型的信息;
对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;
根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息;
所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:
A1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;
A2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;
A3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;
A4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;
A5、重复执行上述步骤A3和A4,直到确定出各个节点分支的最后一级节点对应的分词;
所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:
基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;
分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。
2.如权利要求1所述的信息挖掘方法,其特征在于,所述对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。
3.如权利要求1或2所述的信息挖掘方法,其特征在于,所述对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;
为各个信息的各个分词标注对应的词性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710313993.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LED灯加工装置
- 下一篇:一种元素测井中子俘获伽马能谱的获取方法