[发明专利]信息挖掘方法、电子装置及可读存储介质有效
申请号: | 201710313993.1 | 申请日: | 2017-05-05 |
公开(公告)号: | CN107220300B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 金戈;徐亮;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 信息对应 预设结构 可读存储介质 电子装置 核心观点 信息挖掘 词性标注 分词处理 预先确定 树构建 数据源 词性 解析 挖掘 | ||
本发明公开了一种信息挖掘方法、电子装置及可读存储介质,该方法包括:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。本发明实现对信息的深度挖掘,准确获取到信息中的核心观点信息。
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息挖掘方法、电子装置及可读存储介质。
背景技术
目前,在信息挖掘和推送领域,业界通常是实时或者定时在预先确定的数据源(例如,各大新闻网站)对特定类型的信息(例如,新闻标题信息)进行分析筛选,以自动挖掘出目标信息。现有的分析筛选方案是:预先训练好识别信息的类别标签的分类器;再利用训练好的分类器对特定类型的信息的类别标签进行识别,以识别出属于预设类别标签的目标信息。这种现有的分析筛选方案只能识别出属于预设类别标签的目标信息,无法对目标信息指向的核心观点信息进行深度挖掘,使得目标信息的挖掘和推送的准确性无法保障,容易出错。
发明内容
本发明的主要目的在于提供一种信息挖掘方法、电子装置及可读存储介质,旨在有效挖掘出核心观点信息。
为实现上述目的,本发明提供的一种信息挖掘方法,所述方法包括以下步骤:
实时或者定时从预先确定的数据源获取特定类型的信息;
对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;
根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;
在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。
优选地,所述对获取的各个信息进行分词处理的步骤包括:
根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。
优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:
根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;
为各个信息的各个分词标注对应的词性。
优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710313993.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种LED灯加工装置
- 下一篇:一种元素测井中子俘获伽马能谱的获取方法