[发明专利]一种企业关联关系信息挖掘方法及装置有效
申请号: | 201810735344.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108959575B | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 霍锦超;刘文博;杨丽娜 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联关系 关联关系信息 分句 待检测文本 挖掘 分词 词性标注 主观判断 词性 申请 算法 查找 | ||
本申请提供了一种企业关联关系信息挖掘方法及装置,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。
技术领域
本申请涉及数据挖掘领域,尤其涉及一种企业关联关系信息挖掘方法及装置。
背景技术
近年来,随着互联网、物联网和云计算三大技术的快速发展,关于企业的新闻和舆情信息量迅速增长。在企业信息量过载的情况下,为了使企业管理者可以洞察商机,做出更合理的决策,企业管理者全面准确的掌握相关领域企业的概况就显得尤为重要。
现有技术中一般通过人工在网络上查找相关企业的新闻报道等信息,从中确定企业关联关系信息,即企业与企业之间的关联关系,以及企业与个人之间的关联关系。但是互联网上的信息错综复杂,标准不统一,人工查找很难快速直接从大量的信息中提取有价值的数据信息来挖掘企业关联关系信息,导致花费大量时间,效率较低,并且人工查找极易受工作者主观影响,从而造成挖掘出来的企业关联关系信息不准确。
发明内容
本申请提供了一种企业关联关系信息挖掘方法及装置,以解决互联网上的信息错综复杂,标准不统一,人工查找很难快速直接从大量的信息中提取有价值的数据信息来挖掘企业关联关系信息,导致花费大量时间,效率较低,并且人工查找极易受工作者主观影响,从而造成挖掘出来的企业关联关系信息不准确的问题。
第一方面,本申请提供一种企业关联关系信息挖掘方法,所述方法包括:
获取待检测文本;
对所述待检测文本进行拆分处理,得到至少一个分句;
对每个所述分句进行分词并词性标注;
识别每个所述分句中的关联关系词;
判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。
第二方面,本申请提供一种企业关联关系信息挖掘装置,所述装置包括:
获取模块,用于获取待检测文本;
拆句模块,用于对所述待检测文本进行拆分处理,得到至少一个分句;
词性标注模块,用于对每个所述分句进行分词并词性标注;
第一识别模块,用于识别每个所述分句中的关联关系词;
第一确定模块,判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。
由以上技术方案可知,本申请提供了一种企业关联关系信息挖掘方法及装置,获取待检测文本;对所述待检测文本进行拆分处理,得到至少一个分句;对每个所述分句进行分词并词性标注;识别每个所述分句中的关联关系词;判断所述关联关系词是否是组织关联关系词,如果所述关联关系词为组织关联关系词时,则根据所述关联关系词所在分句中的分词词性,利用笛卡尔积算法,确定第一企业关联关系信息。因此,本申请无需工作人员在待检测文本中查找企业关联关系信息,提高企业关联关系信息挖掘的效率,并且,无需工作人员主观判断,提高挖掘的准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810735344.5/2.html,转载请声明来源钻瓜专利网。