[发明专利]一种基于实体识别的文本属性自动分析与抽取技术在审
申请号: | 201710026334.X | 申请日: | 2017-01-13 |
公开(公告)号: | CN108304415A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 朴光宇;周恩策;沈刚;张育栋;夏杨 | 申请(专利权)人: | 苏州稻城信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理模块 用户端模块 实体识别 搜索模块 文本属性 自动分析 离线 抽取 检索 关键词数据 标签模块 过滤模块 检索结果 检索内容 检索引擎 连接属性 模块连接 属性标签 属性抽取 搜索结果 用户过滤 用户体验 数据集 用户端 分析 | ||
本发明公开了一种基于实体识别的文本属性自动分析与抽取技术,包括用户端模块和离线数据处理模块,所述离线数据处理模块包括数据集模块和属性抽取模块;所述用户端模块与搜索模块相连,所述搜索模块连接属性标签模块,所述属性标签模块连接过滤模块。该检索引擎进一步分析用户端输入的关键词数据,同时帮用户过滤检索结果,扩大了检索范围,提供了用户可能的感兴趣的搜索结果,增加了检索范围以及检索内容,提高了用户体验。
技术领域
本发明涉及一种检索技术,具体是一种基于实体识别的文本属性自动分析与抽取技术。
背景技术
目前的搜索引擎利用用户输入的关键词作为检索依据,而将包含用户输入关键词的数据作为检索结果返回。
此种搜索方式有个局限性,就是不能够在用户输入的关键词基础之上,拓宽用户的搜索视野,无法帮助用户发现用户之前没有想到的搜索内容。
发明内容
本发明的目的在于提供一种基于实体识别的文本属性自动分析与抽取技术,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于实体识别的文本属性自动分析与抽取技术,包括用户端模块和离线数据处理模块,所述离线数据处理模块包括数据集模块和属性抽取模块;所述用户端模块与搜索模块相连,所述搜索模块连接属性标签模块,所述属性标签模块连接过滤模块。
作为本发明进一步的方案:所属数据集模块连接互联网爬虫获取种子URL。
作为本发明再进一步的方案:所述离线数据处理模块与数据集模块相连。
作为本发明再进一步的方案:所述属性抽取技术自动抽取其文本属性信息。
作为本发明再进一步的方案:所述数据集模块与属性抽取模块相连。
作为本发明再进一步的方案:所述过滤模块连接用户端模块。
作为本发明再进一步的方案:所述属性抽取模块采用实体识别技术.
与现有技术相比,本发明的有益效果是:该检索引擎进一步分析用户端输入的关键词数据,同时帮用户过滤检索结果,扩大了检索范围,提供了用户可能的感兴趣的搜索结果,增加了检索范围以及检索内容,提高了用户体验。
附图说明
图1为基于实体识别的文本属性自动分析与抽取技术的结构示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步详细地说明。
请参阅图1,一种基于实体识别的文本属性自动分析与抽取技术,包括用户端模块和离线数据处理模块,所述离线数据处理模块包括数据集模块和属性抽取模块;所属数据集模块通过互联网获取一些种子URL,数据集模块通过爬虫技术收集市面上所有平台上的API数据;所述离线数据处理模块与数据集模块相连,数据集模块与属性抽取模块相连;所述属性抽取模块采用实体识别技术,属性抽取技术自动抽取其文本属性,如时间、地点、内容、数量等属性信息,并将信息规整分类储存于数据集模块中。
所述用户端模块与搜索模块相连,搜索模块用于属于检索用关键字,所述搜索模块连接属性标签模块,通过对关键字进行属性标签分类,所述属性标签模块连接过滤模块,过滤模块根据属性标签模块的信息进行统计分类,过滤模块连接用户端模块,过滤的信息进行检索,使得用户拓宽了搜索视野,增加了检索范围以及检索内容,提高了用户体验。
本发明的工作原理是:数据集模块首先收集数据,收集数据步骤可以从合作伙伴方获得、互联网爬虫获得等,对收集到的数据利用本专利所述基于实体识别技术自动抽取其文本属性,如时间、地点、内容、数量等属性信息,将整理过的数据规范化存入数据库中有待于用户检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州稻城信息科技有限公司,未经苏州稻城信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710026334.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大数据教学管理架构系统
- 下一篇:一种基于语义分析的多属性自动映射系统