[发明专利]一种从文本提取所需内容的方法有效

申请号：	201410667560.2	申请日：	2014-11-19
公开（公告）号：	CN104360993B	公开（公告）日：	2018-03-30
发明（设计）人：	彭宏利	申请（专利权）人：	广州极盛信息科技开发有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	广州市越秀区哲力专利商标事务所(普通合伙)44288	代理人：	汤喜友
地址：	510000 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及从文本提取所需内容的方法及装置。该方法包括以根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；接收用户输入的标签，提取出用户需要的主语以及目标查找词，根据预设的同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子。本发明能够有效提高文本内容的提取效率。
搜索关键词：	一种文本提取内容方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种从文本提取所需内容的方法，其特征在于，包括以下步骤：步骤1、根据预设的分词包对目标文本进行预处理，以使所述目标文本的每个句子中的每个词赋予词性类别，所述词性类别包括主语、谓语、宾语、定语、状语和补语；步骤2、接收用户输入的标签，根据预设的分词包对所述标签中的每个词赋予词性类别，根据依存句法提取出所述标签中的主语以及目标查找词，根据同义词词林和语义场的类义词，统计目标文本的每个句子中与所述目标查找词同义的类义词出现的总次数，将总次数超过预设阈值的句子保存至提取库；步骤3、计算提取库中每个句子各自的向量值，并根据所述向量值计算每两个句子之间的夹角，若出现夹角小于预设角度的两个句子，则随机删除该两个句子中的一个句子；在步骤1之前还有以下步骤：步骤11、接收用户设置的关键词和该关键词的权重，以及接收用户上传的文本；步骤12、根据公式一选取关联度大于预设值的文本作为目标文本；公式一为：其中，G为文本的关联度，Pn为第n个关键词在文本中出现的次数，Mn为第n个关键词的权重，L为预设次数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州极盛信息科技开发有限公司，未经广州极盛信息科技开发有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410667560.2/，转载请声明来源钻瓜专利网。

上一篇：基于自建数据库连接池的关系型数据库的访问方法和系统
下一篇：一种多平面分离式多分区计算机体系结构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从文本提取所需内容的方法有效

专利文献下载