[发明专利]一种用于非结构化文本的短语提取方法及装置在审
申请号: | 201910365420.2 | 申请日: | 2019-04-30 |
公开(公告)号: | CN111950271A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 周林 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/253 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 523851 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 结构 文本 短语 提取 方法 装置 | ||
本发明属于语言处理技术领域,公开了一种用于非结构化文本的短语提取方法及装置,其方法包括:生成每种短语类型的短语提取规则;获取非结构化文本;根据所述短语提取规则,从所述非结构化文本中提取出短语。本发明通过建立短语提取规则,有效解决了从非结构化文本中提取所需类型的短语的问题,不仅可获取大量短语,以用于丰富作文素材库,而且相对于人工搜集方式,搜集效率高。
技术领域
本发明属于语言处理技术领域,特别涉及一种用于非结构化文本的短语提取方法及装置。
背景技术
在当前语文作文的教学过程中,作文素材的重要性被反复强调。所谓“巧妇难为无米之炊”,如果要想写好作文就必须具有丰富的作文素材,这样写作文时才会做到下笔如有神。
目前,作文素材的积累主要通过学生自己阅读课外书籍,然后将书籍中的一些短语记录下来,以便后续写作文时进行灵活应用。但是,由于学生阅读的书籍有限,使得学生自己积累的作文短语素材不足以支撑学生写好各种类型的作文。因此,需要为学生提供一个可供直接学习的作文短语素材库。而在现有技术中,并没有一种可快速搜集作文短语素材的方法,通过人工的方式来搜集作文短语素材,不仅会耗费大量的人力和物力,且效率较低。
发明内容
本发明的目的是提供一种用于非结构化文本的短语提取方法及装置,通过建立短语提取规则,有效解决了从非结构化文本中提取所需类型的短语的问题,相对于人工搜集方式,搜集效率高。
本发明提供的技术方案如下:
一方面,提供一种用于非结构化文本的短语提取方法,包括:
生成每种短语类型的短语提取规则;
获取非结构化文本;
根据所述短语提取规则,从所述非结构化文本中提取出短语。
进一步优选地,所述生成每种短语类型的短语提取规则具体包括:
建立短语类型库,所述短语类型库包括多种短语类型;
获取每种短语类型的训练样本集,所述训练样本集包括训练文本及提取出的短语;
根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则。
进一步优选地,所述根据每种短语类型的训练样本集,生成每种短语类型对应的短语提取规则具体包括:
对训练样本集中的每个训练文本进行分词,得到每个训练文本对应的各个词语、词语的词性,以及词语的位置序列;
根据每个训练文本提取出的短语,分析得到每种短语类型对应的短语提取特征,其中,所述短语提取特征包括词性组合特征以及词语位置特征;
利用机器学习方法,根据所得到的所述提取特征,生成每种短语类型对应的短语提取规则。
进一步优选地,还包括:
获取基础词语;
所述根据所述短语提取规则,从所述非结构化文本中提取出短语具体包括:
根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语。
进一步优选地,所述根据所述短语提取规则和所述基础词语,从所述非结构化文本中提取出包含所述基础词语的短语具体包括:
在所述非结构化文本中找到所述基础词语;
以所述基础词语为基础,根据所述短语提取规则及所述基础词语的词性,从所述非结构化文本中找到符合提取特征的目标词语;
组合所述基础词语和所述目标词语,得到包含所述基础词语的短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910365420.2/2.html,转载请声明来源钻瓜专利网。