[发明专利]一种分词算法系统在审
申请号: | 201810676420.X | 申请日: | 2018-06-27 |
公开(公告)号: | CN108874780A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 黄思夏;毛小兰;林楠;岳校;谭锦钿 | 申请(专利权)人: | 清远墨墨教育科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州圣理华知识产权代理有限公司 44302 | 代理人: | 李唐明;顿海舟 |
地址: | 511500 广东省清远市清城区高新技术*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种分词算法系统,包括:录入模块、句子划分模块、列表导入模块、规则生成模块、分词模块、数据处理模块及存储器;所述句子划分模块、规则生成模块以及分词模块分别与所述数据处理模块连接;所述句子划分模块把从录入模块接收到的文本根据文本中的标点符号进行句子的划分;所述列表导入模块用于导入列表并发送到规则生成模块,所述规则生成模块根据导入的单词列表、短语列表和单词的原型与变形列表构建出匹配规则列表;所述分词模块通过获取所述句子以及匹配规则列表,按照匹配规则在句子中匹配出句子中存在的单词和短语;所述数据处理模块通过调取所述匹配结果来进行统计,生成单词或短语频次表。 | ||
搜索关键词: | 句子 规则生成模块 数据处理模块 单词 短语 分词模块 划分模块 匹配规则 导入模块 录入模块 算法系统 分词 文本 标点符号 列表构建 匹配结果 存储器 调取 匹配 并发 原型 变形 统计 | ||
【主权项】:
1.一种分词算法系统,其特征在于,包括:录入模块、句子划分模块、列表导入模块、规则生成模块、分词模块、数据处理模块及存储器;所述存储器与数据处理模块连接,用于数据的存储;所述录入模块与句子划分模块连接,用于文本的录入或导入,并把录入或导入的文本发送到所述句子划分模块;其中,所述录入模块除了对文本的文本内容进行录入,还对文本的属性进行录入;所述句子划分模块与数据处理模块连接,所述句子划分模块把接收到的文本根据文本中的标点符号进行句子的划分,并通过所述数据处理模块把划分好的句子存储于所述存储器;所述列表导入模块与规则生成模块连接,用于导入列表并发送到规则生成模块;所述列表包括:单词列表、短语列表、单词的原型与变形列表;所述规则生成模块与数据处理模块连接,所述规则生成模块根据导入的单词列表、短语列表和单词的原型与变形列表构建出匹配规则列表,使句子中出现的单词,无论是单词的原型还是变形都可以匹配到所述单词的原型,并通过所述数据处理模块把所述匹配规则列表述存储于所述存储器;所述分词模块与数据处理模块连接,通过获取所述存储器中存储的句子以及匹配规则列表,按照匹配规则匹配出句子中存在的单词和短语,并通过所述数据处理模块把匹配的结果存储于存储器;所述数据处理模块通过调取存储器中存储的匹配结果来进行统计,生成单词或短语频次表,所述单词或短语频次表包括每一个匹配到的单词或短语,以及每一个匹配到的单词或短语出现的形式及出现的次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清远墨墨教育科技有限公司,未经清远墨墨教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810676420.X/,转载请声明来源钻瓜专利网。