[发明专利]一种分词算法系统在审
申请号: | 201810676420.X | 申请日: | 2018-06-27 |
公开(公告)号: | CN108874780A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 黄思夏;毛小兰;林楠;岳校;谭锦钿 | 申请(专利权)人: | 清远墨墨教育科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州圣理华知识产权代理有限公司 44302 | 代理人: | 李唐明;顿海舟 |
地址: | 511500 广东省清远市清城区高新技术*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 规则生成模块 数据处理模块 单词 短语 分词模块 划分模块 匹配规则 导入模块 录入模块 算法系统 分词 文本 标点符号 列表构建 匹配结果 存储器 调取 匹配 并发 原型 变形 统计 | ||
1.一种分词算法系统,其特征在于,包括:录入模块、句子划分模块、列表导入模块、规则生成模块、分词模块、数据处理模块及存储器;
所述存储器与数据处理模块连接,用于数据的存储;
所述录入模块与句子划分模块连接,用于文本的录入或导入,并把录入或导入的文本发送到所述句子划分模块;其中,所述录入模块除了对文本的文本内容进行录入,还对文本的属性进行录入;
所述句子划分模块与数据处理模块连接,所述句子划分模块把接收到的文本根据文本中的标点符号进行句子的划分,并通过所述数据处理模块把划分好的句子存储于所述存储器;
所述列表导入模块与规则生成模块连接,用于导入列表并发送到规则生成模块;所述列表包括:单词列表、短语列表、单词的原型与变形列表;
所述规则生成模块与数据处理模块连接,所述规则生成模块根据导入的单词列表、短语列表和单词的原型与变形列表构建出匹配规则列表,使句子中出现的单词,无论是单词的原型还是变形都可以匹配到所述单词的原型,并通过所述数据处理模块把所述匹配规则列表述存储于所述存储器;
所述分词模块与数据处理模块连接,通过获取所述存储器中存储的句子以及匹配规则列表,按照匹配规则匹配出句子中存在的单词和短语,并通过所述数据处理模块把匹配的结果存储于存储器;
所述数据处理模块通过调取存储器中存储的匹配结果来进行统计,生成单词或短语频次表,所述单词或短语频次表包括每一个匹配到的单词或短语,以及每一个匹配到的单词或短语出现的形式及出现的次数。
2.根据权利要求1所述的一种分词算法系统,其特征在于:
所述短语列表包括特殊短语列表;所述规则生成模块根据特殊短语列表和单词的原型与变形列表,列出特殊的短语的所有匹配形式,形成特殊短语的匹配规则列表,并存储到存储器中。
3.根据权利要求2所述的一种分词算法系统,其特征在于:
所述匹配结果包括若干匹配项,每一个匹配项均包括:句子ID、匹配到的单词或短语以及单词或短语在句子中的起始和终止位置信息;其中,所述起始位置信息为单词或短语中的第一个单词的首字母在句子中的位置;所述终止位置信息为单词或短语中的最后一个单词的最后一个字母在句子中的位置。
4.根据权利要求3所述的一种分词算法系统,其特征在于,还包括审核模块,所述审核模块与数据处理模块连接;
若相同的起始位置和终止位置上存在两个或以上的匹配项,数据处理模块判断该匹配项存在歧义,并把所述具有歧义的匹配项以及对应的句子发送到审核模块,由审核模块生成歧义项列表,人工对歧义项列表中的歧义项进行再确认后,审核模块把人工确认信息反馈到数据处理模块,并在存储器中单独存储。
5.根据权利要求4所述的一种分词算法系统,其特征在于:
所述句子划分模块还包括散列单元;所述散列单元对每一个划分的句子进行散列算法变换,得出每个句子对应的散列值。
6.根据权利要求5所述的一种分词算法系统,其特征在于:
所述句子划分模块还包括标记单元;所述标记单元生成输入文本的文本ID,并结合文本ID以及所述的散列值生成句子ID,并对每一个句子进行标记,关联句子与该句子对应的句子ID以及句子的属性。
7.根据权利要求6所述的一种分词算法系统的一种歧义单词或短语的判断方法,其特征在于,包括以下步骤:
S1:按照句子ID把所述匹配结果划分为若干个子集,使每一个子集中的每一个匹配项都具有相同的句子ID,且每一个句子ID有且只有一个子集;
S2:调取一个子集:调取一个子集中每一个匹配项的起始和终止位置信息;
S3:判断通过步骤S2调取的信息中,是否存在起始位置和终止位置均相同的匹配项:若相同的起始位置和终止位置有且只有一种匹配结果,则判断为没有歧义;若相同的起始位置和终止位置上存在两个或以上的匹配项,判断该单词或短语存在歧义,并把存在歧义的匹配项标识为歧义项;
S4:重复步骤S2和S3,直至完成文本中所有子集的判断,然后进入步骤S5;
S5:把通过步骤S4得到的各个歧义项以及各个歧义项对应的句子发送到所述审核模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清远墨墨教育科技有限公司,未经清远墨墨教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810676420.X/1.html,转载请声明来源钻瓜专利网。