[发明专利]基于语义分析和深度学习的智能写作辅助系统在审
申请号: | 202011085142.4 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112149428A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 陈海林;张蓬;赵绪龙 | 申请(专利权)人: | 珍岛信息技术(上海)股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F40/247;G06F40/216;G06F16/36;G06F16/338;G06F16/335;G06F3/0481 |
代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 韩立峰;刘培越 |
地址: | 200040 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 深度 学习 智能 写作 辅助 系统 | ||
1.基于语义分析和深度学习的智能写作辅助系统,其特征在于,包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息,并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述词搭配模块用于计算两个词语的关联程度,具体计算过程包括以下步骤:
步骤一:获取词语i,j在语料库中出现的频率,获取词语i,j在语料库中共同出现的频率,并将词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率发送至词搭配模块;
步骤二:所述词搭配模块获取得到词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率后,将其标记为Pi、Pj以及Pij;
步骤三:利用计算公式得到词语i,j的关联度Gij,
其中计算公式为其中α为修正系数固定值;
所述例句实时提示模块用于根据用户的当前输入,为用户提供包含词或者短语的例句;所述相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
所述主题词抽取模块具体为一种统计方法,用来评估一个词对于一个文档的重要程度,具体评估方式如下:
步骤S1:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤S2:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤S3:利用计算公式计算出词p的词频Cp,q,计算公式为其中β表示预设比例系数固定值;
步骤S4:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤S5:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤S6:利用计算公式计算逆向文件频率I,计算公式为其中γ表示预设比例系数固定值;
步骤S7:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I。
2.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统,其特征在于:所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度,具体的计算过程包括以下步骤:
步骤P1:通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度,并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块;
步骤P2:相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后,将其分别标记为l、h;
步骤P3:利用计算公式计算相似度S,其中相似度S的计算公式为其中c1、c2分别是路径长度l、公共同义词集的深度h的权重,且c1、c2∈[0,1]。
3.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统,其特征在于:所述信息获取模块用于网络信息,具体网络信息包括:词语i,j在语料库中出现的频率、词语i,j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。
4.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统,其特征在于:智能写作辅助具体表现为以下步骤:
步骤G1:当用户使用鼠标点击某个特定的词语时,词搭配模块在搭配词库中进行检索,为用户推荐与词语搭配的词;
步骤G11:词搭配模块在搭配词库中进行检索,获取与输入词语关联的词语;
步骤G12:将与输入词语关联的词语按照关联度由大到小的顺序依次排列;
步骤G13:将排列的关联词显示在用户的界面上;
步骤G2:当用户输入语句时,例句实时提示模块根据用户的当前输入,为其提供包含当前输入中词或短语的例句;
步骤G21:当用户输入语句空格键被按下时,例句实时提示模块向互联网发送http请求,例句实时提示模块自动获取用户的输入提交给互联网;
步骤G22:例句实时提示模块首先对用户的输入进行分句,提取出用户正在输入的当前句S:对句子S分词,并将S中的当前词作为查询词在句子索引库中进行检索,找出包含当前词的候选句ID:
步骤G23:在句子库中找出句子ID对应的句子信息,并计算候选句与句子S的相似度,并按其相似度进行排序,将例句显示在用户的界面上;
步骤G3:相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
步骤G31:当用户输入语句空格键被按下时,对语句进行分句,分词以及词性标注;
步骤G32:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤G33:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤G34:利用计算公式计算出词p的词频Cp,q,计算公式为其中β表示预设比例系数固定值;
步骤G35:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤G36:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤G37:利用计算公式计算逆向文件频率I,计算公式为其中γ表示预设比例系数固定值;
步骤G38:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I;
步骤G39:按其重要度值D进行排序,将例句显示在用户的界面上。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珍岛信息技术(上海)股份有限公司,未经珍岛信息技术(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011085142.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动麻将机叠牌机构
- 下一篇:一种冷凝器盘管除垢装置