[发明专利]基于信息提取的场景生成方法及场景生成系统的存储介质有效
申请号: | 201910186096.8 | 申请日: | 2019-03-12 |
公开(公告)号: | CN109918509B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 顾峰;赵娜 | 申请(专利权)人: | 明白四达(海南经济特区)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 黑龙江立超同创知识产权代理有限责任公司 23217 | 代理人: | 杨立超 |
地址: | 572025 海南省三亚市崖州*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 提取 场景 生成 方法 系统 存储 介质 | ||
1.基于信息提取的场景生成方法,其特征在于,包括以下步骤:
步骤一、对待测文本进行分段并进行字数检测,确定待测文本的分词单位和体裁分类信息;然后进行分词,之后进行词性标记,将词性标注为名词的词语作为特征词,并构成分词单位特征词集;
所述体裁分类信息包括绝句、律诗、长篇诗、词和其他类,所述其他类包括除了绝句、律诗、长篇诗、词以外的所有形式的类型;
步骤二、将待测文本分词单位对应的分词单位特征词集输入题材细节信息提取模型,得到待测文本的分词单位的题材细节信息和对应的题材典型词库;
所述题材细节信息提取模型的建立过程包括以下步骤:
步骤1.1、将由若干已知文本构成的语料库中的每个文本划分成分词单位,利用分词工具对分词单位进行分词;
步骤1.2、利用词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记,将词性标注为名词的词语作为特征词,并构成分词单位特征词集;
步骤1.3、将所有分词单位特征词集作为一组输入数据,将对应的分词单位的题材细节信息作为标签,整体构成体裁模型数据集;
所述分词单位的题材细节信息包括现代题材、边塞诗类古诗词、山水田园诗类古诗词、闺怨诗类古诗词、送别诗类古诗词以及其他类古诗词;所述其他类古诗词包括除边塞诗、山水田园诗、闺怨诗及送别诗以外的所有古诗词类型;
每类题材细节信息的类型分别对应有题材典型词库;
将体裁模型数据集分为训练集和测试集合;构建神经网络,利用训练集和测试集合训练测试神经网络,得到训练好的神经网络模型,即题材细节信息提取模型;
步骤三、提取待测文本的分词单位对应的场景信息提取词,包括以下步骤:
步骤2.1、对文本进行分段并进行字数检测,确定文本的分词单位;
步骤2.2、利用分词工具对分词单位进行分词;
步骤2.3、利用词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记,将词性标注为名词的词语作为特征词,并构成分词单位特征词集;
步骤2.4、将每个分词单位特征词集中的特征词与场景字典库中的场景词进行比较,如果分词单位特征词集中的特征词并不在场景字典库中,则对应删除分词单位特征词集中的特征词;
将分词单位对应的分词单位特征词集中剩下的词作为分词单位对应的场景信息提取词;
步骤四、将步骤二提取的场景信息提取词与不同的相关度词语对集合的每个相关词语对中的每个词语进行比对,并确定场景信息提取词的强相关度词集合和中相关度词集合;
不同的相关度词语对集合的确定过程包括以下步骤:
步骤3.1、将由若干已知文本构成的语料库中的每个文本划分成分词单位,利用分词工具对分词单位进行分词;
步骤3.2、利用词性标注工具分别对每个分词单位对应分词之后的词语进行词性标记,将词性标注为名词的词语作为特征词,并构成分词单位特征词集;
步骤3.3、将每个分词单位特征词集中的特征词与场景字典库中的场景词进行比较,如果分词单位特征词集中的特征词并不在场景字典库中,则对应删除分词单位特征词集中的特征词;
步骤3.4、将所有分词单位特征词集中剩余的特征词进行去重处理,并将去重处理后的特征词构成特征词基础集合;
步骤3.5、将特征词基础集合中的每两个词作为相关词语对,统计每组相关词语对中两个词共同出现在同一分词单位中的概率,并将每组相关词语对中两个词按照统计概率进行排序,并按照统计概率排序确定相关词语对中两个词的相关度;并按照相关度,将对应的相关词语对分为不同的相关度词语对集合;所述步骤3.5的具体实现过程包括以下步骤:
设定概数变量I,并初始化I=0;
特征词基础集合中的词记为Xi,i=1,2,……,M,M为特征词基础集合中的词的总数;将Xi与特征词基础集合中的词Xj作为相关词语对Dij,j=1,2,……,M且j≠i;判断Xi和Xj是否同时出现在分词单位Yn中,n=1,2,……,N,N为语料库中的文本对应的所有分词单位总数;
如果Xi和Xj同时出现在分词单位Yn中,则另I=I+1;否则I不变;
直至所有的分词单位全部比对完毕;计算相关词语对Dij的统计概率Pij=I/N;
针对特征词基础集合中的每两个词都按照上述过程进行统计,得到所有相关词语对Dij的统计概率Pij,并相关词语对Dij和统计概率Pij按照统计概率Pij的由大到小进行排序;
将统计概率Pij大于等于第一阈值Q1对应的相关词语对Dij作为强相关度,并将所有强相关度的词语存入强相关度词语对集合;
将统计概率Pij小于第一阈值Q1,且大于等于第二阈值Q2对应的相关词语对Dij作为中相关度词语对集合;
将小于第二阈值Q2对应的相关词语对Dij作为无相关度;
步骤五、如果分词单位对应的体裁分类信息为绝句或律诗,则将分词单位对应的强相关度词集合作为最终相关词集合;如果没有强相关度词集合,最终相关词集合为空集;
如果分词单位对应的体裁分类信息为长篇诗、词或其他类,则将分词单位对应的强相关度词集合和中相关度词集合作为最终相关词集合;如果没有强相关度词集合、中相关度词集合,最终相关词集合为空集;
判断分词单位的最终相关词集合与分词单位对应的题材典型词库是否存在交集;并提取交集对应的词为扩充场景词;
步骤六、根据分词单位对应的场景信息提取词和扩充场景词与场景模型素材库中的场景模型素材进行匹配,提取匹配成功的模型素材,并进行模型的加载和渲染,实现场景的生成;
场景模型素材库为构建场景模型所需要的素材所构成的数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明白四达(海南经济特区)科技有限公司,未经明白四达(海南经济特区)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910186096.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置