[发明专利]基于句子关联的篇章语义自动识别方法及系统在审
申请号: | 202110980677.6 | 申请日: | 2021-08-25 |
公开(公告)号: | CN114154506A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 侯志强;谭培波;任骥;刘锋;王坚;马青 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F16/33;G06K9/62 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 秦莹 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句子 关联 篇章 语义 自动识别 方法 系统 | ||
1.一种基于句子关联的篇章语义自动识别方法,其特征在于,包括:
按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;
对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;
对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;
通过所述CRF模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
获取修改后的所述最终语义标签,将其作为标注语料进行保存。
3.根据权利要求1所述的方法,其特征在于,按照篇章在标注语料中构建原始句子和篇章语义的对应关系具体包括:
读取标注语料,以篇为单位将章节名称和句子整合为1列,调用篇章语义字典,确定篇章名称对应的语义标签,并从所述标注语料中获取句子语义,将所述章节语义和所述句子语义叠加为1列。
4.根据权利要求1所述的方法,其特征在于,对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典具体包括:
对所述原始句子取前后N个字构成缩减后的新句子,将句子前后M句相加为复合的新句子,对所述新句子中的特殊符号进行处理;
将新句子和语义标签按照字典的形式保存为1列,生成语义字典。
5.根据权利要求1所述的方法,其特征在于,对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型具体包括:
将所述语义字典按照长词优先排序,建立句子的词序列和对应的语义替换序列,将所述序列按字输出2列保存,其中,两列中间用制表符分开;
在cmd下运行crf_learn.exe template CRF_in.txt CRF_model,通过对输入的CRF_in.txt文件进行运算,进行CRF模型的训练,构建名为CRF_model的CRF模型。
6.根据权利要求1所述的方法,其特征在于,通过所述CRF模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签具体包括:
读取输入文档,将所述输入文档处理到句子粒度,并进行缩并得到新句子,将所述新句子变换为1列,在cmd下执行crf_test-m CRF_model CRF_test.txtCRF_result.txt,应用CRF模型计算出输出结果,根据输出结果将句子中出现最多的语义标签作为句子的语义标签;
采用原始句子,从篇章语义字典和句子语义字典中查询所述原始句子的语义标签;
以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110980677.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电动制动器的控制装置
- 下一篇:一种动态光学效应层及其制备方法