烟叶复烤知识图谱构建与应用

(整期优先)网络出版时间:2023-11-28
/ 2

烟叶复烤知识图谱构建与应用

夏浩铭1 金学峰2 朱莎3 肖丹蓓4

1湖南烟叶复烤有限公司郴州复烤厂 湖南 郴州423000   2湖南烟叶复烤有限公司永州复烤厂 湖南 永州425000  3湖南烟叶复烤有限公司郴州复烤厂 湖南 郴州423000  4湖南烟叶复烤有限公司永州复烤厂 湖南 永州425000

摘要:知识图谱可以用到当前社会的各行各业,包括知识问答、智能搜索、个性化定制和推荐等等。通过复烤知识图谱的构建与应用研究不仅可以为复烤公司提供便利的复烤工艺知识查询,有利于复烤工艺新进员工的培养与学习,还能够以知识图谱为基础,形成一个关于复烤技术问题的分享和交流平台,实现各个复烤厂之间存在的共性的技术问题的交流与共享,实现经验分享和技术互助等功能。

关键词:烟叶复烤;知识图谱构建;应用

1知识图谱构建

知识图谱的构建主要有两种方法,即自顶向下和自底向上。这两种方法本质上都是先获取构建图谱所需的知识数据,经过统一整合,最终形成可用的知识图谱。但在构建的思路上这两种方法还是存在着一定差异,自顶向下的构建方法是先根据质量较高的已有结构化数据构建出本体,形成图谱最根本的数据模式,不断挖掘得到更多的实体和关系,不断扩充知识图谱。这种方法的前提在于能够有比较充分的结构化知识作为基础,例如国外的Freebase和国内的Zhishi.me项目等,他们都是先从开放的百科知识中获取的大部分数据。而自底向上的方法则是通过对开放互联网等链接数据进行识别,从中选择出置信度较高的知识,经过整理、分析、评估再将其添加到知识图谱中,最后形成知识图谱的本体。由于目前互联网资源的丰富,大部分知识图谱都是采用自底向上的方式完成的。知识图谱构建的主要流程可以分为3个部分:知识抽取、知识融合和知识加工。

2烟叶复烤知识图谱构建与应用

2.1系统架构

烟叶复烤知识图谱系统的系统架构主要可以分为三个部分:首先是对从复烤公司获取的工艺规范标准等结构化文本信息以及从烟草工业创新发展知识服务平台爬取的论文专利等非结构化文本进行数据清理和整理,得到可用于知识抽取的文本数据;其次利用构建的烟叶复烤实体抽取模型和关系抽取模型在获得的文本数据中抽取中相应的实体和关系,并将其存入选择的Neo4j图数据库,从而完成基本的知识图谱的构建;最后是在基础的烟叶复烤知识图谱的基础上完成整个系统应用的搭建,包括烟叶复烤实体抽取、烟叶复烤实体查询、关系查询和烟叶复烤知识问答等,同时将每个功能对应的结果以Web网页的形式给用户提供可视化的交互界面。

2.2系统功能

根据需求分析以及调研考察,烟叶复烤知识图谱系统主要包含四点:烟叶复烤实体识别、烟叶复烤实体查询、烟叶复烤关系查询和烟叶复烤知识问答。烟叶复烤实体识别功能主要是针对输入文本中的实体进行识别并按需添加进知识图谱数据库。当用户在指定位置输入进文本信息后,系统可以通过训练好的模型识别出文本中的实体并将其标注出来。同时根据用户的需求,可以通过添加实体和关系的功能将识别出的实体添加进Neo4j数据库中,从而扩充知识图谱知识量。烟叶复烤实体查询功能主要是按照用户输入的实体关键字在数据库中进行查询并将查询到的结果以可视化图的形式展现出来。当用户在查询栏内输入实体名称后,系统会将以该实体为节点的所有关联实体和关系信息在页面上展示出来,同时用户可以通过鼠标自由拖动和点击对应的内容。烟叶复烤关系查询功能主要是将所有包含用户查询关系的三元组在页面上做可视化的展示。当用户在关系查询页面输入要查询的关系时,系统会在数据库中查找所有指定的关系,并将包含该关系的所有实体对及关系在页面中显示出来,用户还可以在前端显示界面任意拖动和调整图谱中实体的位置。

2.3系统功能实现

2.3.1实体识别

本文构建的烟叶复烤知识图谱系统实体识别可以按照本文定义的实体类型,如烟叶特有事物、复烤工艺、复烤设备、参数值、组织机构、人员、地点和时间等,将用户输入文本中的烟叶复烤领域实体识别并标注出来。当用户在系统实体识别的前端界面输入框中输入想要进行实体识别的语句后,系统首先将输入的文本传递输入给后端执行函数,然后会在函数中调用第三章中构建的BERT-Bi-LSTM-CRF命名实体识别模型对输入的语句进行识别,最后将识别完成的结果返回并在前端界面按照预定的可视化效果进行展示。以下列语句为例子进行实体识别:“文章根据当前烟草企业打叶复烤质量在线监测工作实际,综合阐述了打叶复烤质检室人员管理的重要意义”。其中“烟草企业”对应实体分类中的“ORG”,“打叶复烤”对应实体分类中的“PRO”,“质量在线检测”对应实体分类中的“TECH”,“质检室人员”对应实体分类中的“PER”。图谱系统会将识别出来得到的实体标签进行相应的标注和呈现。

2.3.2实体查询

实体查询功能可以将用户感兴趣的烟叶复烤实体及其相邻的实体和关系以可视化的形式展现出来,首先系统前端接受用户输入的实体名称并将其发送给后端处理;然后处理实体查询的函数在收到传递过来的时候名称后,会生成对应的实体查询Cypher语句并将要查询的实体添加到查询语句的对应位置;接着会在Neo4j数据库中进行查找,如果数据库中包含对应实体时,就会将与该实体有联系的其他实体以可视化的形式展现出来;若数据库中不包含对应实体时,系统会返回“暂未找到匹配项”的提示。以查询复烤实体“备料”为例,将所有与实体“备料”相关的实体做了显示,同时保留了实体之间的关系。

2.3.3关系查询

关系查询功能的基本流程与实体查询类似,系统都会将从前端输入的关系和实体信息传递到后端函数,然后利用后端函数调用Cypher语句进行关系和与关系相连的实体的查询。但关系查询的过程中可以指定关系或关系前后连接的实体,即按照“实体1-关系-实体2”的方式指定查询。若查询框中进选择关系,则系统会将所有包含该关系的三元组信息以图谱形式展示出来;若输入关系的同时还指定了相应的实体,那么系统会将以该实体为节点,关系为边的所有三元组信息进行展示。在关系查询的过程中,如果Neo4j数据库中包含要查询的实体和关系时,就会将对应的三元组信息通过Echarts工具以图形化的形式展现出来;若Neo4j数据库中不包含该关系时,系统会返回“暂未找到匹配项”的提示,同时还会提供“实体1-关系-实体2”三元组信息添加的功能。

2.3.4知识问答

通过烟叶复烤知识图谱系统智能问答功能,用户可以提出烟叶复烤相关的问题得到对应的答案。由于面向烟叶复烤的知识问答属于领域内的知识问答,相较于通用领域知识问答而言涉及到的实体类型和关系类型数量有限,因此本文构建的知识问答功能采用模板匹配的方式来实现。当用户在系统问答界面输入问题后,智能问答模块首先会对输入的句子进行拆分和实体识别,提取出其中比较关键的复烤实体;然后调用前期制定的问句规则模板判断出问题所属的类型,接着将问题转化为对应的Cypher查询语句,然后在Neo4j数据库中查找;最后若查询到问题答案则将查询到的结果发送到前端完成对应的解析显示,若没有查到则弹出“未查询到问题答案”的提示。当用户输入问题“打叶复烤车间相对湿度是多少?”时,知识问答系统会将输入的问题进行实体识别处理,提取出居中较为关键的实体“车间相对湿度”,同时会将句子与人工构建的问题模板进行匹配,然后按照指定的规则和获得的实体利用Cypher语句在Neo4j数据库中进行查询,并将最后得到的结果“选叶区、贮叶区:70%~75%;其他区域:65%~70%。”在前端界面进行展示。

3结束语

知识图谱技术利用其高效的实体描述和知识互联的能力,可以帮助复烤公司清晰地理清知识与知识之间的联系,为复烤公司知识高效管理提供支撑,改善烟叶复烤公司员工培训的机制和方式,促进各复烤公司之间技术互通、知识共享。但由于知识图谱在烟叶复烤领域中的应用研究并不多,因此本文通过深入研究知识图谱的构建流程和方式,结合烟叶复烤领域中知识的特点和需求,构建了烟叶复烤知识图谱,同时在其基础上构建了相应的烟叶复烤知识图谱系统。

参考文献

[1]杨虎.基于Freebase的英文命名实体识别链接的研究与实现[D].北京邮电大学,2019.

[2]李丹,徐童,郑毅,王喆锋,陈恩红.部首感知的中文医疗命名实体识别[J].中文信息学报,2020,34(12):54-64.