智能会议纪要辅助系统

(整期优先)网络出版时间:2023-01-07
/ 2

智能会议纪要辅助系统

王祖涵 ,徐天皓 ,陈思曾,指导老师:杨琴,江雪筠

金苹果锦城第一中学,四川,成都,610041

摘要:会议是各种团体推进工作的重要方式。在一些专业会议中,参会者往往会遇到一些生词,导致思考跟不上会议节奏。若此时采取手动查询的方式,则会在某种程度上分散与会者的精力而导致错过更多信息,若采取录音录像的方式,又无法方便地回顾会议中的重点。本文实现了一个会议纪要辅助系统,在会议中可实时提取会议重点并给出相应的解释信息,在帮助与会者更快理解生词内容的同时,还有利于参会者更快记录会议重要内容,从而帮助与会者提升参与程度与时间利用率,为团队合作带来便利。

关键词:会议纪要;网络爬虫;自然语言处理;Python;LDA

一、背景

在日常工作中,常常需要开会来推进工作,高效的沟通以及重要内容的记录对于参会者是非常重要的。会议沟通是否高效,除了需要提前准备会议内容之外,对于会议中出现陌生词汇的处理方式显得非常重要。若忽略陌生词汇,那么对于后续内容的理解可能会出现障碍,导致讨论的效率降低;若现场打断询问,偶尔几次可能还好,若发生次数较多,既会让别人觉得提问者准备不充分,也会干扰会议的节奏;若打开网页搜索,则需要分散注意力完成打字、搜索这些动作,在一定程度上影响对会议内容的捕捉。

对于会议内容记录而言,重要的是快速记录与方便查看。目前记录的方式通常有两种。一种是用笔在纸上记录,其优点在于与会者主动选择记录重要的内容,方便快捷;但若遇到生词,劣势就显露了出来,尤其在通过网络查询时更为明显。另一种方式是录制音频或影像,或通过音频自动生成文字记录,其优点在于记录全过程、全内容,此时若遇到生词,仍需要手动查询,但更大的劣势在于对会议内容进行回顾,不易迅速捕捉到关键信息,导致有价值的信息密度低。

近几年由于疫情影响,在线会议软件成为远程办公的必要工具,会议变得越来越频繁,记录会议内容的需求也就越来越大。我们发起了一个问卷,通过微信群邀请一些来自企业、高校的人参与调查,共收到78份答卷,有约68%的人在参会、听讲座时遇到不懂的问题,有70%的人不好意思发问,有约86%的人存在不想记笔记或笔记完不成的情况,有77%的人希望通过一个软件来解决上述问题[1]

目前,已有部分会议记录软件在网上出现,但大多数都为录音,录像,或语音转文字,无法实现关键信息的提取,仅是会议内容的再现。随着社会发展,我们需要一种更加有效率的会议记录方式,可以在会议进行中记录下会议的关键信息。

二、会议纪要辅助系统

结合“纸笔记录”与“录音记录”这两种方式的优势,我们设计并实现了一套智能会议纪要辅助系统,可以在会议中持续监测会议内容,并持续生成文字版的会议内容,同时自动提取关键词,并给出其释义和与其相关的其他词汇,无需与会者额外关注即可提取会议要素。

智能会议记录功能的实现步骤,如图1。系统从“录音”开始,形成音频文件,然后自动上传讯飞总部调用语音识别接口,获得语音转文字的结果,再通过LDA模型提取关键词,然后利用爬虫在百度百科中获取关键词的释义,最终呈现给与会者。

图1 智能会议纪要辅助系统

三、系统实现

本系统通过Python编程实现,源代码上传至Github[2],项目名为meeting。

(一)录音

录音是获取会议内容的方法。Python环境下,可使用Pyaudio库来调用麦克风。监听会议需要长时间持续录音,如此会导致音频文件过大,不利于调取讯飞语音识别接口,故设置每5秒中断一次录音,将该5秒内录到的数据存储为音频文件,并转换为讯飞平台要求的pcm文件格式。源代码对应文件名为“record.py”。

(二)转文字

保存音频文件后,需将录音内容转为文字,便于后续提取关键词。目前,该系统选择调用科大讯飞的语音识别接口,一是为了能够快速测试系统,二是为了能达到更加准确的识别结果,从而保证“关键词”提取的准确性。调用科大讯飞的服务接口需要注册讯飞服务账号,并创建应用,获取应用ID以及对应的Key,方能通过Python编程调用接口服务完成语音转文字。源代码对应文件名为“iat_ws_python3.py”。

(三)提取关键字

把从语音识别接口中得到的所有文字都存储下来,一方面是为了记录所有会议信息,另一方面则是为了更准确地提取关键词。系统使用LDA算法完成关键词的提取,LDA首先对中文文字进行切词,即把一句话分割成一个个词,如“我喜欢你”会被分割为“我|喜欢|你”;然后把所有的词都放在一个袋子中,即不考虑词的顺序,比如“我喜欢你”和“你喜欢我”在LDA看来是等价的;再通过统计不同语句、段落中,每个词出现的频次来计算每个词的权重,最终抽取出关键词。源代码对应文件名为“guanjianci.py”。

(四)爬取百度百科

智能会议纪要系统的词语信息来源于百度百科。在系统测试期间,当关键词被提取出来之后,我们通过爬虫访问该关键词在百度百科上的含义。在爬取词条的信息后,系统将对词条信息进行二次关键词提取,作为该词概要信息,便于与会者简单了解该信息,而非全部查看,节省与会者的时间。源代码对应文件名为“BDBKPC.py”。

(五)展示

系统获取到会议内容后,会先显示提取出的五个关键词,与会者可输入数字选择自己需要了解的关键词,系统将会给出从百度百科上获取的释义与在释义中二次提取的关键词(图2)。在系统设计中,与会者可以通过输入编号,来查看相应关键词的释义。源代码对应文件名为“中枢.py”。

图2 关键词的释义呈现

四、结束语

后疫情时代,智能会议纪要系统对工作推进的帮助越来越大。本文从“生词”对与会者影响的角度入手,设计了一个智能会议纪要辅助系统,能快速帮助与会者查看生词的释义。目前,该系统仅适合小范围内使用,原因有二。第一,讯飞语音识别接口服务并非免费,且需网络传输,若网络条件不好,将会产生延迟,可通过使用本地的语音识别系统来解决。第二,通过爬虫在百度百科上获取关键词的释义,若访问次数过多,是会受到封禁限制的,可通过与百度百科达成合作,使用百度百科的接口服务。

由于目前学到的知识有限,尚不能实现复杂的编程逻辑,我们在系统设计上做了简化,存在一定的缺陷。第一,录音过程每5秒中断一次,可能会导致整段话被切割,影响关键词提取。第二,系统仅能实现“全内容记录”,尚不能自动提取关键内容,即实现“纪要功能”。第三,在展示关键词释义时,应该采用更有逻辑的展示方式,如思维导图、树状图等。第四,若出现一词多义的情况,本系统尚不能合理处理。

参考文献

[1]李静. 移动互联网下的智能会议系统的应用研究[J]. 数码世界, 2016, 000(004):41-42.

[2]清池. 2020年度在线会议产品TOP25[J]. 互联网周刊, 2021, 000(007):P.46-47.

[3]施艳萍, 李阳, 袁曦临. 疫情影响下线上学术会议知识交流效果感知测度研究[J]. 现代情报, 2022, 42(7):57-67.

[4]翁伟, 王厚峰. 基于LDA的关键词抽取方法[C]// 全国青年计算语言学研讨会. 2010.


[1] 问卷结果详见:https://www.wjx.cn/mobile/statnew.aspx?activity=162560963&reportid=#1

[2] 系统源代码:https://github.com/Wzh-one/meeting