文|王誉谕、崔阳阳、龙思薇
编者按:我们可以从两个层面来思考“BBC智能全媒体内容工具”:其一,工具能为我们做什么?这里体现了一个“全”字。包括全面覆盖全媒体内容形态,以及形态与形态之间的无缝切换,还包括媒体内容运营全流程的赋能,包括对人员与人员之间的对接、沟通环节的赋能。其二,我们怎么运用工具?无论是系统型的底层工具、综合性的平台工具、还是嵌入在操作平台之上的小工具,都不能关在笼子里,放在抽屉里。工具只有在不断地应用、迭代、开放与共创中,才能实现它最大的意义。以上两点,正如人体的左右心房,两个心房同时收缩、再收缩,将内容血液输送至全身。
BBC的代表性内容形态转换工具
根据BBC新闻实验室官网公开资料绘制
面对媒体融合大潮,老牌传媒劲旅BBC通过开发数字化、智能化的内容工具赋能采编人员,提升内容生产的效率。这些工具能够实现多种内容形态的转化,为生产和创意的全流程提速增效。同时,BBC还为不同地区和部门的工作人员开发了便于沟通交流的工具,降低了沟通壁垒,在多语种环境下也能确保新闻的第一时效。
好风凭借力,BBC在开发工具的过程中,广泛结合高校、研究所以及商业机构的力量,一款工具从孵化到产出,背后有着强大的技术支持。BBC在数智化领域的投入有目共睹,产出的成果也公开在官方网站中,部分可供大众使用,共创共享的开放机制为BBC带来了更大的探索空间,也为媒体行业提供了可以借鉴的范本。
BBC智能全媒体工具的类型、特点及功能
“自动化新闻不是要取代记者,也不是让他们过时,而是为了让他们有能力讲述更多的故事。”正如BBC新闻实验室(BBC News Lab)在官方网站中提出的愿景,不断发展技术的目的,仍是赋能于人。而在媒体融合的背景下,用智能全媒体工具武装全能型记者,就是BBC的创新之路。
覆盖所有内容形态和转换方式的工具
BBC培养全能型记者的策略并非打造“通才”,而是借助工具高效处理烦琐的采编工作,如录音转文字、文本转视频、视频转Gif动图等。当前7×24小时的内容消费需求快速消耗着新闻内容,只有将大量的重复性工作交给机器,记者的生产力和创意能力才能得到解放,进而将更多精力放在作品的打磨之上。
文本、音频、视频、图片是记者编辑最常接触的媒体形态,全媒体内容工具的开发也基于这一特征展开,其中“文本”在多媒体形态的转换中承担了中介功能,BBC因此在开发过程中对相关技术极为关注。
BBC拥有大量音视频资源,人工为其添加文本字幕是几乎不可能完成的任务,而借助机器就另当别论了。Transcriptor是一款文本转录工具,它可以从BBC的系统中获取音频,借助Kaldi引擎,利用语音到文本(STT)技术生成文字转录本,以便记者和档案管理员后续检查更正。
而对于视频,则可以借助OCTO工具完成字幕生成,这款工具通过自动识别生成视频文件的转录本,只要在文本中选择一段文字,就会自动创建视频的一个子剪辑,语音识别引擎能够以毫秒级的精确度定位单词出现的时间,同时允许用户调整子剪辑的入点和出点,以便留出几秒钟的缓冲空间。尽管语音识别的准确率仍待提高,但它们足以让编辑借助关键字搜索段落具体内容,这极大地加快了编辑过程。用户可以将剪辑下载到电脑上,或者将其发送到BBC的媒资管理系统中,以便在其他工具中继续编辑。
将视频转换为动图要经过压缩、剪辑等操作,Gifenator是一款制作gif动图的工具,可以让记者直接从直播视频中捕捉静态图像(still images)并创建带字幕的gif。输出的动图在顶部和底部自动添加水印,便于快速发布至推特。
除了对常见格式的转换,BBC还开发了一项从文本生成漫画的技术Graphical Storytelling,此举是为了迎合BBC在社交平台上的大多数关注者——25岁以下的年轻人。
BBC团队剖析了与健康相关的新闻,以确定常见的结构元素和内容,并且进一步分析了能够模块化组装的视觉元素,生成了Graphical Storytelling的第一个原型界面。面板展示了在记者文本中检测到的关键词列表,并且列出了相关可供使用的模板类型。虽然这一阶段制成的漫画非常简单,但证明了项目的可行性。
在此之后,开发团队开始了第二阶段的实验,重点是要提高漫画的自动化水平。BBC构建了自然语言处理(NLP)管道识别文本的特征,并且生成匹配的图像,例如,检测到数字将进行数据可视化;检测到引号将会在对话框中体现引号内文字。
“虚拟配音”也是BBC常用的功能之一,ALTO(A Multilingual Journalism Tool)是一个虚拟语音工具,主要服务于多语种记者,包括翻译视频脚本和生成新的音频,以及自动生成翻译字幕。ALTO结合了许多语言技术,包括计算机辅助翻译和文本到语音合成(TTS)。通过文本到语音技术合成将视频内容转换为多种语言,同时生成多个声音的翻译音频轨道。再将翻译的脚本转换成计算机生成的音频。ALTO自动将新翻译的音频附加到视频文件中,位于自然音轨之上。
BBC在2015年12月推出了日语试点服务,2016年4月推出了俄语试点服务。此后,又增加了语音词典、合成语音标记语言组件、自动视频剪辑和姓名翻译等新功能。
记者现在可以更为灵活地控制ALTO的语音性能,可以修改单词的拼写以纠正发音,并将其保存到字典中,还能通过SSML(合成语音标记语言)插入停顿以提高句子的可读性。
生成视频要经历构思、剪辑和导出的漫长过程,是一项费时费力的工作,作为面向全球用户的公共媒体,BBC语言7部门的记者还需要对英语视频进行翻译,Stitch能够帮助语言服务部门的制片人更快地生成不同语言的译制版视频。有了它,记者不需要掌握专业的视频编辑工具,只要通过浏览器就可以对视频进行调整,例如输入新版本的翻译、调整长宽比以适应不同的社交媒体。
在形态转换方面,文本、图片、音频和视频之间的转换是烦琐而又耗时的工作,这些工具大大解放了人力,让记者可以节约时间做更多创造性的工作。
内容工具赋能创意、生产全流程
对于记者编辑而言,在创意构思和内容生产的阶段,内容工具产生了更为系统化的作用。BBC对长达70000小时的音频资料进行文本化处理,建立了COMMA(Cloud Marketplace for Media Analysis)平台,可搜索、查询资料。这一平台能够以较低成本大规模处理音频数据,方便新闻、学术机构人员和内容创作者使用。BBC首先使用STT技术创建音频的转录本,通过维基百科的结构化数据库和其他开源数据识别转录本的主题,然后构建语义标签,从音频档案中提取元数据并创建记录,使其易于搜索。
另一款工具RadioReader通过直接向语音到文本转码引擎(如Kaldi或IBMWatson)提供无线电流,将搜索结果链接到相关音频内容的抄本,使记者可以搜索单词或短语检索音频剪辑。这个功能结合OCTO使用,记者就可以在社交媒体或BBC网站上快速提取和发布音频。
媒体工作者不仅要具备搜索重要信息的能力,还必须拥有敏锐的新闻嗅觉,Juicer就像它的名字“榨汁机”一样,将媒体新闻中的精华供给记者编辑参考。Juicer会自动抓取全球约850个免费新闻网站的内容,并利用人工智能技术对新闻内容分类和标签化。Juicer通过RSS文件抓取原文和日期时间等元数据,并且对文章中的人物、组织、地点及其他实体概念进行识别和标记,使其可以直接被搜索到。
BBC开发的内容工具不仅具有全媒体、融合化的特征,同时对于整个采编流程起到了提效增速的作用。在新闻源的获取与整合、资料的搜索查询、内容的组织编辑、团队的沟通交流中,数智化内容工具起到了极为重要的作用。同时,BBC对于模块化新闻和结构性叙事的研究也在持续推进,将模版和数据结合,进行半自动化新闻生产实验。这样可以将采编人员从重复劳动中解放出来,进行更多富有创造性的工作。
半自动化能够大幅提高新闻生产的速度,这种新闻生产方式主要适用于数据新闻报道,如涉及选举结果、犯罪率以及国民保健制度的绩效统计等公共数据。记者可以准备描述常用情景的模板,这些模板与数据相结合,能够产生颗粒度更细的本地新闻故事。Salco半自动本地化内容(Semi-Automatic Local Content)将数据收集、报道生产和编辑批准合为简单的“一键式”流程,通过将所收集的数据导入记者预先设置的模板,进行文字和图表生产,将完成后的报道稿件自动发送至 BBC 发布平台审核,每个月可生产100多个独特的报道故事。
Salco的自动化过程分为5个步骤:
1. 处理得到的数据,并提取其中最为吸睛的部分。
2. 根据资深记者设计的模板制作撰写新闻。
3. 以BBC的风格为新闻生产数据图形。
4. 生成故事预览,以便记者核实与审批。
5. 通过VIVO编辑系统将每个故事发布到相匹配的城市或地区主页。
SALCO工作台界面
BBC新闻实验室官网公开资料
以NHS(英国国家医疗服务体系)数据为例介绍SALCO的自动化生产流程
BBC新闻实验室官网公开资料
沟通、交流层面的赋能
单兵作战固然可以体现全媒体记者的实力,但顺畅的沟通机制和完善的协作机制能够为媒体集团带来的效益是呈几何倍数增长的。对于管理多地区、多语种员工的BBC来说,首先要解决的就是语言问题,BBC要面向各个语言地区的受众发布新闻,多语言环境也给工作带来了困难。众多汇报层级使得新闻的时效性受到威胁,不同语言部门的工作人员也无法对其他地区的新闻进行快速识别和翻译,因此必须解决监测问题,SUMMA应运而生。
SUMMA UI界面
来源:SUMMA官网
SUMMA(Scalabsle Understanding of Multilingual MediA)是多语言媒体监测工具,能够通过语音识别、自动翻译和主题识别来监控国际媒体,实现外部监测、内部监测、生产数据新闻三种功能。
BBC主要使用外部监测功能。监测者对新兴的政治和社会主题有着极大的需求,同时面临着时刻更新多个媒体来源的极大挑战。SUMMA能够帮助记者对数量庞大、多样化和迅速增长的媒体来源进行充分监测,识别记者编辑感兴趣的新闻报道和有趣的故事情节,也可以作为突发新闻事件的警报,让记者将更多的宝贵时间用于分析,而不是搜索资料。同时,SUMMA系统在趋势分析上也很有帮助,并且能够保存感兴趣的材料和观看视听剪辑。
SUMMA的媒体源监测功能主要通过语言技术,如语音转文本、机器翻译、摘要、讲故事、语义分析等,以增强广播内容生产。它会自动从视频中转录所有音频,将语音转换为文本,并且自动翻译所有文本(从原始文本文章或从转录语音到文本)为英语。它使用该功能对内容进行跨语言概述,将相关条目聚为故事,对故事和单个条目进行总结,添加主题关键词和命名实体,添加情感分析。该平台提供实体、全文搜索和不同的可视化,包括列表视图、平铺视图和热图视图。
SUMMA可以帮助记者识别感兴趣的新闻报道和有趣的故事情节,也可以作为突发新闻事件的警报。SUMMA自动分析跨多种语言的媒体流,聚合和提取内容,自动创建丰富的知识库,并提供可视化界面以应对这一海量数据,从而大大改善媒体监控。
除了两个主要用法(内部和外部监控)之外,还有第三个用法即数据新闻。这一功能对SUMMA提取到的大量可测量和统计数据进行可视化处理,用于监控或新闻生产。数据来源包括不同渠道和来源的数字分析、不同语言的主题报道、机器翻译的内容再利用、故事情节报道,在特定内容中显示的兴趣,用户组兴趣和活动等。
SUMMA可以帮助记者、监测人员、研究员、编辑、管理者完成大量工作。消息源管理部门确保监控记者能够接触到需要监控的媒体消息源;研究员主要对某些特定的语言和地区关键信息进行更新;隶属于特定语言团队的监测记者只负责对应地区/国家媒体源的监测与编辑,每天开会确定优先事项。
除了各语言部门间的沟通外,不同职能工作人员之间的交流也存在一定壁垒。以往,制片人向剪辑师提出视频的剪辑要求后,两个人要坐下来进行长时间的交流,再一帧一帧地抠细节,有时遇到较为抽象的概念,更是对剪辑师的理解力有极高的要求。而Digital Paper Edit就是解决这一问题的最佳工具,它可以通过调整字幕位置生成音视频的新剪辑片段,专业制片人可以先粗剪一个版本交给剪辑师,明确直观地提出需求,以期降低沟通成本。同时,这样也可以减轻技术人员的工作压力,把更多的时间花在作品的打磨上。
SUMMA功能介绍
根据BBC新闻实验室及SUMMA官网公开资料整理
共创与开放:BBC内容工具的开发与使用
以BBC新闻实验室为中心,结合多方力量共创作为媒体机构,BBC的技术水平并不是最值得称道的,能够研发出如此可观的内容生产工具得益于其开放包容机制,在自研的基础上广泛使用开源软件,并且和广泛的伙伴进行合作。
首先,BBC在2012年成立了“新闻实验室”(BBC News labs),这一孵化机构致力于用技术推动新闻创新,团队拥有广播和数字新闻、软件开发、广播技术、项目管理、设计和用户体验方面的背景,综合利用人工智能、机器学习、数据算法和自然语义分析等技术,并对其进行产品化和平台化,为集团的融媒体变革提供了有力工具。
BBC结合多方力量共创内容工具
根据BBC新闻实验室官网公开资料整理
BBC新闻实验室对于开源技术Kaldi、Arria NL的应用也是一大特征,它并非原样照搬,而是针对业务需要而进行优化,使之适应BBC的语境。Kaldi在BBC内部被广泛使用,对于需要浏览大量视频源的记者来说,语音转换为文本可以节省大量时间,为视频剪辑制作字幕的速度也有了大幅提升。BBC Rewind还利用语音对文本的转换,从BBC档案馆中“复活”了近百万小时的资料,使其变得可搜索可查询。
在制作环节,多种角色都加入到了生产工具的开发中来。BBC与世界各地的学术、非营利和商业机构建立伙伴关系,以协助创新。SUMMA这一项目就是协同多方进行合作的产品:在合作方面,爱丁堡大学协调整个SUMMA项目,并为语音识别、机器翻译和统计自然语言处理方面的研究和创新做出贡献;谢菲尔德大学在NLP(自然语言处理)领域享有盛誉,因此负责这一方面工作;技术方面,QCRI专注于解决大规模计算挑战,解决国家增长和发展的优先事项。
除了和伙伴合作,BBC还会定时组织NewsHack比赛活动,和参与者共同探索科技赋能媒体的创新手段和形式,有许多创意就是这样诞生的。来自不同国家和地区的人员参与其中,包括记者、设计师、开发人员和学术研究者等,在两天时间内围绕同一个技术议题进行开发,最终输出demo进行奖项评定。评委由BBC内部工作人员和外部行业人士担任,内部评委一般来自BBC R&D工作室和News labs等组织机构。
活动设立三项奖项:Most captivating audience experience重在考量产品给用户带来的别样体验、Most useful editorial tool侧重于对记者编辑的赋能、“Surprise us!” 则是鼓励有新奇想法的创意作品。
开放数据、技术平台
BBC向公众开放部分工具和资源,不定期在Github上发布BBC新闻实验室孵化的技术成果,目前公开的几款工具仍处于实验中,以文本转录及字幕生成功能为主,研究价值大于使用价值,且不可用作商业用途。BBC此举不仅是为了开放成果,也是向技术开发者发出邀请:欢迎和我们共同探索研究,贡献你的点子让这个不完美的产品变得更有价值吧。
BBC开放工具、资源不完全整理
根据BBC新闻实验室官网公开资料整理
除了工具,BBC丰富的资源库对于记者、新闻机构或学术机构也是不折不扣的藏经阁,外部人员可以通过COMMA平台的支持搜索World Service中的大量音频资源,还可以浏览历史广播、电视节目数据库,甚至获取音效文件,印证了BBC档案馆的重要价值。
BBC以全媒体工具化创新应对媒体融合挑战,探索出了媒体变革的发展之路和全能型记者的培育方向,为媒体机构转
型提供了重要的参考。