国际品牌观察网

字节跳动:算法赋能的引领者

 
文|孔瑞琪 刘珊
 
本刊于2020年7月梳理了字节跳动的发展历程,从数据技术的角度看媒介的演进之路,并提出了数据智能化是传媒产业大数据的新方向和新阶段。实际上,实现国家层面提出的建设“新型主流媒体”的目标,数据和算法作为底层技术支撑是必不可少的。纵观如今互联网各机构的发展,字节跳动自成立以来就以数据和算法构建自身护城河,其融合性的数据思维和日渐成熟的算法模型成为拓展业务的“撒手锏”。在建设新型主流媒体的背景下,字节跳动这套依靠数据和算法赋能业务的运营经验和营收增长方法论,对于其他机构同样有值得借鉴之处。
 
以数据和算法为核心,构建平台优势
历经9年的时间,字节跳动的业务版图急速扩张,以专注图文信息分发的今日头条为核心衍生出庞大的内容产品矩阵,例如抖音短视频、西瓜短视频、懂车帝等。字节跳动也在这个过程中构建了以数据算法为主的核心竞争力。随着公司产品业务线的不断增多,字节跳动以数据和算法为业务赋能,不断提升自身的竞争力。
 
优化基础架构,沉淀数据底层能力
2021年6月17日,字节跳动首次披露公司业绩:截至2020年底,公司旗下产品全球月活用户数达19亿人,业务线超过400条。这一方面反映出公司数据量的规模,另一方面也折射出字节跳动对数据能力和基础技术架构的极高要求。首先,公司的业务模型非常多元,对后台的要求也存在明显差异,需要更为复杂的系统产品矩阵。例如,传统信息流业务的数据以及服务规模极大,对于系统的可扩展性和性能有非常高的要求;新型的飞书、教育等业务的数据模型非常复杂,对系统的可用性、数据的一致性要求非常高。第二,字节跳动的后台规模巨大、系统复杂,如何在系统稳定的前提下,提升系统的可观可控性,同时又降低系统成本是一个很大的挑战。第三,字节跳动还处于相对高速发展的阶段,要求系统能够更好地支持业务迭代与发展。
2018年,字节跳动开启了基础架构 2.0 的演进,基本特征就是从“跟随业务”向“源于业务而高于业务”“源于业务而先于业务”的方向发展,希望架构能够为业务提供更好的支撑。字节跳动基础架构负责人梁宇明曾经对这次调整的核心工作进行过较为详细的阐释:首先,从组织结构上,字节跳动将在线的基础架构与离线的基础架构融合为一个团队。整合后的基础架构提供了横跨离线在线的存储、计算、研发体系这三大基础设施,成为支撑今日头条、抖音、飞书等所有产品线的共同底座。其次,从技术体系上,字节跳动针对存储、计算和研发这三大基础架构的组成体系进行了相应的优化与升级。再次,从合作流程上,优化后的基础架构有相对完善的长期规划、中期目标、短期执行管理机制,同时最大限度地将架构的信息同步给业务方——在一个业务急速变化、团队规模快速成长的团队中,增强信息同步、减少信息不对称对于增强互信、推进合作有着非常重要的意义。这次演进,使得字节跳动的基础架构能够更好地支持业务快速迭代,也实现了体系结构的持续升级换代。
 
推进中台BP化,实现对内对外赋能
除了基础架构的演进,字节跳动也在持续加强数据中台的建设。2014年前后,字节跳动在A/B测试的基础上开发了数据洞察平台风神,之后,其数据集成、数据分析和数据治理等功能也相继成熟。到2019年,数据平台基本需求的建设已经不再是重点,字节跳动对数据能力的追求开始向用户(指内部数据用户)体验和业务赋能方向探索,并且启动了数据治理体系的建设。2020年,字节跳动开始思考数据能力的商业化,推动业务赋能的场景化落地,并将中台服务的开放作为了重点。
在通过数据中台为自身业务赋能的过程中,字节跳动强调“平台提供服务能力,而不是平台能力”,并启动了数据的BP(Business Partner)化。一方面让中台向下兼容底层数据各项能力,组织业务场景;另一方面让中台向上对业务前台、业务中台、职能中台和技术中台输出解决方案。数据中台通过对画像体系、业务数据、基础数据和公共数据的汇总和处理,逐层递进,最终完成A/B Test、BI平台、C/B端应用。总体来说,是让数据中台完成数据生产、数据产品建设、数据治理与运营、服务指标量化等工作,实现深度服务业务的目标。完善了系统架构与数据中台,字节跳动有了更强的数据能力,也更好地实现了“用数据驱动”的理念。字节跳动在业务中台上设立了技术、用户增长和商业化三个部门。其中,技术部门被分为算法平台组、互娱组、产品技术组和垂直产品组。算法平台组提供最基础的推荐技术,是“头条系”产品崛起的内核。
 
字节跳动的数据整体链路与中台BP化过程
 

(图片来源:字节跳动数据BP专家罗哲的演讲)
 
2020年6月22日,火山引擎正式上线,正式将字节跳动的中台能力对外输出。目前,火山引擎为客户提供智能应用、技术中台、统一基础服务三大类产品,新零售、汽车、金融、文旅和泛互联网五个行业的解决方案。正如字节跳动副总裁杨震原所说,通过开放技术团队“让后卫变前锋”,从而加强对团队的锻炼。目前,字节跳动将To B的服务作为重点战略之一,希望通过大数据、人工智能等技术服务企业级客户。不过,与常规的数据中台建设路线不同,字节跳动是直接面向应用搭建数据中台,从对用户、数据的分析和理解入手,反过来研发相关的治理、集成工具。这样的做法目的性更强,能更早发挥数据的价值。因此,火山引擎也将这样的能力开放出去,直接提供SaaS和PaaS服务,更符合大部分企业用户的需求。
 
深耕算法,营造优质内容生态
由于将自身定义为技术公司,而非媒体公司,字节跳动在早期的扩张过程中更关注商业化发展,忽视了价值观的引导,导致公司一度深陷舆论旋涡。今天,对于内容的监管和治理成为公司发展的重中之重,字节跳动正凭借多年来深耕数据算法领域的经验,推动优质内容生态的搭建,加强企业责任和社会责任。
 
不断优化算法驱动力,满足用户内容需求
作为字节跳动的发家利器,推荐算法几乎应用在其所有产品线中。在不断优化数据算法的过程中,字节跳动尝试从多方面入手推动优质内容传播,满足用户的内容需求。
一方面,字节跳动的算法是从用户角度出发,力图实现内容的“按需推荐”。所以,字节跳动的推荐模型以用户偏好和行为为基础,推荐系统以内容分析和用户标签为基础,从用户特征、环境特征、内容特征三个维度来进行分析,拟合出“用户对内容的满意度函数”,实现用户与内容的精准匹配。其中,内容分析包括文本分析、图片分析和视频分析;文本分析一方面用于协助构建用户兴趣模型,另一方面则实现文章标签与用户标签的匹配。在用户标签体系中,除了对用户本身人口信息、行为信息、兴趣信息的关注之外,字节跳动还利用过滤噪声、热点惩罚、时间衰减、惩罚展现等方式,来控制用户标签的更新。
另一方面,字节跳动的算法是从内容创作者角度出发,力图提升内容的生产效率,从源头上保障高质量内容生产。具体来说,这种算法会体现在内容生产和内容分发两个层面。在生产层面,字节跳动旗下产品会根据自身的平台内容特点,确定相应的内容质量评估算法,评分较高的内容会获得更高的推荐权重,并在后续流量分配中获得更高的曝光。在内容分发层面,字节跳动中心化的流量分配机制使得内容初创作者和量级较大的账号站在同一起跑线上,赋予了内容质量本身更大的权重。以抖音平台为例,内容在经过双重审核之后会进入到冷启动流量池曝光,系统根据账号权重分配千次曝光的初始流量池。根据完播率、点赞、关注、评论、分享等数据反馈,平台会将内容进行二次推荐,获得1000—5000次左右的流量。以此类推,第三次推荐将进入上万或几十万的流量池中。如果数据表现优异,平台以算法结合人工审核机制衡量内容是否上热门。
不过,字节跳动公共政策研究院在2019年时表示:算法的市场目标分为中短期目标和长期目标。其中,中短期目标是几个小时、一两天之内用户的兴趣匹配,是为了提升点击率和收藏、转发、评论等行为;长期目标是实现用户的稳定留存和活跃使用,需要更多地融入社会主流价值的引导,并且主动避免内容低质化带来的社会舆论和监管风险。很多时候,短期目标对实现长期目标并没有帮助,有时候反而起反作用。
 
融合社会核心价值观,强化内容管控审核
算法设计的初衷显然不是提倡低俗化内容,但为何会导致这样的负面结果?字节跳动公共政策研究院在回应这一问题时,给出了三个原因:一是算法训练以海量数据为依托,而大量低质信息充斥网络;二是用户偏好的内容并不等于优质内容;三是算法工程师更关注匹配度的指标,缺乏媒介素养和社会价值意识。这三点在客观上导致了平台内容生态的低质化。因此,近年来,字节跳动将算法体系从商业化角度扭转过来,加强平台内容的社会价值导向从而强化对内容的管控。
首先,重视新闻传播伦理问题。一方面,综合分析用户行为和评论情感打击标题党、黑稿谣言等劣质内容;另一方面,依托于机器学习,建立色情、低俗、谩骂等风险识别和过滤模型,通过风险内容识别技术和泛低质内容识别技术加强对违法违规信息的治理。此外,字节跳动推出灵犬反低俗模型3.0,基于算法模型按照“收集数据—标注样本—训练模型”的路径处理低俗内容,在AI训练中实现模型的自我进化。
其次,发挥内容把关作用。目前,信息平台对上百万篇网信部门的宣传报道指令、党报党刊要闻等正能量信息进行人工标注。同时,构建涵盖行业榜样、知识普惠、公益慈善、凡人善举等众多领域的正能量模型,基于正能量模型的*训练加强主流价值信息的推荐。现阶段,平台对于新时代建设等主流价值内容的准确识别率超过93%,在此基础上,算法对识别出的文章进行1.5—2倍的加权推荐。总体来说,融入社会价值的算法体系促进内容生态向健康方向发展。
在优化算法价值观的规划中,字节跳动公共政策研究院表示一方面要解决内容生产的低质化问题,压实社交平台、信息平台和创作者的社会责任,提升全体用户的道德素质和网络素养;二要实现社会价值融入算法设计,发挥对内容生产和传播的“奖优罚劣”把关作用,尽快迈向智能管网治网;三要防范算法黑箱的潜在风险,促进算法的透明化,需要目标设定的公平正义和公开透明,算法原理科学以实现正确的目标,在有人工训练的情况下,在社会价值指引下正确选取指标和行为特征,避免产生系统性偏见和歧视。
 
数据与算法赋能广告业务,实现营收长效增长
字节跳动的数据和算法,不仅赋能了内容向媒体业务,也赋能了营销向媒体业务。在2019引擎大会上,字节跳动发布了商业化营销服务品牌——巨量引擎,将今日头条、抖音短视频、火山小视频、西瓜视频、懂车帝、激萌Faceu、轻颜相机、穿山甲等产品的营销能力进行整合,同时联合众多流量、数据和内容方面的合作机构,主打为全球广告主提供综合的数字营销服务。2020年,字节跳动收入达2366亿元,其中广告收入达到了1830亿元,成为了当之无愧的广告巨头。在“巨头”的背后,字节跳动的数据与技术能力,功不可没。正如巨量引擎在官网介绍中所写的那样:致力于让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意,实现商业的可持续增长。“技术+”是巨量引擎的重要理念,也是字节跳动对营销的基本解读。
 
“内核搭建”到“流量发展”,完成“跃迁”
巨量引擎虽然正式发布于2019年,但在字节跳动内部,其商业产品体系的搭建却最早能够追溯到2013年前后。巨量引擎商业产品中国区的负责人魏雯雯曾经将巨量引擎的成长分成了三个阶段。
第一个阶段是2013年—2017年,即内核搭建阶段。这个阶段,字节跳动从0开始,基于字节跳动的推荐算法内核,完整地搭建出了一套贯穿从客户到用户的商业信息分发全过程,以及客户在整个推广周期内全交易流程的商业产品体系。这是一套庞大的系统。它包含了整个巨量引擎商业产品围绕用户体验、交互效率、转化能力,再到人群识别、排序推荐的各个业务流程,还在其中建设了客户效率、素材创意、线索流转、效果度量等数百个模块。
2016年,在字节跳动“All in 短视频”的战略推动下,火山小视频、抖音和西瓜视频相继上线,字节跳动从单产品发展为产品矩阵,并随产品爆发成为流量高地。此时,巨量引擎进入了第二个发展阶段,2017—2018年,即流量发展阶段。在这个阶段,信息流广告、开屏广告等产品上线,巨量引擎商业产品体系呈几何级增长,其技术开发的挑战也极大地增加,无论是广告形式、数据交互、营销工具还是效果闭环,技术的重要性日益凸显。
2019年开始,巨量引擎进入产品跃迁阶段,重心变为帮助营销生态中各角色提升效能。对此,魏雯雯认为:“营销的技术+时代,商业产品要做的就是背靠技术不断演进迭代,改变商业生态的方方面面,提升生态中营销效能总和。其中一个重要目标是‘用技术驱动营销普惠’。”具体来说,巨量引擎通过6年的“修炼”,在正式上线时具备了五大核心能力:产品创新力、创意助攻力、效果转化力、数据度量力和流量整合力。
 
“流量线”+“内容线”,归于数据
从商业化的角度来看,字节跳动与企业之间的关联,聚焦于内容、流量和生意,三个层面。在用户侧,将内容场转化为生活场,提升用户“获得感”;在营销侧,将流量场转化为生意场,协同企业达成全局提效;通过服务用户与服务生意两大维度,为企业营销带来新生态、新视角与新机会。落在营销矩阵上,大致可以分为“流量线”和“内容线”。
从巨量引擎在2019年和2020年发布的两版营销图谱中,我们可以清晰地看到:无论是“流量线”还是“内容线”,除了各个环节的工具支持之外,最终都将沉淀为数据。这就不得不提巨量引擎的云图平台。作为巨量引擎的一体式商业数据平台,巨量引擎营销科学服务生态负责人李家轩认为,云图是其营销科学的代表产品。依托海量数据沉淀、完善的内容理解技术、丰富的标签体系以及品牌资产方法论,云图2.0为品牌及代理商提供“洞察+度量+优化”的全链路数据解决方案。其不仅能为品牌在投前提供包括人群圈选、内容创意策略指导、KOL媒介优选的全方位诊断,而且能在投中实时指导调整投放策略,投后评估度量投放价值,助力投放链路持续优化和提效,更能围绕5A人群运营、内容资产运营及阵地经营,释放营销长效价值。事实上,云图相当于巨量引擎的一个“数据中台”。在实际的开发布局中,云图将数据中台所需要的核心能力凝练成了两大部分:其一,洞察能力,即围绕着数据本身,进行数据挖掘,数据处理和机器学习的能力;其二,展示能力,即在机器完成对数据的洞察之后,将结果用便于理解的可视化形式展现出来。
 
巨量引擎于2019年发布的全连接营销图谱
巨量引擎于2020年发布的原生经营体系
(图片来源:巨量引擎官网)
 
“技术+”到“科学化”,共建生态
在以“增长·GROWTH”为主题的“引擎大会2020”上,“技术+”的概念被提出,意指巨量引擎通过“技术+创意”“技术+ROI”“技术+洞察与度量”“技术+工具链”“技术+服务”等,实现“技术力量来赋能营销整个过程”的营销理念。“引擎大会2021”的会议主题为“THRIVE”,巨量引擎商业产品将围绕“一体化、原生化、科学化”三大目标展开,实现从广告到生意的全局演进,通过构建巨量引擎生意经营体系、“CARES”新营销增长模型,全场景、全周期、全链条地护航企业成长,驱动生意新增长。这是巨量引擎营销理念从“技术+”到“科学化”的重要转折。
例如,在“技术+创意”中,巨量引擎推出了全方位创意服务平台——巨量创意,主打灵感、人才、技术、数据四大能力,帮助品牌同步实现精准化与规模化生产,在创意产出与前测、个性化创意派生和序列化创意触达、创意后验质量分析等方面均做到了数据化与智能化。截至2020年底,巨量创意平台日均创意视频产出量超过100万条。使用巨量创意平台自动生成微电影,制作效率能提升15倍,点击率平均提升25%,转化率平均提升61%,技术和工具已经成为创意的新引擎。
与此同时,巨量引擎也在积极开放自身的数据与技术平台,力图打造自身的营销生态。一方面,是巨量引擎旗下逐渐转型的穿山甲平台。2019年,穿山甲作为巨量引擎的秘密武器登台;2020年,穿山甲进行了品牌升级,以“全球开发者成长平台”的新定位面对接下来的商业挑战。这一次的转型,巨量引擎的各项顶尖能力将通过穿山甲这个行业窗口,遵循技术化、创新化、定制化的输出规则与开发者共享。具体而言,平台旨在通过产品和工具帮助开发者降低开发成本克服增长门槛;利用自身成熟的技术与经验提升买量变现效率;从研发、运营、投放到变现提供多场景稳定高效的产品矩阵,实现端到端的全链路产能增长。在“引擎大会2021”现场,巨量引擎产品高级副总裁周盛表示,公司将围绕四个方面全局发力让经营更进一步:流量与内容整合,全场景提效;营销与交易一体,深入经营体系;研究与实践合一,推动持续增长;合作与服务融合,升级生态能力。这其中不仅仅包括新产品的推出,技术能力的进一步优化,也包括对企业主的专门服务,和第三方的更多合作。另一方面,巨量引擎也在引入新的合作伙伴,增强自身的行业影响力。例如,2021年6月,WPP中国与巨量引擎共同举办了深度业务交流会,双方就营销行业趋势、双方业务发展合作以及未来协同方向等多个方面进行了深入沟通和探讨,并宣布在“业务深化 ”“科学技术”“引领创新”和“能力共建”四个层面探索合作新模式,挖掘数字化新增长。
 
字节跳动被称为算法驱动的App工厂,算法这柄利剑既成就了字节跳动的迅速成长,却也给字节跳动带来了不小的发展陷阱。尽管字节跳动在发展过程中存在一些争议,但不可否认的是,其对于数据的理解、对于数据赋能内容和营销的思维十分值得媒体机构参考,对于国家层面提出的打造一批“形态多样、手段先进、具有竞争力”的新型主流媒体具有重要的借鉴意义。
 

热门推荐
返回列表