短视频与直播,正如何重构商业世界?
在中国,有超过八成的人在生产或消费短视频内容,上网的人们平均把三分之一的时间都花在抖音、快手、视频号等平台上。几大平台用过去几年的时间,修筑了一条通往海量中国用户的高速公路。这样的影响力颠覆了生产和消费内容的方式,也逐渐在商业领域中成为基础设施一样的存在。
短视频与直播,除了在电商领域汇聚了核爆般的影响力,也开始对更多的行业产生影响,甚至渗透到一些从未被传统互联网改造的角落。
快手的蓝领招聘和直播卖房、抖音的本地生活服务、微信视频号的泛知识传播、Bilibili(后称 B 站)的虚拟主播……极客公园观察到,大型平台公司都在不断伸出触角,在新的行业寻找商业的可能性。短视频和直播平台所辐射的范围早已超过了用户的娱乐场景,开始展露出「杀时间」以外的商业价值潜力。
这些业务未必成熟,在 2022 年才初露锋芒,需要更久的时间才能深入渗透到行业,并得到最终成功与否的验证。
但我们仍然向多位创业者、业内人士发起了探讨:直播、短视频行业正在对哪些领域发起商业效率改造?这段征程的挑战是什么?在增长与红利几乎见顶的互联网,有哪些新的商业变量和技术变量,并因此将产生怎样的机遇?对于从业者而言意味着什么?
一个现实是,短视频与直播领域已进入存量时代,接下来,如何将巨大的流量池与细分赛道结合,重构更高的商业效率,是下一阶段更值得思考的议题。
01、五年时间,修筑一条通往海量用户的高速公路
细数短视频行业的真正爆发,是从 2017 年开始的。
此前一年,抖音正式发布,潮流的歌舞表演、风格化的滤镜,再加上可以猜测用户品味的推荐算法,使抖音最先吸引了一二线城市的年轻用户。而此时的快手在刚刚过去的 2016 年里,终于完成了从工具到短视频社区的转型,突破了 4200 万 DAU(日活跃用户数量),在以东北为主的下沉市场用户中成功占领了心智。
平台(以快手、抖音为首)对短视频产品低至 15 秒的时长要求、大量可供选择的短视频拍摄制作工具,再加上智能手机的普及、流量费用的逐渐降低,共同降低了短视频拍摄和消费的门槛。而在创作生态层面,抖音从今日头条沿袭来了商业化广告客户、创作者变现机制,快手则上线了直播打赏功能,这些都成为了内容创作者们变现的重要渠道,创作者生态凭此崛起,短视频真正开始在更广泛的人群中流行起来。
到 2020 年,每天使用抖音的人超过 6 亿,使用快手的人达到 2.6 亿。在这样的大背景下,微信视频号诞生不到 2 年时间,日活就超过 4 亿。尝试了十余款短视频产品的腾讯终于有了一款可能与抖音、快手产生制衡的产品。而从二次元社区转型而来的视频网站 B 站也显现出强劲的增长势头,靠着招牌式的跨年晚会完成一次次的破圈,截至 2022 年 9 月,月均活跃用户已超 3.3 亿,日均活跃用户达 9030 万,最高纪录每人每天观看 96 分钟。
几年时间,几家头部的视频内容平台完成了海量用户的聚集和留存,并成为影响力最大的媒介。根据最新的数据披露,抖音日活已突破 7 亿、快手为 3.47 亿、视频号 2022 年 3 月已超过 5 亿。而 QuestMobile 2022 年 6 月的数据显示,短视频用户时长已经超过微信、QQ 等即时通讯产品的用户时长。
头部短视频平台已经完成规模化用户累积。|极客公园制图
面对中国这个统一的大市场,海量的用户,相同的文化和语言,再加上数据算法的成熟,平台拥有了触达用户的高速公路。这几年的规模化发展,也让各个平台在算法、技术上得到快速积累,内容与用户之间能更精准地匹配。
在此背景下,抖音和快手不断放宽平台上的视频时长要求,从 15 秒到 1 分钟,再到 10 分钟甚至更久(今天的用户可以在抖音上看完一整部电影),并在直播功能与场景上做不断细化——这意味着,短视频所能承载的内容越来越多且广泛。短视频和直播平台所辐射的范围早已超过了用户的娱乐场景,开始展露出「杀时间」以外的商业价值潜力。
但与此同时,短视频用户增长几乎见顶。抖音、快手、B 站不断深入对方的领地并试图继续渗透市场,下沉市场、老年用户,未被短视频占据的荒地越来越少。抖音和快手这两个早期完全不相同的产品,面临的目标市场也愈发统一,用户重合率从 2018 年的 10.3% 攀升至 2021 年的 60%。这意味着,以用户留存和占领市场为主要目标的纯规模扩张已经告一段落,接下来,如何将巨大的流量池与细分赛道结合,重构更高的商业效率,是下一阶段更值得思考的议题。
于是 2022 年,拥有对五环外市场最大影响力的快手,首选了蓝领招工,作为以直播方式切入传统商业世界的起点。
而抖音则选择切入本地生活——事实上,抖音的用户画像与本地生活平台的主流用户高度重合。QuestMobile 数据显示,一二线城市 35 岁以下人群是本地生活的消费主力。而抖音用户中,超过 60% 的用户分布在一二线城市,71% 的用户都在 30 岁以下。
对商家而言,无论是选择线下的高流量店面,还是参与到团购网站中,都是在寻求流量。而抖音依靠公域流量、千人千面的算法能够决定用户所能看到的内容,使精准匹配用户需求有了可能性。
02、短视频与直播,更细节、可信、高效
如果将公众号、信息流广告时代,图文消息为主的信息称为二维内容,可以容纳文字、图片、声音、影像,呈现立体现实空间的短视频则已过渡为三维内容,直播则在短视频的基础上,增加了时间轴,形成四维空间的内容。
三维、四维的内容夹杂着丰富的信息,带来了无限细节的价值,也能通过场景、空间的延伸,实时的互动,传递更加细节、可信、高效的信息。这种特性也帮助短视频和直播能在更多商业领域中发挥作用,一定程度地提升效率。
比如过去几十年间,工厂招人需要先向人力资源公司发单,再由中间层层代理逐级传递。一些不良代理为了获取信任,常常夸大宣传待遇,虚报工资。传统套路是先说虚高的工资,发薪时再设置障碍,以未达到要求为由扣除工资。一家国内顶级工厂招聘负责人提到,过去,光是工人住的是几人间,这个问题就遇到过不少投诉。
但在「快招工」(现更名为「快聘」),通过短视频和直播的方式,主播能更直接地讲解岗位招聘要求之外,用人企业生产的产品、车间生产环境、住宿环境等都得到了直接的展示。
快聘界面,主播直播背景正轮流播放工厂环境视频,投递简历仅需电话及年龄。|极客公园制图
相比文字、图片,短视频和直播让信息有了更多维度的展示,更容易让求职者了解更多细节。直播的实时性和交互性也可以在蓝领求职者遇到疑惑时,得到最快速有效的解答,承诺的招工条件也有直接的保证。
另一个更直观的行业是本地生活。
事实上,大众点评的出现,已经让一个店铺的内容呈现体系得到更丰富的呈现。餐厅的菜品特色、环境、位置、用户的图文评价、均价等信息均囊括其中。但比起静态的内容,抖音所代表的本地生活服务,则提供了另一种更动态和更具沉浸感的环境和菜品、氛围展现。
比起评价一个餐厅风格「文艺」,视频或直播画面中 ins 风格的餐厅布置、菜品的摆盘,就餐时具有沉浸感的画面,再加上直接绑定的可供购买的套餐,也让筛选变得更加容易。
而在细节的具体呈现之外,直观溯源也是短视频、直播所具备的一大优势,一位在身份上足具说服力的主播,能够直接对成千上万名(甚至几百万)在线观众传递信息,并能做到实时互动,这对于建构起一个互信的环境是更有利的。
过往的蓝领招聘中,负责传递信息的人往往是农村的 KOL,如村支书、村支书的儿子,或者上一批靠外出务工赚到钱的同乡——他们在身份上具有公信力,但每个人所能辐射的范围有限。市场上大量人力资源招聘、劳务派遣的企业机构(以 58 同城为代表)需要找到这些 KOL,将他们纳入招聘的利益链条,而由于链条过长、且主要依靠口耳相传,信息的准确度和真实性始终难以得到完备的保障。
即便是在后期互联网招聘渠道上,也一直存在因无法溯源而导致的被欺骗和诈骗的问题。面对鱼龙混杂的信息,蓝领工人没有判断能力,也没有咨询渠道。
而直播招工则像是在直播间开设了一个公开的招聘门店,公开意味着透明。主播必须要靠跟粉丝、观众之间构建信任关系,除了收集求职者信息、匹配岗位之外,在直播中承诺的薪资待遇、谈定的工厂工种都需要做到信守承诺。否则这个公开的门店招来恶评,就无法长久地经营下去。
比起层层代理,直播可以进行更系统的管理,为商业环节降本增效。对于许多中间环节多、容易出现信息漏斗的行业均是同理,短视频与直播间提供了足够丰富的细节可以增加信息度之外,可记录、可追溯,在能保证统一的标准传递信息时,进一步打造了信任体系。
此外,短视频与直播的方式突破了时间、空间的限制。专门从事人力资源招聘的山东格领集团,其总经理张军解释称,过去他们招工靠的是人寻人,需要在线下以店面的形式地推,从市,下到县,再到村。而依赖短视频平台的流量推荐机制,可以更精准地触达目标人群。
收集信息的效率也得到了提升。张军提到,过去一年能收到 20 万份简历已经是不错的成绩,但 2022 年的前 10 个月里,他们已经收集到了 100 万份简历,而且用了相比过去更低的成本。
歌尔在经过将近一年的快聘尝试后,算了一笔账。在刨除快手用工成本、招聘成本后,每个工人每工时的人力成本减少了 1 元钱,按 1 天 10 个小时算,一个人一年就能省下 2000 多元。要知道,歌尔在用工忙的 5-7 月时,共计招聘了 5 万人,其中 5000 多人从快手招来,相当于省下了 1000 万元。
更便捷、更快速、有效地传递信息,招聘培养的成本和时间大幅收缩,企业招工、管理成本自然下降。这样的新渠道吸引来了诸如富士康、歌尔、美的等企业,根据快手财报,截至 2022 年第二季度,快聘月活用户规模达到 2.5 亿,已与 10 万家企业达成合作。
03、短视频营销,更彻底的心智塑造
区别于传统搜索和 LBS(Location Based Services,围绕地理数据展开的服务)的信息分发方式,短视频平台的主动推荐使得用户被动种草——这吸引了大量品牌,开启了全新的营销思路和品牌战略。而抖音用户年轻化的特性也使得这一战场的优势更为突出。在本地生活服务方面,一批餐饮、酒旅商家已经完成了在短视频平台从营销到交易的闭环。
相较传统的渠道,抖音的广告有更加立体的呈现。懂得抓住这一点优势的商业机构,已经打造出属于自己的 showcase(招牌案例)。
以 CoCo 为例,这是一个有着 25 年历史的奶茶品牌。最近几年,由于中国饮品行业竞争加剧,老将品牌也不得不持续推陈出新。2022 年夏天,CoCo 曾推出一款结合咖啡元素的生椰珍珠拿铁,但所有渠道的售卖都并不理想(此前 CoCo 最优势的品类是珍珠)。这是一款有着三层明显颜色分界的饮品,奶白椰子、深咖拿铁再加上厚厚一层黑色珍珠——利用这个「好看」的特性,CoCo 的抖音服务商金麦众合开始邀请美食达人进行短视频种草,再开直播集中交易,种草和交易环节打通后,这个曾经并不畅销的新品在一场直播中卖出了 20 万杯,这相当于一家 CoCo 线下门店一个月的销量。
多位抖音服务商均提到,抖音上的商品需要抓人眼球,契合年轻人的审美,这就要求商家、服务商群体在内容上下功夫,抓住抖音善于曝光的特性。
突破地理空间限制的分发模式、及重视内容曝光的特质决定了,短视频内容的影响力、交易的规模化效应,在转化成交之外,也可以为企业自身的品牌宣传作出贡献。
金麦众合 CEO 花蕾告诉极客公园,CoCo 的直播并不以销售转化为第一目的,而是希望传递品牌的年轻化主张,被年轻人重新记起。正因此,CoCo 在抖音不做叫卖式的直播,而是通过类似微综艺的方式,加入谈话、唱歌等活动。
一位探店达人总结:在抖音铺设内容就像是一个在互联网发传单的过程,每个用户刷过视频,就是被动接到了一张来自商家的广告传单。
拿火锅头部品牌海底捞来说,海底捞有自身很强的品牌属性,拉新诉求较弱,年轻用户占比和私域经营在餐饮中属于头部。但在大众点评等几乎没有设置团购套餐的海底捞,却把团购券搬上了抖音。接近海底捞的人士告诉极客公园,他们在抖音的诉求是,让冷门的店铺通过抖音这个新渠道做热,让新开的门店快速获得人流,以及让海底捞新菜品、夜宵等特色服务被更广大的用户知晓。
抖音的内容推荐逻辑扭转了过去主动搜索的行为,达成用户被动种草的效果——先购券再到店消费,这种信息的流通转变让新品、新店、新玩法可以得到更快速有效的曝光,从而影响到用户的消费行为。
而据极客公园观察,在大众点评等本地生活服务平台,商家的参与更偏向单一门店行为,营销动作的最终指向通常为绝对的销售转化,是否有团购套餐、套餐涵盖种类、价格,不同门店各不相同。而品牌在抖音的尝试则常常是集团行为,售出的代金券全国门店均可核销,且策略通常重在打造品牌、建立用户认知。
04、流量之外,还未完全,实现的操作系统价值
前文描述了,在用户规模、内容生态、产品技术都已经足够成熟的今天,利用新形态的优势切入更加细分的赛道似乎顺理成章,且在早期的流量红利市场下能够很快收获正反馈。但想要达成新的迅猛的增长,又不止于这些要素,而有赖于一个更完备的基础设施操作系统,也需要重新构建起服务具体新业务的能力。
过去一年刚刚完成疯狂扩张的抖音本地生活,一边规模覆盖城市,一边拓展业务线,展露出更大的决心。但不得不承认,进入行业 5 年,正式成立一级业务部门才 2 年的抖音,在整体的服务设施上还存在明显短板。
比如抖音在本地生活中的酒旅板块,至今还没能为商家提供完备的服务系统。多位熟悉酒旅行业人士均提到,抖音产品侧目前存在最大的问题是无日历房、日历票(一种 OTA 平台上订购酒店或门票时出现的日历选择功能)。目前来说,抖音售出的酒店及门票,仍需要通过第三方 SaaS 工具,或通过其他渠道进行具体日期或商品的转换——这意味着,不同的价格、类型(有无早餐等)均需要上架单独的 SKU,这就导致,一个大型酒店在抖音可能需要 30 个 SKU 才可能满足所有房型的需求。
一位抖音本地生活服务商称,核销体验的断点,订房和票务系统的链接不顺畅,导致商家有大量的酒旅类团购套餐无法直接上架到抖音。
本地生活板块中,极为重要的「到家业务」也是抖音仍然缺失的板块。配送上只能依靠第三方,如达达、顺丰同城、闪送等完成。
鉴于本地生活行业有海量中小商家,且散落在中国各个角落,想要规模化地影响这个行业,需要一整套能真正提升行业效率的商家基础服务设施。但线下商户多而杂,此外,餐饮、酒旅、丽人美妆、按摩等各分支所需要的服务也不尽相同、短时间搭建一个可以适应所有本地生活商家的服务系统并非易事。
今年 4 月,抖音上线了商家内容营销平台「来客」,聚合了商家的经营数据、待办事项和营销推广需求,本质上是一个商家与达人、服务商对接,及商家运营的管理平台。但目前店铺、粉丝的运营都十分欠缺,追踪拉新率,复购率、粉丝画像等数据仍然未开放给商家。
对比来看,大众点评花了 19 年时间,构建起一整完整的商家服务体系。星级体系和评价系统之外,大众点评还有流量投放、数据工具「开店宝」,必吃榜、热门榜、黑珍珠餐厅等榜单体系,此外还有秒杀&立减、免费试(霸王餐)、推广通等平台向的活动为商家提供流量入口。
一位酒旅行业人士说,过去携程、飞猪、美团为首的企业,经过多年的激烈竞争,最终产物是为文旅产业提供了保姆式的服务,「把商家做懒了」。例如广州长隆集团,携程对旗下每个酒店都有专人对接,为各个促销节点提供政策、营销内容、方式。商家只需要提供产品及服务,其余产品上架、营销等多数时候由平台代为运营,平台还会提供阶段性大促的产品共创及包销策略。
所谓产品共创及包销策略,指的是平台会与商家共创酒旅套餐,并预估提前预付给商家一部分销售额。
可见,在商户和消费者的供需两端中,美团、携程等平台抓住的是商户——当供给又丰富又全时,自然能很好地满足用户主动搜索的需求。而抖音的运转则以内容为核心,抖音不打算走美团、携程等平台的道路,而是试图重构一套规则:以内容吸引用户并激发用户消费,进而使商家与平台共赢获利。
一位服务商总结,只有满足「新、奇、特」——小众、高端的酒店,有特色的酒店自助餐、特色私房菜等产品才具备在抖音上爆火的基因。
但这样的策略对商家而言,意味着更大的运营成本。传统的酒旅商家想要转型到抖音:平台产品上下架、产品编辑、承接更海量咨询的客服团队、短视频与直播的内容运营、引入第三方 SaaS 票务预定系统、营销工具等——这些过去在 OTA 平台不必经历的事都需要重新着手做一遍,同时,商家也需要一支更能适应和理解抖音规则的运营团队。
多位参与抖音本地生活的人士均提及,抖音需要品牌有长期的内容营销方案,而营销的成果依赖于更好的服务商和达人体系——这类支出都不便宜。也正因此,大型的乐园集团多把抖音当成促销渠道,而不是日常运营渠道。
相比传统 OTA 平台为商户提供保姆式的服务,抖音希望以「DP(Douyin Partner)服务商」的引入,打造一片「做大蛋糕」的生态。2021 年,这些服务商曾为抖音贡献了超过一半的电商 GMV。去年 5 月,抖音将「DP」引入本地生活服务商,让服务商成为抖音连接本地生活商家的毛细血管。
在 DP 机制下,服务商与抖音共同拓展商户、负责帮助商家做好短视频内容、直播的运营,为商家做内容创作及交易转化。2021 年年底开始,针对 KA 及 SKA(重点商家和高级重点商家)客户,各服务商需提供具体方案、参与竞标,最终的价优方案好的优胜者才可以获得代理权。而对中小商家而言,「来客」就是与达人建立联系最关键的桥梁。
电商服务商们吃到了早期的红利,不少服务商看中本地生活在抖音还是蓝海,参与者纷纷涌入,一年时间过去,抖音在全国各地吸纳了超过 1000 家服务商。以食物主义、金麦众合、乐淘互娱等为代表的服务商随之崛起。
但如果将目光放得更长远,一旦平台扶持与流量的红利期一过,寄生于平台的服务商还是否会留存?(这取决于增长能否持续以及服务商能否赚到足够多的钱。)而对于商户而言,刨去早期入场的红利,高成本带来的内容营销转化效果是否经得起商业价值的考验?
投入到新业务的参与者多数看中业务早期带来的红利。在互联网的发展历史上,几乎每个平台都有流量红利期。在早期,美团等平台也依靠补贴商家、补贴用户,投入大量的金钱做推广,让早期的商家尝到了好处。但当红利期消退,是一个更标准化、可供商家更高效经营的系统留住了这波合作伙伴。
一个美团商家,只需要做好线上门店的设计和信息同步、上线团购套餐就完成了运营的大部分工作,但在抖音,日常化的运营,尤其是内容的运营对中小商家有更大的挑战——主要还是体现在成本方面。据业内服务商透露,目前,全国连锁店铺营销加内容的成本大约占比营业额的 5%-10%,但小品牌则高出不少,通常占比 8%-15%。
高昂的运营成本能否带来足够合理的回报,这一点仍然未被证实。
而从旅游业、餐饮业、支付业等转行而来的服务商们都对极客公园表示,「抖音 2-3 年内比美团的运营体系做得好是不可能的,但有流量红利的时候(服务商们)都可以容忍缺陷,相对流量来说,运营的麻烦算什么?」
但当流量红利消失呢?
同理,快聘面对的蓝领招聘市场,一直呈现小而分散的特点,在中国还未能有企业真正拿下这块市场。尽管蓝领招聘的整体用户规模达到了 4.26 亿人,但线上化率却仅仅到 5%(2130 万人)。
对快手而言,光是解决流量、利用算法高效匹配供需关系——这只做到了信息的中介作用。现阶段为平台扶持期,快手既要有人来做更细致的运营和帮扶,另一边也要给出足够大的流量扶持和激励,解决供需量以及匹配的问题。但光是这样还远远不够。
快手必须在 Boss 直聘、58 同城等招聘平台对蓝领招聘市场的进击下,不断提供更丰富的企业职位供给。
对于用工企业来说,快聘真正有想象力的变革在于,蓝领招聘传统渠道坚固,能提供更大量工人的劳务派遣机构有绝对话语权,派来的员工企业无法筛选,只能将人放至不同岗位。快手这样的新渠道出现后,当前解决了流量的问题,长期的价值在于保证这个渠道招聘的稳定性,且成本不会大幅度提升。
快手需要做的,就是通过产品机制、平台特性更好地解决匹配精准度、信息筛选及后期的用人服务。这同样需要更深入产业链条,并再深化用户操作系统的价值。
05、前沿技术带来新的应用机遇
底层技术的演进必将带来相应的商业变革。极客公园经过大量的梳理和访谈发现,在直播和短视频行业,几类前沿技术的进化正掀开新的应用机遇和商业现象。
AIGC:降低用户创作门槛
2022 年,AI 生成绘画有了大量产品出现。基于深度学习(Deep Learning)技术快速发展而诞生的文本生成图像模型 Stable Diffusion 发布,它以完全开源的方式,让普通人接触最尖端 AI 技术的门槛因此被降到最低:开发者纷纷接入、部署自己的生成模型,海量的文本生图产品出现;用户们只要打开网址、App,输入想要画面的关键字,等待几分钟,AI 就会自动生成完成度非常高的图片作品。
随着此类扩散模型的开源,催生了大批创业公司,过去一年,AIGC(Artificial Intelligence Generated Content,用人工智能技术生成内容)成为投资大热。它被视作是紧接 PGC(专业内容生产)、UGC(用户内容生产)之后,一种新的内容生产方式。
据极客公园的不完全统计,在 2022 年,在中国至少有 15 家拿到新融资的 AIGC 相关企业,红杉中国、高瓴资本、DCM 创投等一线机构均有出手。多家短视频平台的高层也开始研究 AIGC,探寻是否存在技术带来的新机会。
2022 年获得融资的 AIGC 相关企业|极客公园制图
追溯来看,AIGC 早早就在短视频直播领域有了基础的应用。
2017 年问世的 GAN(Generative Adversarial Networks,对抗生成网络)模型在人脸识别上有了很大进步,抖音、快手也在通过 GAN 模型生成特效滤镜供用户拍摄视频使用,例如曾在抖音风靡的让不笑的脸变笑、人脸的转换等。基于新的 Stable Diffusion 模型,抖音、快手也同样很快就被应用在特效滤镜上。今年中秋节,抖音上线了一款基于扩散模型的视频模版「中秋梦境图」,可以通过用户所处背景的特点,生成与月亮相关的、不同的动画图像。
AIGC 相关的技术,早就悄无声息在很多日常的内容生产中应用,只是还未有今年的名气。在剪辑软件中被广泛使用的自动提取语音转换字幕功能,同样也被归为 AIGC 的其中一类。此外,在短视频平台上,已经有批量由 AI 剪辑的影视视频。
(一位算法专家解释,这类视频虽然是 text-to-video 的落地,但不是完全的 AI 创造。内容的生成大多依赖背后的视频库,视频库里面有海量的片段,AI 需要做的是根据文案,匹配相应的画面,再对片段的短视频进行拼接,再由 AI 配音。)
可以肯定的是,AIGC 的应用远不止于此。极客公园了解到,抖音、快手都在研究 AIGC 相关的智能创作。未来最成熟的 AIGC 技术,必然是在文字、图像、音频、视频、动画等之间的多模态转化。
AI 绘画的走红,让人们意识到 AI 技术在纯文本转图像方面有了飞跃进步,按照正常的推演,视频正是由海量的图像画面组成,看起来下一步就将是生成创造视频内容。
不过,AIGC 距离能够影响视频内容的生产,还有很远的距离。
就多模态生成视频来看,目前最前沿的三个平台 Google ImagenVideo、Google Phenaki、Meta Make-A-Video 仍然有各自的问题,例如帧率过低导致画面模糊,动作不流畅、分辨率过低、假影、噪音等。比起生成图像,视频的难点在于处理时间与空间的信息,视频运镜、场景转化等,现有的技术、模型仍然不能很好地识别 3D 空间。
现有最前沿的多模态视频生成平台及特点 |受访者供图
AI 绘画产品 Tiamat 创始人青柑提到,生成视频还面临不少的基础问题,以像素为例,一个清晰度在 1080p 的视频对算力的要求很高,成本也很大。早期他们曾通过现有的模型和算力生成一个时长 3 秒的视频,光是渲染就用了两天。
一方面,现有的训练模型在文本生成图像上仍然面临理解或生成不准确的问题,另一方面,现有的技术还需要持续突破才能支撑视频内容的生产。
另一个挑战在于视频生成的数据量过于庞大,难以处理。这些图像如何更高效地在云端储存,如何整理、分发都是实际的问题。以现在的 AI 绘画产品为例,DreamStudio 自上线以来(截至 2022 年 10 月),制作的生成图片就超过 1.7 万亿张。可想而知,如果 AI 能生成视频,平台的运营成本也将是一个不小的难题。
多位从事 AIGC 相关行业的人均认为,AIGC 最终是辅助工具,而不能替代内容的生产。今年公布两轮融资的慧夜科技,已经可以利用虚拟人及 AIGC 技术为合作品牌低成本生产 3D 内容,据了解,一家合作商依赖他们提供的 AIGC 的工具、通过虚拟人生产内容素材,符合质量的内容成本减少 20%-30%。慧夜科技创始人渠思源认为,目前的 AIGC 技术对专业人员来说可以优化创作成本,AIGC 的想象力不仅在于降低内容生产成本,更在于降低门槛,让更多没有相关技术的人可以通过成熟的工具参与到内容创作中。「AIGC 的工具提供的是一个虚拟内容表达和可视化的窗口,相当于为每个人都提供了一个虚拟世界视频创作的摄像头。」
另一位短视频平台技术专家则认为,AIGC 未来会越来越工具化,成为「创作素材的灵感 ATM」,帮助设计师、内容生产者低成本地提供海量的素材参考。此外,在多模态语言、3D 内容、图像视频编辑上,很快就会有不错的应用出现。
国内一家 AI 技术公司创始人预测,AI 未来会承担更多生成及承担更多辅助生成的作用,多模态生成内容、创作者工具可以重新再做一遍。与此同时,AIGC 最大的问题在于生成内容不可控,如何做协作模型,通过人的反馈促使机器快速学习或纠正,可能是一个很大的趋势。
虚拟人技术:虚拟直播的商业空间
2018 年,VTuber(虚拟主播)月之美兔在日本掀起了虚拟直播的风潮,此后,专职推广 VTuber 的经纪公司在日本兴起。根据月之美兔所属的经纪公司「彩虹社」的财报数据,今年 2 月到 7 月,靠着旗下 138 位虚拟主播,彩虹社营收达到 99.36 亿日元(约合人民币 5 亿元)——尽管绝对值不高,但营业利润接近 1/3。
初代虚拟主播月之美兔,YouTube 粉丝 98 万|来自 YouTube 截图
虚拟直播是否是一门好生意,开始引起了更多人的思考和关注。在 YouTube、B 站、抖音、小红书等内容平台上,越来越多的虚拟人成为内容的主体。
B 站是国内虚拟主播生态最为成熟的平台,2017 年,B 站第一个虚拟 UP 主「小希小桃 Channel」就已诞生。随后几年,B 站虚拟主播数量保持着每年三倍左右的速度增长。根据 B 站提供的数据,2021 年上半年,B 站虚拟主播数仅为 3.6 万,到 2022 年 10 月,这个数字跃升至 23 万。
一方面,动作捕捉技术和设备逐年进化,市场上也出现了第三方的动作捕捉技术提供商,另一方面,技术的进步正在降低成本。按照第三方平台向极客公园提供的报价标准,一套全身捕捉的硬件设备+软件服务一年的售价在 2 万元左右,仅需要面部捕捉则只需要 5000 元每年。索尼在 11 月末发布的便捷动捕设备 mocopi,已经进化至仅由六个 3.2 厘米传感器组成,佩戴后连接智能手机就可以创建虚拟世界的自己,售价仅 49500 日元(约合人民币 2568 元)。
将 mocopi 分别安装到头部、双腕、臀部和双脚踝,连接智能手机即可进行数据采集和动作输入|图片来源:索尼官网
虚研社是国内第一批专职运营虚拟 UP 主企划公司,其创始人张亮提到,早期因为技术原因,一个虚拟人从设计到推出,需要 20 万,到 2019 年左右,便宜的话 3000 元就可以做出一个虚拟人。几年前的动捕设备还是专业电影特效中常用的惯性动捕、光学动捕,到现在,手机摄像头就可以完成动作捕捉。
平台也在搭建可供素人便捷开启虚拟直播的基础设施。
B 站虚拟主播业务负责人噶呜提到,最开始制作 2D 主播模型,成本最低也需要 3000-8000 元,对很多素人来说,尝试成本过高。B 站提供了快速的入门工具,在开播软件中预设虚拟形象,供用户使用,门槛大大降低。软件互动能力上,也把散落在海外开发软件论坛的直播 OBS 插件,做了集成,让用户可以通过一个开播工具就体验到基础的玩法。B 站还在与不同的软硬件供应商合作,力求为行业中的参与者把参与成本、精细化制作的成本降下来。
技术方面,人工智能的技术突破让虚拟人在理解与表达能力、合成显示、识别感知、 分析决策等方面得到提升,动捕、3D 建模等底层技术服务也在随之发展,市场的活力逐渐被激发。再加上元宇宙概念的兴起加速了行业进化,虚拟人得到更广泛的应用,更多虚拟主播频繁出现在直播间带货或表演,成为品牌代言人,正在逐渐变成重要的内容介质。
整体来说,动作捕捉、摄像头等硬件设备的进化,使得早期仅供娱乐的虚拟偶像,有了更多现实应用的可能性。SaaS 工具、动捕设备、3D 建模工具、虚拟人内容制作等仍然可以通过改造效率找到市场。
交互技术:让用户更沉浸
外界复盘抖音的崛起时,必然会提及竖屏视频铺满屏幕,给用户带来了忘记时间的沉浸感。视频内容的竞争发展到今天,无论是爱奇艺、优酷、腾讯视频这样的长视频平台,还是抖音、快手、B 站,都在探讨如何让用户获得更沉浸、逼真、立体的观看效果,以及如何引入更多的交互,让短视频与用户间能有更多维和丰富的互动。
爱奇艺与优酷这样的长视频平台,在 2021 就引入了触觉交互效果,当影视剧中的人物有强烈的心跳时,观看设备会同步震动,模拟出同样的模式。这样的交互依赖手机中的马达,在应用到实际场景时,电子设备中的马达能提供的互动场景并不止于此。
例如,视频可以解析出视觉和音频代码,基于此可以与内容开发商合作,将触觉算法植入后台,处理后生成匹配场景的触觉代码,在本地识别、解析再输出触觉效果。对抖音类短视频内容,可以基于后台音乐库做声音到振动的转化,生成匹配音乐内容的触觉代码,再加入到背景音乐中,让背景音乐可以与硬件设备达成交互;另一种可能性在于,对基于现实生成的视频内容进行触觉增强。比如说,用手机录制烟花、爆竹类视频,在某地拍摄,获得音频信号,再将参数映射到系统马达上,在观看视频的设备上,通过马达就可以做出同等的效果。
在硬件端,宽频马达已经被证实可以获得细致的交互效果。在VR设备上,在钓鱼场景中,已经可以感受到水流的震感,还原鱼儿上钩各个阶段,拖拽鱼线的力量变化。
但目前的挑战在于,硬件端、内容端与马达软硬件提供方,三方尚未展开极其紧密的合作。尤其是,智能手机已经进入存量市场,新兴的硬件只能出现在新设备上,存量旧设备的触觉体验只能依赖传统的马达震动。而对内容创作者而言,是否引入这种更好的触觉效果来开发内容,更取决于硬件平台的态度。但这里确实有可能酝酿一种交互模式进化的新潮流。
曹洪斌认为,头部客户对宽频触觉和触觉交互都有认知,但没有形成对用户的规模效应。就现阶段而言,这种触觉的交互更多应用在 VR 行业,游戏硬件上。他检索海外各大软硬件平台后发现,苹果在 VR 专利上有很深布局,产业发展的关键就在于这些头部硬件厂商何时放量。VR 端的触觉交互会随着设备量的增长逐渐成熟,未来的机会在内容平台与各类硬件之间的打通,真正实现产业链之间的协同。
而在直播方面,一个明显的变化是,腾讯视频、B 站、视频号等都在尝试 360 度的全景直播(但还未扩大规模)。B 站虚拟直播业务负责人噶呜认为直播就是追求一种身临其境的实时体验。今年上半年,B 站曾经做过虚拟人全景 360 度的直播,这对软硬件设备都带来了直接的挑战。
虚拟人全景直播的难度在于,对场景的丰富程度要求更高,通常直播只需要渲染一个面,但 360 度的直播需要渲染 6 个面,对技能的挑战也相应提升。需要渲染 6 个面,对技术的要求也相应提升。实际上,从虚拟内容制作角度看,除了对美术制作提出了更高要求,甚至需要在听觉上——音乐、音效等创造更好的临场感。
随着 VR 硬件的成熟,未来,短视频与直播领域必然会发生的变化是,内容需要提供更丰富和多元的交互维度。视觉上,人们对内容清晰度的要求会越来越高,这也会反向推导内容的创作者们拍摄和生产更高清晰度的内容。而在交互方面,听觉、视觉与触觉的想象空间正在被打开,技术的快速变革正让短视频与直播领域燃起火花。
本文来自微信公众号 “极客公园”(ID:geekpark),作者:李晓蕾
评论