智慧媒体,数据先行——南方报业“中央数据库”建设的实践与探索
媒体数据是什么样的数据,特色和优势有哪些?媒体如何积累有价值的数据并深度挖掘和利用?如何促进媒体数据在共享流通中实现数据资产增值?如何扩大媒体大数据的应用?南方报业中央数据库既注重挖掘数据的价值,也注意结合实际开掘应用场景。智慧媒体,数据先行——南方报业“中央数据库”建设的实践与探索
何 崑 陈良晓
人工智能要在媒体行业落地,需要有数据积累,建设智媒,数据是最基础的资源。
南方报业中央数据库采用“螺旋式闭环”的数据服务模式和技术研发与机制创新并行的建设模式,对媒体大数据建设与应用进行了探索。
1
项目建设的路径图:从打造数据库、提供数据智能服务到建设媒体数据生态
立项第一年,中央数据库主要以建设数据库积累数据为主。V1.0建设的要务是中央数据库与各部门的内容数据打通,建成汇集内容数据的中央库。围绕这一建设目标,以南方报业200多个原创数据源的所有媒资数据为基础,建成了报纸库、期刊库、网站库、APP库、微信库、微博库、图片库、视频库、优秀道报库、历史线索库、报料库、文献资料库以及基于采用实体抽取技术建立的人物报道库、地域报道库、机构报道库,形成2326个数据库(集),包括集团所有新旧媒资数据,为用户提供跨库检索、查看、下载、分析等服务。
同时,根据南方报业智库集群业务发展的紧急性数据服务需求,引入外部专业知识数据服务;根据每个智库的研究需要,个性化打造诸如“党建数据库”等13个专业领域知识数据库;同时为智库研究员提供专家、案例成果、研究课题等自有数据标准化入库管理。再者,通过定向采集互联网政经数据,形成了一个专业的大体量“南方政经数据库”。
第二年,在继续积累数据的基础上提供数据智能服务。近年来,随着集团旗下各媒体业务单位在数据服务市场的不断开拓,市场上各类型用户对数据服务的需求越来越呈现多样化。这些需求复杂多变、重叠交叉,使得优质数据产品的生产、有价值数据的积累、数据的挖掘分析、数据智能应用等都要快速响应、支撑。基于此,项目初步搭建起“南方数据中台”,将数据和数据应用抽象封装成服务,弥补数据产品开发和服务应用之间由于开发速度不匹配而出现的响应力跟不上的缺陷,支撑各业务单元更充分地共享技术平台、共享服务能力,以促进数据和应用在集团内流通,减少前端业务的技术和数据的重复建设。
另外,通过打造“南方数据门户”,为集团用户提供数据资源及数据能力的服务阵地,用户可以通过这一门户使用南方报业的数据资源、数据工具、数据智能引擎等大数据及人工智能服务。目前,“南方数据门户”除了提供2340个数据资源之外,已开始提供数据采集、机器写稿、数据分析可视化、用户画像、精准分发、传播分析、观点提取、VR/AR、人脸识别等近80种数据智能工具服务,从生产、传播、运营等环节支撑南方报业的智能融合创新。
再者,在深化数据积累方面,项目通过技术系统和机制并行的方式,开始将南方报业的所有采写过程数据标准化入库,同时通过数据封装接入的形式集聚集团旗下各媒体各智库建立的数据库,例如广东营商环境数据库、企业声誉数据库、舆情数据库、大湾区数据库、全国两会采访数据库等主题数据库,并进一步融入外部党政、知识、产业等类型的多维数据。南方数据中台将通过建立源数据通路,开放数据接入能力,方便各类数据的流通和共享。
南方数据中台和南方数据门户将为南方报业建设媒体数据服务生态提供平台级支撑。用户对数据需求的多样化,带来了数据服务的多样化,随之出现了丰富的数据业务应用场景。南方报业旗下各个媒体、智库的数据业务发展呈百花齐放状态,他们在为用户提供数据服务过程中,产生了多种类型的数据,积累了多种数据能力,由此产生了一批数据加工工具。这些应用场景和数据资源、数据智能工具,无形中已开始朝着实在而丰富的大数据生态发展。
2
项目建设的方法论:“边建边用+边用边建”、“闭环+螺旋”式数据服务、“技术+机制”建设并行
将用户需求汇总成库,快速迭代优化。“用户思维”是“中央数据库”项目系统建设的第一思维。建设之初,项目组多次深入各方调研,通过系统性地整理单个用户、同类用户在不同场景中提出的需求,最终汇总成中央数据库“用户需求数据库”,进行分析挖掘。同时组成数据服务实验小组,对标业界优秀数据服务案例,测试数据服务产品,最终上线“中央数据库”V1.0。之后,通过系统拜访用户,听取用户修改意见、建议,快速响应用户的需求,不断迭代、优化。
通过“闭环式、螺旋式”的数据服务方式,与业务部门共同挖掘数据服务应用场景。项目一直以“用户需求数据库”为建设准则,一方面围绕用户共性需求提供数据服务,例如为集团所有用户提供数据分析可视化工具、引入专业数据资源、建设集团内容数据库等;另一方面,根据不同用户的个性化需求,分析数据应用场景,提供个性化数据服务,并建成一个个完整的数据服务闭环。同时,根据集团整体发展需要,将这些个性化数据服务闭环进行螺旋式提升,封装服务,进而形成整体服务能力。例如,与南方经济智库合作,为互联网数据采集、专家库、案例库系统的建设提供个性化服务。
探索数据共享机制建设,保障数据驱动动能充足。中央数据库不仅仅是技术系统的建设,更重要的是有价值数据资源的整合、积累、流通,是数据处理能力的提升。如何促进、激励集团内部各媒体各单位进行数据及数据能力的共享交换,是项目建设的重点,一味讲贡献不能形成良性循环。基于此,为保障数据资源顺利积累、流通,集团明确:南方传媒学院是专门的数据资产管理机构,负责集团内部数据采集管理。集团技术委员会牵头,中央数据库项目组和南方传媒学院共同制定了《南方报业传媒集团数据管理办法》《南方报业传媒集团新闻采写过程数据采集管理办法》。未来,他们还将就数据资产确权、交易等制定管理办法,以保障南方报业数据服务能力建设走上良性发展之路。
3
如何深度挖掘媒体数据价值?
媒体融合下半场的重心将向智能化发展。从传媒到数据、从传播到服务、从采访到采集、从对内到对外,动能转换的过程需要转换思路、转换机制、转换形态,通过用数据、养数据、聚数据、管数据,从数据化运营到运营数据业务,形成媒体数据生产应用的新的闭环系统。
媒体数据不能局限于现在的媒资数据,而应该是基于媒体连接能力、地缘优势、服务定位特色等形成的各类数据。媒体的数据库建设不能停留在简单的媒资库时代。盘活媒体数据使用需要新思维,要以加快数字经济时代媒体融合创新发展为战略目标,以“数据资产增值”为考量,以市场需求为导向,围绕不同的用户需求和市场需求,打造实用有效的媒体数据产品和数据服务。
重视数据流通变现,挖掘媒体数据的经济价值。打造有价值的数据库,数据积累是一方面,更重要的是数据变现,实现媒体数据资产增值。无论是传统媒体或是新媒体,都应该在原有的商业盈利模式基础上,把握数字经济发展的机遇,开放媒体数据服务能力,开拓盈利新渠道。
首先,要把握时代需求,大力发挥媒体优势,建设多样化和特色化、专业化的数据库,打造适合党政机构和企事业单位需要的各类数据。其次,可基于大数据价值分析挖掘,洞察数据背后的规律趋势,形成数据分析报告,为用户提供决策参考。再者,可充分发挥媒体的连接力、影响力、公信力、传播力,提供大数据生态圈连接服务——相当于数据交易的中间服务。又或者,一些转型比较早、比较超前的媒体,在数据业务发展过程中,建成了平台型的数据技术产品,可通过提供数据平台赋能服务进行盈利。近两年来,南方报业传媒集团的数据服务业务发展迅速,在数据库、数据洞察、数据平台赋能等方面,都取得了不错的市场效果。
助力政府精准治理,媒体数据发挥重要的社会价值。一方面,媒体数据作为建设智媒的基础资源,为媒体深度融合发展提供充足的养料,助力媒体在新闻采集、生产、分发等环节中使用人工智能技术全面提高舆论引导能力。另一方面,新闻记者记录着每一天发生的重要新闻信息,记录这个时代产生的数据,这些数据是真实、有效的,再结合媒体其它渠道,例如报料、调查、互联网采集、合作连接所产生的数据,构成了全面性的数据。将这些数据进行结构化处理及多维度挖掘,经过智库的智慧分析研究,可为政府治理提供精准的决策参考服务,助力政府治理能力的提升。这是媒体数据最重要的价值,也是南方报业建设中央数据库的第一价值观。
(何崑系南方报业传媒集团技术委员会委员、信息技术部主任;陈良晓系该集团“中央数据库”项目组成员)
评论