用户登录投稿

中国作家协会主管

如何定义和推进大数据出版
来源:中华读书报 | 张忠凯  2021年10月24日08:50
关键词:大数据出版

贵州出版集团是2016年开始认识和思考“大数据出版”的,当时我们遇到的第一个问题就是,“出版业有大数据吗”? 有的观点认为,现在的大数据,都是以PB、ZB为单位来计算的,都是规模超大的海量数据,而我们出版业,即便所有出版物加起来,数据量最多也就TB级别,和ZB差了好几个数量级,规模不“大”,所以也不能称为“大数据”。顺着这个问题往下,第二个问题是,贵州有大数据吗? 贵州是全国第一个大数据综合实验区,每年在贵州召开的大数据峰会,吸引全国乃至国际众多一流企业参与,已经成为国内在大数据方面宣传、展示、交流的一个重要舞台。贵州做大数据,并不是因为贵州已经拥有了规模超大的海量数据,而是贵州聚焦一个主题:数据安全存储。在这个主题上,贵州有多个维度的优势:不沿边、不沿海、无地震带,水电资源丰富且价格便宜,能够为支撑数据存储的服务器机房提供充分的资源及安全保障;气候宜人,年平均温度14度,仅机房建设一项每年就可以节约电费1亿元以上。贵州的PUE值是1.45(PUE是总能耗与有效能耗的比值,越接近1说明能耗利用率越高),和其他城市相比,北京是2,杭州是2.2,相当于有效能耗在50%以下。由此说明,贵州在数据的存储成本、安全备份和防灾保护方面,较其他地区更好,适合于做数据中心。

从这个案例大家可以发现,“大数据”的“大”,其实不在于“数据大、规模大”,而在于对聚焦的主题,能够做到“多维度、全覆盖”。通过进一步研究我们发现,大数据的特点就是,“主题明确、动态变化、分析预测、降维服务、匹配推送”。如果没有一个明确的主题,采集一堆大而无用的数据,没有任何实际意义,而数据会因为各种情况,根据对我们聚焦主题的影响程度,产生冷温热三种数据,而且不断变化,而采集数据、建立模型、算例推演,最后的目的就是三个,为我们聚焦的主题做分析预测,为我们研究的对象做降维服务,为我们产品的开发做匹配推送。这就是大数据理念的核心,要做大数据出版,首先要准确理解这个核心。

那么什么是大数据出版呢?我们认为,大数据出版,就是借助大数据的技术和研究方法,把有用的知识以适合的形态推送给需要的用户,实现产品供给侧对用户需求侧的“精致服务”和“精准推送”。大数据出版符合当前出版业的发展趋势。出版业从以纸质图书传承文明、传播文化的传统出版开始,发展到“云上存储、网上出版、屏上阅读”的数字出版,这一步的实质,是极大地丰富了知识服务的产品形态和输出终端,再往下,发展大数据出版和以机器人、智能化音箱等为载体的人工智能出版,实质是提高产品供给侧的服务质量,更好地满足用户精细化、交互式的阅读需求。而且,传统出版、数字出版、大数据出版、人工智能出版,不仅有各自鲜明的特点,而且能够有效融合,一体推进。后三者实际就是我们说的“新兴出版”,出版业当前的发展趋势,就是在传统出版与新兴出版的融合发展方面,努力探索更多用户认可、满足需要且愿意消费的高质量知识服务产品,从而更好履行“建设优秀文化阵地”的工作职能。这也是当前时代赋予我们出版人的使命。

理清了大数据和大数据出版的概念,明确了大数据出版在当前出版业发展趋势中的位置,我们也就进一步清晰了自己布局大数据出版的思路:以理论和实践相结合,一方面对贵州大数据发展及行业大数据探索进行有效梳理和研究,从数据标准化层面制定基础、管理、技术、运营四项出版业大数据实务标准,为国家新闻出版署今后规范和完善行业大数据建设提供试点经验和政策建议;另一方面,按照大数据技术特点,从传统出版与新兴出版融合发展的角度,积极探索优质内容资源的“多产品形态、多终端输出”,争取在用户层面得到认可、满足需求并形成画像分析,在行业内树立具有贵州特色的“大数据出版”品牌,创造一定的社会经济效益。

在理论研究方面,我们抓住贵州作为全国首个大数据综合实验区的政策优势和(原)国家新闻出版广电总局与贵州省政府签订省部大数据战略合作的发展契机,组织编写《关于落实省部大数据(出版广电)战略合作协议出版应用任务研究报告》,从标准建设的角度制定《出版业大数据行业实务标准》,并根据党委政府部门领导及专家的意见,不断修订完善,最终编为学术专著《出版有“数”》,由中宣部出版局(原)副局长、巡视员,中国画报协会会长刘建生作序,贵州人民出版社编辑出版。成果出来后,得到行业同仁一致好评,比较好地完成了行业在当前形势下对大数据出版的理论研究任务。

在实践探索方面,一方面,从选题策划开始,推进传统出版与新兴出版的融合探索,选题产品一定要有明确的用户画像,要针对用户“看书”“上网”“读屏”的阅读体验和习惯,在“图、文、声、像、影”的“多产品形态”,“书、网、屏、听”的“多终端输出”方面大胆尝试,开发选题《张大光讲故事》,纸书销售2.6万余册,音视频产品播放50余万次,围绕用户采集的有效数据500G以上,实现了很好的社会经济效益。我们开发的选题《华为三十年(修订版)》《西游志》《姐姐》等在发行方面做了数据分析,有效降低了发行成本,提高了发行效率。另一方面,我们和高校合作,按照大数据“降维服务”的特点,集中行业50多位政产学研一线专家的意见,把学生在学校“学不到”,但工作“用得上”的就业实务知识编成职场成长、出版实务两套系统、体系的课程,争取在出版人才的多维度数据服务和校企深度合作方面,形成集团的一些特色。我们与北京印刷学院合作做了一个校企共建的实验室,效果很好,就是让学生去感受真实的职场环境和职场任务,并由此产生一些问答、直播、画像分析、就业推荐等新型出版服务,学校和学生都认为,这样的课程是对学校学习的有益补充,在加快推进学生向行业所需人才的转型上,具有积极意义。

在布局大数据出版的实践过程中,我们也是形成了一点微不足道的经验,在这里抛砖引玉,欢迎大家批评指正:第一就是实操策略,大数据出版在行业内是具有前沿探索性质的新兴出版,在实践过程中,我们的策略有三个,一是小步快走,即始终要保证投入风险可控,我们也没有那么多钱去“烧”数据,去交学费,要做就一定要保证发展可持续,在这个过程中,采取一种“小步快走”,不断自我完善、迭代升级的态度,我们认为比较务实;二是内外融合,内部是集团传统出版社与新兴出版公司之间的融合,通过具体的选题、项目,让传统编辑和数字编辑一起参与,让大家都有大数据出版的概念,一起探索大数据出版的融合发展流程,外部是和出版“政产学研技”各领域的融合,多看人家怎么做的,多学人家的经验,进一步了解有什么合作的点。三是有效布局,没有谁说一来就可以做成大数据,事实上,数据需要积累,算法需要优化,应用场景需要不断推演和完善,布局大数据出版的实操流程,应该是按照大数据的特点和方法,先尝试做一个满足用户需求、得到用户认可的产品,这样的产品多了,才有可能撑起一个有价值、有流量的平台,最后成为一种头部数据的“独角兽”生态。

前期的积累会很辛苦,但只要我们每一步都做得很踏实,哪怕慢一点,但只要可以坚持下去,随着“云计算、移动互联网、大数据、物联网、人工智能”技术的不断成熟和投入应用,一旦有一个投资风口,大数据出版就很有可能成为出版企业吸引投资或争取国家政策支持的一个题材和亮点,在经历前期的艰难积累后,迎来一个“井喷”式的超常规发展。

第二就是借助外脑。无论是规模体量,还是人才质量,贵州出版集团在地方集团中都不算特别突出,因此我们采取一种“借助外脑,开放共建”的态度,一方面从管理、业务、财务三个层次邀请专家,为集团布局大数据出版提供权威、专业的指导及评审意见,另一方面在出版业“产、学、研、技”及大数据领域,邀请具有丰富实操经验的专家,具体参与项目建设,集团布局大数据出版,至今共邀请了120位专家参与项目建设、论证及评审工作,从而有效降低了我们的决策风险,并通过专家的“传帮带”作用,提高了我们自己团队的专业能力。

第三就是程序规范,作为国有大型文化企业,贵州出版集团在布局大数据出版的过程中,努力做到“程序讲规范,建设有成效,发展可持续”,其中程序规范具有一票否决权。项目从一开始就制定严格的“建设及资金使用管理制度”“工作人员廉洁自律管理制度”,每个项目,每个阶段,都建立全面的管理、业务、财务文档,项目每一步怎么决策、怎么执行,资金怎么使用,都做到流程规范,文档齐全,并根据项目需要,形成专项审计报告,保证项目做到“三个经得起”(经得起查、经得起审、经得起告),“三个说得清”(对纪检检查人员说得清、过三五年说得清、离职离岗说得清),“三个不出事”(人不出事、钱不出事、项目不出事)。

出版业究竟“什么为王”? 从大数据出版的角度,“内容”“技术”“渠道”好比组成王字的三横,而真正能把这三横串起来的一竖,是大数据服务,只有通过数据的采集、“脱敏”、建模、清洗、统计、预测等一系列工作,在内容的多形态、多终端方面,形成知识服务对用户画像的匹配推送,才能让内容的“资源优势”转化为“资本优势”,让技术开发有意义,让渠道发布可持续,成为真正的“王者”。

(本文作者为贵州出版集团版云大数据公司董事长、数字出版公司副总经理)