学习贯彻习近平文化思想 推动出版业高质量发展 大模型赋能出版融合发展
内外兼修 大模型全面赋能出版发展
■叶航晖(百度智能云媒体业务部总经理)
数字化和智能化重塑出版行业未来路径。在数字化和智能化的大潮中,出版行业正迎来新趋势,不仅重塑了行业未来的路径,也为出版业的创新和发展提供了无限可能。
一是视频化已成为出版行业的一大趋势。二是新形态内容的开发利用了元宇宙、数字人、AR/VR等技术,为用户带来前所未有的沉浸式阅读体验。三是交互性的提升是出版行业的重要发展方向。通过智能化技术,出版商能够根据用户的阅读习惯和偏好,提供个性化内容推荐。四是在智能化内容生产方面,大模型的应用使得内容创作更加高效和精准。五是传播性增强成为出版业的重要趋势之一。出版商也在积极探索与影视、游戏等其他媒体形式的跨界合作,实现内容的多元化传播。
文心大模型内外兼修推动出版业智能化转型。自2019年ERNIE 1.0发布,到2023年文心大模型4.0问世,百度在大模型领域一次次实现新的突破,将这一技术推向了新高度。文心大模型4.0不仅包含了前代模型的核心能力,更在多任务学习和知识增强等方面深入优化,为出版行业提供更加精准、高效的智能服务。
在出版业的智能化转型中,“内外兼修”是一个核心概念,它涵盖了从内部提效到外部服务的全方位变革。内部提效,即通过文心大模型的深度学习和知识图谱技术,优化出版流程,提高内容生产的质量和效率。包括利用智能写作工具辅助编辑和作者,快速生成和编辑文本,以及通过视频创作工具,将静态内容转化为动态、交互式的视频体验。外部服务侧重于提升用户体验,通过数字人平台和智能问答系统,为读者提供更加个性化和互动的服务。
应用案例:大模型在出版行业的实践。百度文心大模型在实际应用中,将趋势转化为现实,推动出版行业的智能化转型。《人民日报》的智能化编辑团队,利用百度的语音、图像、自然语言处理、知识图谱等AI技术,提升了编辑的生产效率,提高了新闻内容的质量和多样性。中国日报打造了数字员工“元曦”的品牌形象,并以此作为载体对外输出中国文化,体现了大模型在文化输出和国际传播中的重要作用。工人日报的智能资讯大数据平台,通过大数据采集、存储、智能分析等系统,展示了大数据技术在出版行业中的应用潜力。央视的手语数字人为残疾人群提供了更加便捷的信息服务,有效缓解了手语播音老师资源匮乏的问题。
通过这些生动案例,可以看到文心大模型技术,正在出版、媒体等相关行业的各个方面发挥着重要作用。
元宇宙:出版行业的新机遇。文心大模型为元宇宙中的出版行业提供强大技术支持。大模型还能根据读者的阅读习惯和偏好,推荐个性化的阅读内容,让每一位读者都能找到属于自己的精神家园。此外,在元宇宙中,出版商可以通过虚拟商品的销售、虚拟活动的举办等方式,开辟新的收入来源。元宇宙也为版权保护提供了新的解决方案。通过区块链等技术,出版商可以更好地保护自己的知识产权。
未来展望:出版行业的新篇章。一是出版服务将更加智能化和个性化。借助先进的数据分析和用户画像技术,出版商能够更精准地把握读者需求,提供定制化内容推荐和服务。二是出版内容形态将更加多元和丰富。新技术的应用,使出版内容不再局限于文字和图片,而成为一种多模态、交互式的体验。三是出版行业的边界将变得模糊,跨界融合将成为常态。出版商将与教育、旅游、游戏等其他行业进行更广泛的合作,探索新的业态和商业模式。四是随着元宇宙等新兴领域的不断发展,版权保护和知识产权的管理将变得更加重要。出版行业需要与技术企业、法律机构等多方合作,共同构建起一个更加完善的版权保护体系。五是在国际传播方面,出版行业将承担起更加重要的角色。
大模型时代学术出版的挑战及知网探索
■谢 磊(同方知网数字出版技术股份有限公司数字出版中心总经理)
AI大模型技术为学术出版带来新机遇与新挑战。一是彰显高质量学术出版数据的价值。数据是大模型的基石,在大模型时代,高质量数据的价值日益凸显。要让数据资产在受保护中流动起来,可以将数据资产用于建设智能数据产品,为大模型提供预训练语料库、向量库等,用于建设行业预训练大模型或提供行业智能问答服务,以实现数据资产快速增值。
二是促进内容生产方式变革。各类AI大模型应用产品为创作者提供了更低的创作门槛和创作成本,越来越多人倾向于利用AI辅助进行学术创作。AI技术在加速学术创作的同时,也带来了一定的学术风险。
三是推动出版业务流程和服务方式变革。AI技术在评价及提高稿件质量、辅助编辑审稿、优化审稿流程、精准推送和智能检索、问答式高效知识服务等方面的应用,将重构出版尤其是学术出版的出版流程和出版模式。
中国知网围绕四方面推动AI大模型的出版应用。一是在高质量数据价值释放方面的探索。中国知网积极推动高质量数据的价值释放。2023年,中国知网与上海数据交易所达成战略合作协议,成立数据要素联合创新实验室,共同打造语料数据生态,助力数据要素市场建设。中国知网为出版机构数据资产入表提供一揽子解决方案,通过“4平台+5服务”的模式,从技术、平台、咨询三层面,提供全链条综合服务。
二是在基础大模型建设方面的探索。中国知网与华为在大模型领域开展深度合作,双方于2023年8月20日正式挂牌成立“人工智能联合创新实验室”,8月30日正式签署联创“中华知识大模型”合作协议,打造自主可控、可信增强的中华知识大模型(简称“华知大模型”),赋能知识密集型行业。
三是在AI大模型学术出版应用方面的探索。知网基于华知大模型,面向出版行业应用场景,利用出版相关的高质量专业知识资源(全国书目、出版规范、出版专业论文、评审意见、词典百科等)进行可信增强,在2023年9月数博会上正式推出腾云出版行业大模型。并基于此模型,打造新一代腾云数字出版平台,服务出版业全流程智能化升级。在内容写作环节,AI写作助手可协助作者高效完成创作。在稿件审校环节,智能审校工具可实现对导向观点问题的预警,以及对涉政、涉恐、涉暴内容和编校差错的检校。在出版环节,智能排版工具仅需几分钟就自动完成稿件排版。在发布传播环节,基于学者画像,利用各类社交媒体,进行文献精准推送,并为作者提供知识增强型智能问答和知识溯源。
四是在AI大模型赋能出版方面的探索。中国知网为各出版机构提供便捷的向量库生成工具、AI KBase向量数据库,支持出版机构建设高质量向量库。此外,中国知网面向出版机构提供多种模式的大模型服务。
大模型时代学术出版瞄准核心方向开启转型之路。一是推动优质出版数据资产入表,发挥出版数据价值。出版数据不应再“不愿流通”“不敢流通”,在国家推动数据要素发展和大模型发展时机下,积极参与数据要素产业生态建设,才能促进数据流通,让数据资产价值不断增加。
二是理性看待AI技术带来的变革,建设复合型人才队伍。AI应用正以其智能、高效的特点,快速渗透内容创作、内容审校、排版印刷、出版传播等各环节。出版业要以积极的态度面对一系列变革,建立应对策略,完善相应的管理机制,确保出版内容的学术性和高质量。要加强队伍建设,提升团队的核心能力,推动团队成员从单一出版人才转变为复合型出版人才。要在内容和产品上多下功夫,创新出版形态,拓展服务能力。
三是找准定位加强协同,专注于行业模型建设和场景应用落地。每家出版机构都有其独特的优势和特点,如专业领域、作者资源、品牌影响力等。只有明确自身的定位,才能在市场提供差异化的产品和服务。中国知网面向垂直行业提供各类行业通用和定制化AI解决方案,如“AI+政务”“AI+医疗”“AI+文化”“AI+企业”,赋能行业发展。
建设垂直行业大模型需要海量的高质量数据,光靠一家出版机构的资源远远不够,中国知网通过提供华知大模型底座及专业大模型技术团队,助力多方高质量数据整合,通过全方位多维度合作,与各出版机构共同打造面向行业、面向业务、面向特定场景的各类垂直大模型,服务行业智能化升级。
大模型时代的出版行业创新发展
■王东昊(科大讯飞云平台行业创新服务部运营负责人)
2022年下半年以来,人工智能生成内容(AIGC)技术崛起,尤其在传媒、出版和娱乐等数字化程度高、内容需求丰富的行业中,逐渐显现出巨大的市场潜力。特别是大模型等工具的快速迭代升级,使人工智能(AI)技术与内容创作的结合在更多场景中得到应用。
出版行业AI应用现状及趋势。大模型本质上是一个由海量的浮点数参数表示的深度神经网络大模型,是一个对话式的AI系统。大模型技术已在文本生成、语言理解和知识问答等方面展示出广泛的应用前景,这不仅是技术层面的突破,更是推动出版流程效率革命的关键因素。AI技术的融入不仅改变了传统出版的内容生产模式,还促进了整个行业的创新和发展。
业内专家和大咖对AI与出版传媒行业的结合应用表现出浓厚兴趣,并积极尝试创新。不少出版传媒企业已在使用AI技术,如荷兰多媒体出版集团爱思唯尔发布了Scopus AI Alpha版,将AI技术和高质量数据结合,提高科学研究的社会影响力。中信出版集团成立了平行出版实验室推进“AIGC数智出版”流程再造,开放内部编辑团队试用的AIGC数智出版集成工具平台,大幅提高了流程效率。果麦文化投资新公司进行AI文字校对的开发,打造SaaS和算法服务,形成公司的第二增长曲线。奥飞娱乐结合小冰的AI技术,双方将在“AI+IP”领域展开合作。
国产大模型在出版行业应用案例。科大讯飞股份有限公司在2022年12月15日即启动“1+N”大模型攻关计划,2024年1月30日,首个基于全国产算力训练的全民开放大模型“讯飞星火V3.5”正式发布。
在2023年1024全球开发者节上,科大讯飞宣布与中国传媒大学等众多行业伙伴联合发起“传媒大模型”。讯飞星火传媒大模型为中央广播电视总台、中国日报等单位提供智能创作、内容安全检索、智能多语种翻译等能力,实现内容生产提效。此外,科大讯飞已运用语音听写、语音转写、机器翻译、语音合成(含特色发音人)等AI能力,提升在新闻搜索、新闻播报等场景下的产品力与工作效率。例如,运用语音合成(含特色发音人)与虚拟数字人技术,大幅提升光明网内容生产的工作效率。四川日报封面传媒、重庆日报报业集团等运用讯飞基于大模型技术的文本校对能力与内容合规能力,赋能出版物的审校,显著降低成本。
“大模型+出版行业”合作方向。大模型拥有理解学习、逻辑推理、多模态的输入与表达等技术,出版传媒行业拥有海量的数据资产,在AI大模型与出版行业的合作中,两者可以互补共建。在内容生产方面,AI大模型可以帮助作者生成创意、润色文字,极大地减轻了创作负担。对于编辑工作,AI可以自动完成校对、排版等重复性任务,使编辑能够将更多精力投入到内容的深度加工上。此外,AI还能够辅助进行市场分析,帮助出版商更准确地定位目标读者群,提高营销效果。
在阅读体验方面,大模型的应用使得互动式阅读成为可能。读者可以通过问答形式深入了解作品内容,或是沉浸在由AI驱动的虚拟故事世界中,享受个性化的阅读旅程。同时,AI语音合成技术的进步也使书籍内容可以被转化成极具表现力的语音输出,为用户提供更多样化的听觉体验。
在智能办公方面,AI大模型支持多语种翻译,极大地便利了跨国文献的编纂和学术交流。图文识别功能则能快速将纸质文档转换为电子版,节省了大量的人工录入时间。智能审核校对功能确保了出版物的准确性和专业性,一键生成PPT/文稿的工具则简化了报告和演示准备过程。
展望未来,AI大模型与出版行业的合作将不断深入,双方将共同探索更多创新场景,如智能会议系统、智能数据运营中心、企业文化多功能展厅等,推动出版行业向数字化、智能化方向持续发展。尽管存在如内容版权、隐私保护、人机伦理等问题需要解决,但大模型技术无疑为出版业带来了新的生机与机遇。
坚持人工智能技术驱动 以大模型赋能出版发展
■李 月(中译语通科技股份有限公司副总经理)
中译语通探索应用新技术助力出版转型升级。回溯中译语通的技术发展时间线,机器翻译、知识图谱、区块链溯源、AIGC和大模型技术五个主要方向代表着过去10年的技术发展进阶。
机器翻译:直接改变语言沟通方式。在应用层面,机器翻译早已作为生产工具渗透到不同场景,改变着出版的工作方式,驱动着不同领域的数字化变革。例如,机器翻译与多媒体出版相结合,研发的音视频翻译软件,可一键实现视频字幕的翻译和制作,给版权内容审查与内容引进带来极大便利。目前,中译语通的机器翻译平均每天处理的企业级用户的翻译字符量达到亿级。
知识图谱:实现知识服务的关键技术之一。利用知识图谱和出版大数据可以整合出版图书、报纸期刊、出版社、专家作者、图书评论等多种出版数据,构建图书知识图谱、期刊知识图谱、出版社知识图谱和专家知识图谱,提供智能选题、多角度出版数据分析和智能检索等服务。
区块链溯源:维护出版企业合法权益。中译语通在中药溯源、AI版权溯源方面已有多年实践经验。2022年,中译语通牵手商务印书馆打造了图书防伪溯源系统,实现区块链、大数据以及人工智能技术在传统图书出版领域的新探索与实践。
AIGC:利用AIGC技术构建起国际形象传播矩阵,参与策划了“冬奥会”“Z世代传播”和“城市名片宣传”等专题内容。在出版领域,AIGC驱动下的自动化编辑、插图内容生成等,也已投入使用。
大模型技术:不断丰富出版应用场景。大模型技术在出版传媒行业有着丰富的应用场景。一方面能够提升出版企业的生产效率,自动化处理大量数据和内容,实现编辑、排版和出版流程高效运作。另一方面,在内容制作上助力出版机构实现个性化内容创造、内容分析与市场洞察、数据驱动的故事叙述,增强现实和虚拟现实内容。
大模型赋能出版融合仍面临多重问题与风险。一是版权与知识产权问题。大模型在出版融合中的应用,往往涉及大量的文本数据处理,容易触发版权问题,侵犯原作者的知识产权。二是内容质量与准确性问题。大模型基于大量数据进行训练,因此其生成的内容可能受到数据偏见、噪声等因素影响,导致内容质量参差不齐,甚至出现错误或误导性信息。三是技术依赖与自主性问题。当前的大模型技术主要掌握在少数几家大型科技公司手中,这意味着出版业在利用大模型进行融合发展时,可能会过度依赖其技术和平台。四是用户隐私与数据安全问题。加强用户数据的保护和管理,确保数据安全是大模型赋能出版融合发展中的重要问题。五是技术门槛与人才储备问题。大模型技术具有较高的门槛,需要专业的技术人员进行开发、部署和维护。目前出版业中具备相关技术背景的人才相对较少。六是大模型在处理敏感或争议性话题时可能产生的偏见和误导,以及内容生成的版权归属等伦理与道德问题需要关注。
多方合力多角度创新推动大模型赋能出版融合发展。一是建立跨部门、跨行业的合作机制,形成联动发展的合力。政府、企业、学术界等各方应加强合作,共同推动大模型赋能出版融合发展。二是推动技术创新与业态创新的结合,培育新的经营模式和发展路径,加强技术创新,提升出版业数字化水平,推动出版业采用人工智能、大数据等新技术,提升出版过程的效率和质量。三是建立数字化图书馆系统,推动图书资源共享和数字化阅读的发展。通过技术手段,实现图书馆资源的数字化存储和在线阅读,提高读者获取知识的便利程度。四是结合互联网、移动互联网等新兴技术,开发新的出版业务模式。例如,通过在线书店、电子书等方式,实现图书销售线上化,满足读者多样化的需求。发展数字出版业务,通过数字版权保护技术等手段,提升数字出版物的版权保护力度等。五是加强人才培养,培养适应大模型赋能出版融合发展的专业人才。通过开展培训、研讨会等活动,提高从业人员的专业素质和创新能力。