“数字报刊与跨媒体出版系统”专题之二

 

跨媒体出版系统的技术实现

楼险峰  李忠兴  曹学军  刘万福  谢理智

 

浙江日报报业集团和北大方正电子有限公司联合研制的“数字报刊暨跨媒体出版系统”,不仅可以和报纸印刷出版的正常生产流程无缝整合;而且通过在全流程中引入版面的版本化描述和管控机制支持非正常流程情况的报纸版面生产,能够最大限度地保障在出现调版、撤版、转版、错版、改版情况下流程中流转的各种版面数据的一致性、完整性和正确性,很好地适应目前各种报纸日常多变复杂的版面实际生产环境和不同工艺。

 

项目背景

平面媒体转化为互联网媒体的原理其实比较简单,就是当各个版面的版面文件交付到印刷厂付印后,再对这些版面文件按照电子报的技术要求进行加工,这一过程称为“反解”,然后基于反解的输出结果,生成可以通过互联网阅读的电子报网页。

由于排版软件有许多种,而用于印厂印刷的版面文件通常是含排版描述语言的PS格式文件,因此绝大多数报纸是基于PS格式文件作反解的,并且需要安排专职人员从事这项工作。从我报社实施的情况来看,这个方案存在以下不足:

一、由于PS格式文件包含的信息比较少,因此需要很多的人工干预,操作步骤又多又复杂,准确率受人为因素的影响比较大。

二、由于作反解的人员不是原来组版的人员,因此作反解时首先需要熟悉版面的情况,效率比较低,成本比较高。

三、版面信息无法全面反映到电子报中。

“数字报刊暨跨媒体出版系统”通过整合北大方正的版面结构化描述技术、电子版面的生成技术、电子报纸的自动合成发布技术;同时新创了基于飞腾软插件实现的一系列版面内容快速智能反解标引技术,实现了报刊电子版面的快速、简洁,但功能强大的网络化流水线式的跨媒体生成和发布。该系统通过借助这些智能反解标引技术和自动合成发布技术,使得报社只需在现有报纸出版的工艺流程中追加少量的工时即可实现一条全新的、高度智能化和自动化的、网络化的版面跨媒体出版生产线。

 

 

数据组织

从平面媒体转换成互联网媒体实际上是新闻资讯信息展现形式的转变。我们对纸报和电子报进行了深入细致的分析,对二者所包含的信息进行了梳理、分类,归纳出版面上的元素可划分为以下三类信息集:

1、版面包含的大样信息,即:报纸名称、见报日期、见报版面、版次、签发部门、签发人、组版员等。电子报中需要的呈现的信息是:报纸名称、见报日期、见报版面、版次等。

2、文字稿的小样信息,包括:引题、标题、副题、见报作者、栏目、与转版有关的下转和上接、来源、摘要、体裁、分类、发布方式、稿件类别、小样内容以及记者、编辑等。与电子报有关的信息有:引题、标题、副题、见报作者、栏目、转版信息、发布方式、稿件类别、小样内容等。

3、图片稿件的小样信息,包括:引题、标题、副题、图片说明、见报作者、栏目、来源、摘要、体裁、分类、发布方式、稿件类别、图片的文件名以及记者、编辑等。与电子报有关的信息有:引题、标题、副题、图片说明、见报作者、栏目、发布方式、稿件类别、图片的文件名等。

基于fit文件反解能够获取到电子报中需要的大部分信息,飞旋插件导入版面文件时还能自动提取稿件的引题、标题、副题、小样内容以及图片文件名等信息。但是fit文件毕竟只是一种特定的格式文件,只是用于数据的存储和传输,不具备管理数据的功能。如无法自动提取版面的大样信息,也无法区分哪些排版元素是电子报需要的稿件、哪些仅仅是修饰元素。而采编系统是稿件的组织系统,其流程是结合了数据库系统来实现的,具有管理数据的功能。于是我们采用飞腾的网络组版插件将采编系统和飞腾排版系统连接起来,在排版结束时,通过飞腾的提交点样操作,将版面信息和稿件的信息回写到采编系统中。同时,通过这一操作将用于传版的排版文件的文件名进行了规范命名,这样也便于排版和印厂之间的信息传输。

组版员作反解时,是通过选择报纸名称、见报日期、版次来导入该版面的fit文件的,而不是直接打开fit文件。这样,飞旋插件不仅可以从fit文件中提取信息,还能从采编系统中提取信息,使得大部分信息已经正确“就位”,从而在导入时就提高了信息的准确性,减少了组版员的人工操作。

通过飞旋插件标引的输出结果为以下三类文件:

1)、XML文件:描述了版面的大样属性和版面所含小样的结构、属性、内容、位置关系;

2)、版面图:JPG格式,版面的pdf文件:反映了版面的内容,并可用于阅读;

3)、稿件图:图片稿件的图(原图、简图、图标),按要求生成的稿件图,均为jpg格式;

 

流程再造

要实现高效率的数字报刊生成,就要涉及在传统流程中的信息加工与采集机制的优化。系统分析认为,如果在新闻生产的每一个环节,进行关联信息的及时和准确加入,后道环节就能直接共享这种信息资源。在数字报刊系统的设计中,我们设想可以完全取消专职的信息标引人员,相关的信息注入,可以在组版环节中完成。

由于组版员对版面内稿件的组织、布局情况非常熟悉,所以由组版员对他所组的版面作简要标引,还可以提高准确性。同时,一个版面提交点样后,这个版面的组版员也需要稍作等待,以便解决该版面在后道的流程中可能发生的变更,这样的安排也使得组版员可以两边兼顾。这样作既保证了电子报的质量、又把人工的成本降到了最低。

其次,安排组版员作反解是比较高效的,但仍然应该尽可能地提高自动化程度。应用计算机技术和网络技术,充分发掘计算机的自动处理能力,需要反解的内容尽可能做到计算机自动识别、标示,减少组版员的手工操作。这样做,既保证了信息的准确性,又提高了速度。

报社采用北大方正公司的飞腾软件排版,由于用飞腾软件排版时生成的fit文件包含了许多与稿件有关的排版信息,如稿件的标题、内容等,因此我们不用PS文件来作反解,改为基于fit文件作反解。不用专门的标引人员来集中处理上百个版面,而是由组版员完成自己所组版面的相关信息加注。

为此,我们采用北大方正公司提供的、扩展飞腾软件功能的插件技术,并与他们合作开发了在飞腾的排版环境下,通过标引的操作就能完成版面反解的插件——飞旋插件。

第三,为了进一步减少人工的操作、提高速度,我们还将采编系统、排版系统、照排印刷系统、资料系统等作集成,打通各个系统之间的信息通道在飞旋插件中实现了自动从采编系统中获取信息的功能,因为有些无法从fit文件中获取的版面和稿件的信息是可以采编系统中得到的。照排印刷系统能为本方案提供高质量的版面文件以改进电子报的视觉效果。另外,标引得到的数据不仅可以用来快速生成电子报,还能作为资料系统的数据,充实到全文检索数据库中,从而提高反解结果的利用率。

第四,采用北大方正公司最新版本的翔宇内容管理系统来生成电子报,它能够自动地将标引的输出结果转换成网页形式的电子报,速度很快,后台维护的工作也很少。

 

技术实现

“数字报刊阅览系统”是“数字报刊系统”的一个重要子系统,相关系统包括“数字报刊快速自动生成系统”、“数字报刊多媒体加工系统”以及“报纸生产安全控制系统”、“网站电子报发布系统”、“数字资产再加工系统”、“历史版面数据加工工程”等,以及最近正在完善的“因特网海量信息梳理系统”,研究“多媒体报刊阅览系统”。

一、衔接“采编与照排系统”,在源头采集信息

要解决数字报刊相关信息的完整和准确性问题,必须在新闻生产的源头解决,新闻采编系统和激光照排系统是其中最为重要的两个环节。

基于飞腾排版文件,能够获取到数字报刊中需要的大部分信息,比如引题、标题、副题、小样内容以及图片文件名等信息。而采编系统是稿件的生产组织系统,其流程是结合了数据库系统来实现的,具有管理数据的功能。

经过加工的飞腾排版系统“网络组版插件”,可以将采编系统和飞腾排版系统连接起来。在排版结束时,通过飞腾的提交点样操作,将版面信息和稿件的信息回写到采编系统中。同时,通过这一操作将用于传版的排版文件的文件名进行了规范命名,这样也便于排版和印厂之间的信息传输。

二、嵌入“飞旋系统”,实现最简化的标引

实践证明,在新闻采编系统和激光照排系统中,我们能够获取数字报刊自动生成所需要的几乎所有的信息。通过流程再造,不仅可以从fit文件中提取信息,还能从采编系统中提取信息,使得大部分信息已经正确“就位”,从而在导入时就提高了信息的准确性,大大减少了人工操作。

但是,也有部分信息,还必须通过人工的干预。比如,通过“关联”将内容上属于同一篇、但排版时分开排的文字稿(包括图片)合并成一篇;如果文章中有“下转、上接”信息的,组版员必须准确填写转版的版次;对于“分类广告、导读、报头、报花、表格、气象预报”等,必须按排版分区选中全部单元内容,才能组合生成可视性很强的“稿件图”形式。另外,对飞旋自动提取并在版面、稿件或图片属性中列出的信息,进行检查是必要的。

飞旋标引系统,作为一个插件,直接嵌入到飞腾排版软件中,除了解决相关信息的自动获取外,也提供了人机交互的界面,为标引和检查相关信息提供平台。总体上讲,飞旋标引系统是一个智能的、自动化的作业系统,只需要少量的人工操作飞旋标引输出的结果是以XML格式文件为主的一组相关文件,包括该版面的稿件图的文件、版面图的文件、版面PDF格式的文件。

三、通过“畅流系统”,获取准确的版面图像

新闻采编以及出版流程的全面数字化,为报业数字资产管理以及跨媒体出版系统奠定了重要基础。

在 “畅流系统”中生成的版面PDF文件,采用自包含技术,一个版一个文件,包含了版面上的全部关联文件信息,不会缺图、缺字体、缺广告,可以直接用于阅读、打印甚至印刷,是版面信息完全保存的理想载体。畅流系统生成的PDF文件,是用于直接印刷的最终文件,在精确性和精度方面显然没有问题。

经过畅流系统生成的版面PDF文件,都是经过加密的,只有安装了密钥的代印点才能正常阅读和出片,否则即使复制了也无法打开。网站上发布供免费阅读的电子版,则通过畅流系统专门生成阅读用、低精度的PDF文件以及带区域定位的JPG文件。

跨媒体出版系统采用畅流系统的文件结果,是直接,也是保证一致性的选择。

四、借助“翔宇系统”,自动生成静态网页

翔宇系统就是负责数字报刊页面生成的组装车间,包括数据入库、文件同步、版面管理和页面生成与发布等四道工序。

这些以XML文件为主导的文件组就是电子报的原材料,而翔宇系统就是电子报的加工设备,电子报的加工过程包括两道工序:入库和发布。入库就是把标引输出的XML文件组定时地采集到翔宇系统中,并按照翔宇系统的要求重新组织稿件及其图片、版次等的关系。目的是为生成电子报提供统一的版面之间、版面与稿件、稿件之间逻辑关系的描述,也为了把平面媒体信息统一管理起来,以便于今后重复利用,比如生成不同样式的电子报页面。

XML文件组信息的入库是通过翔宇系统的入库程序定时检查热文件夹的方式自动实现的,即标引的XML文件组都输出到该热文件夹下,入库程序定时地扫描这个热文件夹,当检测到该文件夹有XML文件组存在时,就将该XML文件组移到另一个备份文件夹下,同时将文件组的所有信息提取出来,存入翔宇系统的数据库中。这里要考虑到由于出版生产的变更,有的版面会有多次标引、多次输出,而入库后在数据库中只能有一份内容,因此入库时还必须在数据库中检查该XML文件组代表的版面是否存在。如果不存在,就直接入库;如果存在,则把低版本的数据删除,把高版本的数据存入数据库。

发布就是从数据库中提取数据,生成电子报的页面,我们采用的网页格式是静态的htm文件。翔宇系统能快速合成htm文件,通常情况下每分钟能生成5个版面,它提供了两种合成发布方式,一种为即时自动合成发布方式,即有新的版面被采集到翔宇系统中后,系统立即通知发布程序把该版面对应日期下的所有版面自动地生成网页。另外一种为人工触发合成发布方式,即由人工来指定合成发布哪个报的哪一天、或哪一个时间段的所有版面页面。日常电子报的生产流程就是采用即时自动合成发布方式。此外,翔宇的文件同步程序能将照排印刷系统生成的高质量的版面图JPG文件、可用于电子阅读的版面PDF文件复制过来,分别存放到翔宇系统管理的文件目录以及电子报存贮的文件目录,并覆盖由飞旋插件生成的相应文件。翔宇系统提供的电子报管理功能有:

一、版面浏览,即查看电子报版面的制作情况,包括版面的入库情况、生成电子报的情况、同步复制版面图及版面PDF的情况,以及该版面的总稿件数、转版稿件数、版本号、入库时间等信息。并以版面图方式、按版面的顺序对应列出,如004版就呈现在第四个格子中。而且能定时自动刷新,能够手动触发版面图和版面PDF的复制功能,能够删除多余的版面。

二、转版稿件的合成,即把转版稿件的内容按阅读的顺序合并起来,在电子报中作为完整的一篇来呈现,而稿件数不变。如果版面上只有一篇转版稿件,则系统自动将它与对应的稿件合并起来,当有多篇转版稿件时,就需要人工选择对应的稿件分别作合成操作。

三、模板管理,模板决定了电子报的呈现样式,翔宇系统根据模板的结构来合成电子报页面。在我报社,每组模板包含三种样式,即按版次顺序呈现、按所有标题呈现以及稿件内容的呈现等。

四、报纸节点管理,即在翔宇系统中建立以版次对应版面的节点,从而构建出报纸与版面及各版面之间的逻辑关系,并在此基础上设定报纸、版面以及稿件与模板的对应关系。

 

总体上讲,数字报刊系统实现了基于印刷的传统报纸、基于网络的电子报纸、基于数据库的报纸光盘、基于CEB标准和PDF标准的数字图书(报刊合订本)以及面向广播、电视选播的特殊要求文本和版面样式文件的提供,实现跨媒体的出版。在报纸版面PDF文件中嵌入电视节目的技术实现,同时为未来实现媒体融合创造了先进的技术平台。

在数字报刊系统项目中,研究和开发了飞旋智能标引技术,整合和改进了方正畅流出版系统、方正飞腾排版系统、数字资源管理系统、翔宇网站内容管理系统、方正数字图书系统、新闻采编系统、经略广告管理系统以及先进的方正字库技术,堪称是报业信息化系统中一次规模巨大的跨系统技术整合与创新。

 

(作者单位:楼险峰、李忠兴,浙江日报报业集团信息技术处;

曹学军、刘万福、谢理智,北大方正电子有限公司)