DITA标准数字出版流程

更新时间:2024-04-22 作者:用户投稿原创标记本站原创 点赞:27562 浏览:129670

[摘 要] 围绕DITA数字出版技术标准,介绍DITA的设计思想和架构体系,给出DITA架构中主题、映射、领域专门化、样式渲染等方面的详细分析.通过有针对性的典型应用分析,帮助数字出版从业者了解DITA的出版流程和应用领域.

[关 键 词 ] 达尔文信息分类体系架构 数字出版 出版流程 内容复用 重组映射

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2013) 06-0075-05

[Abstract] Focus on a technical standard for digital publishing—Darwin Information Typing Architecture (DITA), which provides a standard process for digital publishing and content reuse, and then analyze its topics, mapping, specializing and rendering mechani. Besides, give typical real world examples to help digital publishing practitioners understand and use DITA in their work.

[Key words] DITA Digital publishing Publishing process Content reuse Mapping

引 言

数字出版作为一种新兴的出版业态,随着互联网和移动通信的发展逐步普及到多种阅读终端.目前数字出版物的展示终端日益丰富,产业链趋于完善,技术不断革新,成为出版业界新的增长点,得到出版从业人员和相关研究机构的广泛关注和积极参与.

面对数字出版浪潮,传统内容组织与发布形式已不适应新形势下的出版业态,数字出版产业的发展需要引入新的内容组织方式和技术标准.达尔文信息分类体系架构(Darwin Information Typing Architecture,DITA)是针对结构化数字出版内容拆分与重组设计的技术标准,能够有效减少数字出版过程中的信息冗余,为内容深加工和多渠道发布提供崭新的模式.

本文围绕DITA数字出版技术标准,详细介绍标准的设计思想和体系架构,给出DITA标准中主题、映射、领域专门化、样式渲染等方面的详细分析.同时,结合典型应用,帮助数字出版从业者了解DITA的出版流程和应用领域,为数字出版从业者提供参考和实践的依据.

1.DITA标准及其出版流程

1.1 DITA标准概述

在早期的数字出版物制作过程中,内容需求者被动接收出版者编辑制作的信息,而无法以个性化的方式通过自定义来选择数字信息内容及其获取方式.数字出版内容通常以二进制单元的形式存储,此种存储方式不利于内容的分解,更不利于内容的重用和深度挖掘,因此无法满足数字出版时代对于内容深度利用的需求,从而制约了多媒体时代数字出版行业的发展脚步.

针对上述问题和瓶颈,新一代数字出版技术标准DITA应运而生.DITA是一种面向主题的文档类型定义(Document Type Definitions,DTD)结构,用于定义、编写和交付内容信息规则,并渲染出版内容形成最终的交付出版物.

DITA使用与XML兼容的文档描述元素来组织、管理和发布内容信息,覆盖从内容信息组织、编写、生成和交付的整个出版过程,并根据出版领域的差异面向不同出版物进行领域专门化扩展和写作.

DITA标准最初于2001年由IBM公司提出,次年IBM将领域专门化思想融入DITA主题.2004年DITA由结构化信息标准促进组织(Organization for the Advancement of Structured Information Standards,OASIS)接管,并成立了相关的技术委员会从事DITA标准的更新与维护.2005年,DITA标准发布了V1.0版本,并演进为OASIS组织的正式文档格式标准.现行V1.2版本于2010年发布,在内容重用、领域专门化、术语支持等方面增加了众多新特性.

1.2 DITA出版流程

在传统出版流程中,内容在完成版式设计和排版后交付出版印刷.编辑形成的纸质出版物或电子出版物,其内容、版式和格式是不可拆分且完整的有机整体.在传统编辑出版流程下,交付出版物能保证内容的完整性并刊印发行,但由于版式与内容未能有效分离,在处理不同出版物中的多元内容重用以及出版内容分模块灵活重组等方面有很大局限.

在DITA定义的出版流程中,内容组织的最细粒度单元是以XML格式描述的结构化内容模块.这种内容模块在DITA标准中被称作主题(Topic).主题是能够自我描述且按照单一逻辑范畴组织的内容信息.根据出版物的结构组织要求,描述相同对象的主题通过对象映射(Mapping)机制进行逻辑顺序组织,形成内容完整的统一体.组织完成的出版内容经样式渲染(Rendering),形成交付终端展示的数字出版物.面向数字出版的DITA出版交付流程如图1所示.

图1 DITA出版交付流程

在数字出版的内容流转过程中,备选内容存储在内容仓库中.内容仓库是以XML格式为代表的非结构化数据存储的容器,例如以文档存储和检索为中心的领域专用数据仓库MarkLogic Server.内容仓库专门针对半结构化和非结构化数据进行设计和优化,能够实现TB级非结构化数据资源的全文检索.在数据模型组织方面,内容仓库采用XML树状结构组织,数据查询和检索使用的DML(Data Manipulation Language)和DDL(Data Definition Language)语言为XQuery查询. 抽取自内容仓库的信息单元根据DITA标准定义的标签进行格式化,形成描述同一信息主体的主题块.构成同一出版物的不同主题块围绕出版物内容展开描述,相互之间具备一定的顺序或层级关系.不同主题块之间的松耦合关联由DITA映射维系,DITA映射描述不同主题块相互组合的层级关系和先后逻辑顺序.在DITA映射的黏合作用下,分散的主题块被重组成为具备逻辑关系的结构化文档.结构化文档包含形成交付出版物的所有内容元素,内容被重新组合成为具备逻辑层次关系和先后顺序的有机整体.


在形成数字出版物之前,结构化文档经由可扩展样式表语言(Extensible Stylesheet Language,XSL)及扩展样式转换语言(Extensible Stylesheet Language Tranormations,XSLT)进行样式渲染,成为具备排版格式且样式美观的出版物.在渲染过程中,数字出版物能够根据出版需求,生成各种XML能够转换形成的目标出版格式,如PDF、RTF或HTML等,由展示终端提供给用户阅读.

2.DITA架构分析

2.1 DITA主题

DITA主题是组织交付出版物的最细粒度单元,是进行一切后续工作的基础要素.主题承载一段语义完整的内容段落,以XML格式存储,并遵循DITA标准定义的标签进行封装.

在DITA主题粒度划分上,要根据内容编辑的需求遵循一定准则实施划分.主题作为信息段落的载体,具备语义自包含的特性,即主题需具有信息描述的完备性,能够准确完整地表达内容含义,所以划分的粒度不宜过于细碎.但从另一个角度看,主题是建立上下文关联映射的基础单元,为便于通过DITA映射文件进行内容段落的重用,主题的划分粒度也不宜过粗,以免影响内容重组的灵活性.综上,主题的粒度划分既要大到能自我容纳,又要小到能满足上下文灵活有效地重组重用.

DITA主题块在内部组成上具备相似的结构体,如标题、内容主体、引用等.面向特定领域专门化的主题还包含任务、子任务等根据具体出版内容写作的可拓展主题模块.DITA主题的基础结构如图2所示.

图2 DITA主题的基础结构

在DITA主题的基础结构中,内部各要素之间按照一定逻辑关系进行组合.标题、摘 要 、内容主体、任务、引用等主题,对应描述不同结构的内容模块,并经映射文件重组后形成交付出版物的各个章节部件.此外,DITA主题还可以被定义在另外一个主题内部,形成子主题或嵌套主题,以便于同组或同类内容的管理、编辑和信息交换.

构成DITA主题的结构体使用XML来描述,这种方式为DITA带来了诸多设计和使用方面的优势.首先,XML将出版物的内容与形式分离,出版业界可以将同样的数字化内容在不同的展现终端中重复使用,所需做的仅是依据不同展现终端的格式要求对XML文档进行渲染与转换.其次,XML是可扩展标记语言,面向特定领域的出版编辑可以使用DTD文档类型定义,拓展XML模板,重新创建DITA主题中的元素、元素属性、排列方式、层级顺序等,将DITA主题中出现的标签专门化成为符合特定领域术语要求的标签.再次,DITA借助XML这样具有普适性的格式,可以方便地与其他机构进行信息交换,而不必重新写作开发专用的创作工具或专有格式解析程序.

DITA以XML格式作为内容载体,也存在一定的局限性.首先,XML在设计上实现了内容与格式的相对分离,但不能将标记、结构与内容完全分开,致使DITA主题中混淆了与内容无关的标记和显示结构.其次,面向领域专门化的DTD文档类型定义在写作方面存在一定难度,需要深入理解领域需求并熟悉文档类型定义规则的业务人员研究写作,并且在领域需求变化时,要随时对DTD定义进行更新以适应需求.

DITA在设计实现上继承了XML格式的优点,并尽量规避其不足之处,以便众多非信息技术出身的出版从业者使用.DITA旨在辅助出版从业者轻松创建高度专业的结构和内容,同时保证内容模块能够以知识单元的形式进行交换传输与重复使用.DITA主题借助XML为载体,充分挖掘XML模块化信息承载与使用的最大潜力.

2.2 DITA映射

DITA映射用于组织出版物的逻辑顺序和层次结构,搭建交付出版物的结构框架.映射中包含指向DITA主题的链接,这些链接按顺序或层级结构将分散的主题黏合起来成为集合,并按一定的逻辑结构组织成为具备有机结构的交付出版物.

在形式上,DITA映射文件同样以XML为载体,DITA通过映射来连接上下文内容.映射文件在内部使用标签组织一个或多个DITA主题,并赋予主题上下文的顺序和层级关系.标签引用主题的组装顺序表示内容上下文的先后关系; 标签的主题嵌套层级表示内容上下文的包含关系.映射文件以.ditamap为后缀,在编译处理时DITA通过映射这样的单一逻辑结构,来管理主题组装后的导航顺序,并且适用于各种类型交付出版物的聚合生成.如PDF文档的导航目录,即可通过DITA映射创建的目录(Table of Contents:TOC)生成.DITA映射也可有多个映射文件级联,形成复杂的混合层级映射结构.DITA映射的基础结构如图3所示.

图3 DITA映射的基础结构

DITA映射能够将一个主题集合组织成为不同类型的出版物.如一本百科全书的主题集合对应各个词条的内容释义.如果将所有具备人名标签的词条抽取出来,可以借助DITA映射重组为一本人名志;而将所有具备地名标签的词条抽取出来,则又可映射重组为一本地名志.依此类推可以借助DITA映射重组为其他同类属性主题集合的出版物,即一个主题经由多种映射关系组织成不同出版物,不同映射也能够将相同的主题集合组织成不同类别的出版物.

DITA映射为内容的重组和重用提供了途径.一方面,松散的内容模块由DITA映射文件赋予逻辑关联关系,使其重组成为有机的整体.另一方面,以主题为单元的模块化内容可以在DITA映射的组织下实现灵活重用.对于不同出版物中重复出现的相同主题模块,可以借助DITA映射直接将指定主题引入到出版物中,而无需对相同的内容重复地排版编辑,这在一定程度上减少了内容管理上的冗余. 2.3 DITA领域专门化

面向专业领域的编辑出版,其基本思想是“求专不求全”,较之通用出版物涵盖各类编辑要素的要求有很大区别.专业领域的出版物针对领域特定的出版要求,定义对应的DITA主题要素,将通用的主题标签细化为领域专用的术语标签.

在DITA专门化的过程中,首先要由领域专家分析并建立面向领域出版的要素模型,之后根据模型定义主题标签并形成DTD模板.经过领域专门化的DITA主题,继承原有DTD标记的行为和属性,并赋予新标签更高的可读性,能明确地表义主题的内容模块和逻辑层次.与面向对象的编程语言思想类似,出版物的标记定义根据需求进行变更时,仅改变专门化标签的基类即可实现对标记的重定义,而无需分别维护每一个已实例化的主题.DITA领域专门化使得新的要素定义建立在已有要素定义之上,并且新定义的要素可以使用已有处理规则进行处理.

面向领域的DITA专门化是对DITA主题更高层次的抽象与复用,面向报纸、期刊、工具书、教科书等特定领域的出版从业者定义行业出版物标记,细化主题包含的概念、任务和引用,应用在各领域DITA主题的生成中.DITA的领域专门化结构如图4所示.

图4 DITA的领域专门化

除DITA主题专门化之外,DITA还支持映射文件专门化.DITA 映射可以面向映射领域实现专门化,通常是将引用主题的标签专门化为映射领域,并可以在多种不同映射类型中实现设计模式重用.专门化的标签限定了对特定类型主题的引用,如标签引用概念主题,标签引用描述操作步骤主题,标签标识提供集合总结的主题.

专门化的映射类型保证主题集合符合目标出版物的组织结构,在帮助出版物减少信息预处理、明确信息类型、通过专门化引用保持信息相容性、设计和处理流程的重用等方面具有很高的实用价值.

2.4 DITA版式样式渲染

经DITA映射建立关联后的出版内容,在形成最终交付出版物之前需经过样式渲染给出版物添加排版样式,以便为读者提供舒适的阅读体验.面向数字出版的样式渲染,可以根据阅读终端的差异采用不同的渲染方式.即根据业务需求,实现一次编辑加工,多元化出版发行的集约化生产模式.

在DITA样式渲染过程中,DITA映射形成的中间结果经XSLT处理程序加载样式表,将DITA内置的标签连同领域专门化定义的标签进行解析识别,渲染为出版物中对应的样式布局.XSL格式化对象语言XSL-FO是用于文档格式排版的XML标记语言,是DITA常用的出版物渲染方式.XSL-FO包含控制内容显示方式的版式结构定义,为符合XML规范的DITA内容排版提供了样式渲染和格式转换功能.

图5 DITA版式样式渲染

在XSL-FO处理DITA文档的第一阶段,DITA文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行、段落间距、表格等要求,转换为根据版面设计指定的XSL-FO文档.在这个阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将DITA转换成XSL-FO文档.

在DITA渲染的第二阶段,根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP(Formatting Objects Processor)从XSL-FO对象树中读入各个排版项.读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最终的目标出版物.通过第二阶段的组版,由FOP组版处理并打印输出的DITA出版物包含PDF、PCL、PS、SVG等多种目标格式.

以XML格式为基础的DITA内容,可根据全媒体出版的需求,渲染成为纸张、互联网、手机平台、手持阅读器等各种媒体上的出版物.在第一时间最大限度同步覆盖所有潜在阅读群体,共同开拓出版市场,从而实现同一内容在不同媒体上的多渠道同步出版,从资源整合的角度减少出版业样式编辑的工作强度.

3.DITA典型应用

DITA以其领域专门化、设计重用、多语言支持等编辑出版优势,在国内外已开始出现颇具代表性的典型应用.目前典型应用主要集中在提供技术和信息怎么写作解决方案的行业应用,并逐渐向数字媒体业界和特定领域出版界拓展.

美国的Adobe和Autodesk公司已将全球范围内不同语言编辑的信息内容转换为DITA来描述,并且在其相关产品中也加入了对DITA标准的支持.IBM则在解决方案手册、信息怎么写作以及企业内部的内容管理等方面使用了DITA标准.此外,Nokia和Oracle公司的用户手册、在线帮助等信息内容也使用DITA生成并维护.

在国内,作为领先的信息与通信解决方案供应商,华为技术有限公司已经使用DITA标准来简化面向电信网络、移动终端和云计算等领域各种产品和解决方案文档的编写和维护工作.针对维护量大、案例丰富的产品文档,华为面向产品领域形成一系列专门化的DITA标记,实现“按场景”输出不同类型的操作手册.华为还借助DITA的预处理功能,实现由同一配置文件发布针对“预安装”和“现场安装”等不同场景的操作手册.

DITA标准帮助解决方案提供商合并重复内容,减少信息冗余,统一各种文档中描述不一致的内容,生成怎么写作不同目标读者和终端展现需求的出版物.随着DITA编辑出版潜力的进一步挖掘,将会有越来越多的企业、数字图书馆和出版部门开始使用DITA来写作基于主题重组和映射的数字出版物.