高清数字视频广播中的音频解嵌系统设计

更新时间:2024-01-26 作者:用户投稿原创标记本站原创 点赞:4124 浏览:9361

摘 要 :数字视频广播的视频流中可嵌入音频数据.本文研究了符合PTE 299M标准的高清视频流中音频嵌入原理,在FPGA上设计并实现了高清视频流音频解嵌系统,它能解出采样率为48K的16路声音通道的数字音频信号,并根据需要选择相应通道进行播放.该系统可用于数字演播室中对各个通道的声音监测及播放.

关 键 词 :音频解嵌,PTE299标准,数字高清视频

Design of audio demultiplexing system

for digital HD video broadcasting

ZHANG Jian-feng, ZHOU Jian-yang, YIN Hui-qing

(1.Department of Electronic Engineering, Xiamen University, Xiamen 361005,China,

2.Xiamen Overseas Chinese Electronic Co. Ltd, Xiamen 361006,China)

Abstract:Audio data can be embedded in digital video stream for broadcasting. This paper studies the principle of audio embedded in digital HD video according to the PTE299M standard, designs and implements the audio demultiplexing system based on FPGA. The system can demultiplex 16 channels audio data sampled at 48K and play out the audio of selected channels which are concerned.It could be used in digital studio for monitoring and playing out the audio in each channel.

Keywords:audio demultiplexing, PTE299 standard, digital HD video

1引言

在广播电视领域,从电视节目的编播、节目制作、节目存储、信号传送到信号接收都在向数字化方向高速发展[1],由于对视频信号和音频信号的处理方式和特点存在差异,电视信号经过数字设备后往往产生图像和声音不协调的现象,为了达到声、画同步的效果,可采用数字音频嵌入技术[2].

数字音频嵌入就是将符合一定标准的数字音频信号放在数字视频信号的行消隐期间从而使得数字音频信号与数字视频信号一起传输.数字视频信号又分为标准清晰度视频信号和高清晰度视频信号,在两种视频信号中嵌入的数字音频格式有所不同,其中标清视频的音频嵌入符合SPMTE272M标准,而高清视频的音频嵌入符合PTE299M标准.二者都可支持16路声音通道的音频嵌入.

要从数字视频流信号中获得声音信号,就必须把数字音频信号解嵌出来.xilinx公司提供了从标清数字视频流信号中解嵌音频的参考设计[3],本文实现的是符合PTE299M音频嵌入标准的高清数字视频广播中的音频解嵌,得到16路声音通道的音频数据,根据需要送给设备播放.系统应用于数字演播室中对各个通道的声音监测及播放.

2音频嵌入与解嵌原理

在数字视频流的行消隐区的开头和结尾各有一个时序参考信号(Timing Reference Signal,TRS),分别为E(End of Active Video)和S(Star of Active Video).嵌入的音频数据嵌入在E和S之间,并且起于E止于S.

PTE299标准规定了如何将AES/EBU(Audio Engineering Society/European Broadcast Union)音频数据打包填充进高清晰度视频行消隐区中.根据标准规定,嵌入的音频可以支持16路声音通道,每2个通道组成一个通道对(channel pair),这样16路声音通道总共有8个通道对,分为4个音频组,每个音频组包含4路声音通道(即2个通道对)的音频数据,各个音频组分别包含第1~4路、第5~8路、第9~12路、第13~16路音频数据.高清音频包有两种格式:音频数据包和音频控制包,两种数据包都有一个3个字的起始标志ADF(Ancillary Data Flag),接着是一个字的数据ID(DID),用于指示数据包的类型以及组别.AES/EBU音频子帧的24bit音频数据和其他辅助位(V,U,C,P ,Z)通过一定的格式映射成音频数据包中的4个10bit的字,每个音频数据包包含了一个音频组中4路音频各一个采样数据[4].由于本设计无需关心音频控制包,因此在本文中不做介绍.音频数据包格式如图 1所示.


数字音频解嵌过程就是数字音频嵌入的一个逆过程,是将嵌入到数字视频行消隐区中的数字音频提取出来.要将数字音频从数字视频信号中提取出来,首先需要通过S/P(串并转换)模块将串行数字视频流转换为10bit的并行数字视频流以作为本文设计系统的输入,再通过解嵌模块得到音频数据.

3系统设计

3.1 系统总体结构

本文设计的系统框图如图 2所示.用户选择需要播放的声音通道,通过单片机以I2C方式传送给FPGA,在FPGA中读取经串并转换后的10bit的并行高清视频数据流,实现音频数据的解嵌,然后把需要播放的声音通道的音频数据给I2S编码模块,通过编码把音频数据以I2S标准格式送给的声音播放电路进行播放.

3.2 解嵌模块核心状态机设计

解嵌模块是系统的核心模块,它负责把与音频有关的数据从高清视频数据流中提取出来,并把24bit的音频数据以及其他一些控制位输出给下级模块.高清视频的音频解嵌模块主要包括三个部分:输入状态机、数据缓冲区、输出状态机.

其中,输入状态机负责读入数据流,识别音频数据包,提取的音频数据以及音频相关数据,并把它们按照一定的格式存储在缓冲区中,其状态转换如图 3所示.当检测到E标志时,进入ADF检测状态等待ADF标志的到来,当出现ADF标志时,则接下来的数据是音频包,进入DID状态读取指示数据包类型和组别的ID,如果是音频数据包则进入下面各个状态分别读取音频数据包中的各个数据,并写入缓冲区,如果ID指示的是音频控制包,则回到ADF状态等待下一个音频包的到来.

输出状态机负责把缓冲区中的数据以一定的格式读出,输出24bit的音频数据和一些音频信息位以及与下级模块通讯用的控制位等.其状态转换如图 4所示.系统复位后进入WAIT1等待状态,当缓冲区不为空时进入READ1状态准备读取声音通道对(channel pair)的第1通道音频数据,若得到第1通道音频数据则进入CHECK状态检查此通道对的声音是否需要输出,如果是则进入OUT1状态准备输出第1通道音频数据,当音频数据被下级模块读取后得到一个ack反馈信号,状态机进入WAIT2状态等待读取通道对的第2通道音频数据,除了不需要CHECK状态外其他各个状态转换与输出第1通道音频数据时是一样的.

4系统实现

4.1 系统具体实现情况

系统根据以上各个模块的原理框图,利用硬件描述语言VHDL进行逻辑描述,并在xilinx的spartan3a系列型号为xc3s400a的FPGA上实现.单片机采用PIC18F45J10系列的处理器,声音播放电路中采用Cirrus Logic公司的cs4244芯片来实现声音的数字转模拟,送给耳机进行播放.

单片机与FPGA之间的通讯利用I2C来实现.系统时钟从视频数据流中提取得到,主时钟为74.25MHz,声音播放芯片cs4224需要的时钟频率为12.288MHz,利用FPGA芯片中的DCM(Digital Clock Manager)模块对主时钟进行四级分频,得到精确的12.288MHz时钟,从而保证48K采样率的声音正常播放.

表 1列出了本设计综合后xc3s400a的资源使用情况.由表可见,除了需要使用4个DCM模块以外,设计所使用的FPGA其他资源不大,还可以大大的裁剪FPGA的大小,从而节省成本.实际应用时可单独提供一个精确的12.288MHz时钟给cs4224芯片,省去DCM资源消耗.综合后在器件速度等级为4的情况下,高清音频解嵌系统设计所能跑的最高时钟频率达到145.349MHz,完全满足应用的需求.

I2S编码输出模块的仿真波形如图 5所示,其中clk为74.25MHz的系统工作时钟,output_ready信号为高时表示音频数据准备就绪可供I2S编码模块读取,audio_out为解嵌模块得到的音频数据输出给I2S编码模块,mclk,sclk,sd,lrck为音频数据经过I2S编码后送给声音播放芯片cs4224的信号.

4.2 系统实测

实际测试如图 6所示,由Tektronix TG700多格式视频信号发生器产生高清数字视频流,经过串并转换电路变成10bit并行数据流送给FPGA解嵌系统,经FPGA解嵌后的音频数据送给设备进行播放.经过实际测试,耳机能够完美播放所选择通道的声音.

5结论

本文设计的系统利用FPGA对嵌入在数字广播高清晰度视频信号中的音频信号进行提取,得到16路声音通道的音频数据,并把需要播放通道的音频数据送到播放设备,达到监测各路声音通道携带声音情况的目的.经过实际调试,该系统能满足数字演播室中对嵌在高清视频流信号中的各路声道的声音进行监测和播放的要求.

相关论文范文