本文共 8761 字,大约阅读时间需要 29 分钟。
RFC3984是H.264的baseline码流在RTP方式下传输的规范,这里只讨论FU-A分包方式,以及从RTP包里面得到H.264数据和AAC数据的方法。
H.264的NAL层处理
H264以NALU(NALunit)为单位来支持编码数据在基于分组交换技术网络中传输。NALU定义了可用于基于分组和基于比特流系统的基本格式,同时给出头信息,从而提供了视频编码和外部事件的接口。H264编码过程中的三种不同的数据形式:SODB 数据比特串-->最原始的编码数据,即VCL数据;RBSP 原始字节序列载荷-->在SODB的后面填加了结尾比特(RBSP trailing bits 一个bit“1”)若干比特“0”,以便字节对齐;EBSP 扩展字节序列载荷-->在RBSP基础上填加了仿校验字节(0X03)它的原因是: 在NALU加到Annexb上时,需要添加每组NALU之前的开始码StartCodePrefix,如果该NALU对应的slice为一帧的开始则用4位字节表示,ox00000001,否则用3位字节表示ox000001(是一帧的一部分)。另外,为了使NALU主体中不包括与开始码相冲突的,在编码时,每遇到两个字节连续为0,就插入一个字节的0x03。解码时将0x03去掉。也称为脱壳操作。编码处理过程:1. 将VCL层输出的SODB封装成nal_unit, NALU是一个通用封装格式,可以适用于有序字节流方式和IP包交换方式。2. 针对不同的传送网络(电路交换|包交换),将nal_unit封装成针对不同网络的封装格式(比如把nalu封装成rtp包)。---------------------------------------------------处理过程一,VCL数据封装成NALU
---------------------------------------------------
VCL层输出的比特流SODB(String Of Data Bits),到nal_unit之间,经过了以下三步处理:1.SODB字节对齐处理后封装成RBSP(Raw Byte Sequence Payload)。2.为防止RBSP的字节流与有序字节流传送方式下的SCP(start_code_prefix_one_3bytes,0x000001)出现字节竞争情形,循环检测RBSP前三个字节,在出现字节竞争时在第三字节前加入emulation_prevention_three_byte(0x03),具体方法: nal_unit( NumBytesInNALunit ) { forbidden_zero_bitnal_ref_idcnal_unit_typeNumBytesInRBSP = 0for( i = 1; i < NumBytesInNALunit; i++ ) { if( i + 2 < NumBytesInNALunit && next_bits( 24 ) = = 0x000003 ) { rbsp_byte[ NumBytesInRBSP++ ]rbsp_byte[ NumBytesInRBSP++ ]i += 2emulation_prevention_three_byte /* equal to 0x03 */} elserbsp_byte[ NumBytesInRBSP++ ]}}3. 防字节竞争处理后的RBSP再加一个字节的header(forbidden_zero_bit+ nal_ref_idc+ nal_unit_type),封装成nal_unit. ------------------------------------------------处理过程二,NALU的RTP打包
一、NALU打包成RTP的方式有三种:
1. 单一 NAL 单元模式
即一个RTP 包仅由一个完整的 NALU 组成. 这种情况下 RTP NAL 头类型字段和原始的 H.264的NALU 头类型字段是一样的.2. 组合封包模式
即可能是由多个NAL 单元组成一个 RTP 包. 分别有4种组合方式: STAP-A, STAP-B, MTAP16, MTAP24.那么这里的类型值分别是 24, 25, 26 以及 27.3. 分片封包模式
用于把一个NALU 单元封装成多个 RTP 包. 存在两种类型 FU-A 和 FU-B. 类型值分别是 28 和 29.还记得前面nal_unit_type的定义吧,0~23是给H264用的,24~31未使用,在rtp打包时,如果一个NALU放在一个RTP包里,可以使用NALU的nal_unit_type,但是当需要把多个NALU打包成一个RTP包,或者需要把一个NALU打包成多个RTP包时,就定义新的type来标识。
Type Packet Typename --------------------------------------------------------- 0 undefined - 1-23 NAL unit Single NAL unit packet perH.264 24 STAP-A Single-timeaggregation packet 25 STAP-B Single-timeaggregation packet 26 MTAP16 Multi-time aggregationpacket 27 MTAP24 Multi-time aggregationpacket 28 FU-A Fragmentationunit 29 FU-B Fragmentationunit 30-31 undefined
二、三种打包方式的具体格式
1 .单一 NAL 单元模式
对于 NALU 的长度小于 MTU 大小的包, 一般采用单一 NAL 单元模式.
对于一个原始的 H.264 NALU 单元常由 [Start Code] [NALU Header] [NALU Payload] 三部分组成, 其中 Start Code 用于标示这是一个NALU 单元的开始, 必须是 "00 00 00 01" 或 "00 00 01", NALU 头仅一个字节, 其后都是 NALU 单元内容.
打包时去除 "00 00 01" 或 "00 00 00 01" 的开始码, 把其他数据封包的 RTP 包即可.0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 01 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |F|NRI| type | | +-+-+-+-+-+-+-+-+ | | | | Bytes 2..n of a Single NALunit | | | | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | :...OPTIONAL RTP padding | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 如有一个 H.264 的 NALU 是这样的:[00 00 00 01 67 42 A0 1E 23 56 0E 2F... ]
这是一个序列参数集 NAL 单元. [00 00 00 01] 是四个字节的开始码,67 是 NALU 头, 42 开始的数据是 NALU 内容.
封装成 RTP 包将如下:
[ RTP Header ] [ 67 42 A0 1E 23 56 0E 2F]
即只要去掉 4 个字节的开始码就可以了.
2 组合封包模式其次, 当 NALU 的长度特别小时, 可以把几个 NALU 单元封在一个 RTP 包中.
0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 01 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | RTP Header | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |STAP-A NAL HDR| NALU 1Size | NALU 1HDR | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | NALU 1 Data | : : + +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | | NALU 2Size | NALU 2 HDR | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | NALU 2 Data | : : | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | :...OPTIONAL RTP padding | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 3 FragmentationUnits (FUs).而当 NALU 的长度超过 MTU 时, 就必须对 NALU 单元进行分片封包. 也称为 Fragmentation Units (FUs).
0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 01 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | FU indicator | FUheader | | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | | | | FU payload | | | | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | :...OPTIONAL RTP padding | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+Figure 14. RTPpayload format for FU-A
FU indicator有以下格式: +---------------+
|0|1|2|3|4|5|6|7| +-+-+-+-+-+-+-+-+ |F|NRI| Type | +---------------+ FU指示字节的类型域 Type=28表示FU-A。。NRI域的值必须根据分片NAL单元的NRI域的值设置。 FU header的格式如下: +---------------+ |0|1|2|3|4|5|6|7| +-+-+-+-+-+-+-+-+ |S|E|R| Type | +---------------+ S: 1 bit 当设置成1,开始位指示分片NAL单元的开始。当跟随的FU荷载不是分片NAL单元荷载的开始,开始位设为0。 E: 1 bit 当设置成1, 结束位指示分片NAL单元的结束,即, 荷载的最后字节也是分片NAL单元的最后一个字节。当跟随的FU荷载不是分片NAL单元的最后分片,结束位设置为0。 R: 1 bit 保留位必须设置为0,接收者必须忽略该位。 Type: 5 bits
1、单个NAL包单元
12字节的RTP头后面的就是音视频数据,比较简单。一个封装单个NAL单元包到RTP的NAL单元流的RTP序号必须符合NAL单元的解码顺序。
2、FU-A的分片格式数据比较大的H264视频包,被RTP分片发送。12字节的RTP头后面跟随的就是FU-A分片:FU indicator有以下格式: +---------------+ |0|1|2|3|4|5|6|7| +-+-+-+-+-+-+-+-+ |F|NRI| Type | +---------------+ FU指示字节的类型域 Type=28表示FU-A。。NRI域的值必须根据分片NAL单元的NRI域的值设置。 FU header的格式如下: +---------------+ |0|1|2|3|4|5|6|7| +-+-+-+-+-+-+-+-+ |S|E|R| Type | +---------------+ S: 1 bit 当设置成1,开始位指示分片NAL单元的开始。当跟随的FU荷载不是分片NAL单元荷载的开始,开始位设为0。 E: 1 bit 当设置成1, 结束位指示分片NAL单元的结束,即, 荷载的最后字节也是分片NAL单元的最后一个字节。当跟随的FU荷载不是分片NAL单元的最后分片,结束位设置为0。 R: 1 bit 保留位必须设置为0,接收者必须忽略该位。 Type: 5 bits NAL单元荷载类型定义见下表 表1. 单元类型以及荷载结构总结 Type Packet Typename --------------------------------------------------------- 0 undefined - 1-23 NALunit Single NAL unit packet per H.264 24 STAP-A Single-time aggregation packet 25 STAP-B Single-time aggregation packet 26 MTAP16 Multi-time aggregation packet 27 MTAP24 Multi-time aggregation packet 28 FU-A Fragmentation unit 29 FU-B Fragmentationunit 30-31 undefined -3、拆包和解包
拆包:当编码器在编码时需要将原有一个NAL按照FU-A进行分片,原有的NAL的单元头与分片后的FU-A的单元头有如下关系:
原始的NAL头的前三位为FU indicator的前三位,原始的NAL头的后五位为FU header的后五位,FUindicator与FU header的剩余位数根据实际情况决定。 解包:当接收端收到FU-A的分片数据,需要将所有的分片包组合还原成原始的NAL包时,FU-A的单元头与还原后的NAL的关系如下:还原后的NAL头的八位是由FU indicator的前三位加FU header的后五位组成,即:nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f)4、代码实现
从RTP包里面得到H264视频数据的方法:
// 功能:解码RTP H.264视频// 参数:1.RTP包缓冲地址 2.RTP包数据大小 3.H264输出地址 4.输出数据大小// 返回:true:表示一帧结束 false:FU-A分片未结束或帧未结束 #define RTP_HEADLEN 12 bool UnpackRTPH264( void * bufIn, int len, void ** pBufOut, int * pOutLen){ * pOutLen = 0 ; if (len < RTP_HEADLEN) { return false ; } unsigned char * src = (unsigned char* )bufIn + RTP_HEADLEN; unsigned char head1 = * src; // 获取第一个字节 unsigned char head2 = * (src + 1 ); // 获取第二个字节 unsigned char nal = head1 & 0x1f; // 获取FU indicator的类型域, unsigned char flag = head2 & 0xe0 ; // 获取FU header的前三位,判断当前是分包的开始、中间或结束 unsigned char nal_fua = (head1 & 0xe0 ) | (head2 & 0x1f); // FU_A nal bool bFinishFrame = false ; if (nal == 0x1c ) // 判断NAL的类型为0x1c=28,说明是FU-A分片 { // fu-a if (flag== 0x80 ) // 开始 { * pBufOut = src - 3 ; * (( int * )( * pBufOut)) = 0x01000000 ; // zyf:大模式会有问题 * ((char * )( * pBufOut) + 4 ) = nal_fua; * pOutLen = len - RTP_HEADLEN + 3 ; } else if (flag == 0x40 ) // 结束 { * pBufOut = src + 2 ; * pOutLen = len - RTP_HEADLEN - 2 ; } else // 中间 { * pBufOut = src + 2 ; * pOutLen = len - RTP_HEADLEN - 2 ; } } else // 单包数据 { * pBufOut = src - 4 ; * (( int * )( * pBufOut)) = 0x01000000 ; // zyf:大模式会有问题 * pOutLen = len - RTP_HEADLEN + 4 ; } unsigned char * bufTmp = (unsigned char* )bufIn; if (bufTmp[ 1 ] & 0x80 ) { bFinishFrame = true ; // rtp mark } else { bFinishFrame = false ; } return bFinishFrame;} 从RTP包里面得到AAC音频数据的方法: //功能:解RTP AAC音频包,声道和采样频率必须知道。//参数:1.RTP包缓冲地址 2.RTP包数据大小 3.H264输出地址 4.输出数据大小//返回:true:表示一帧结束 false:帧未结束 一般AAC音频包比较小,没有分片。bool UnpackRTPAAC(void * bufIn, int recvLen, void** pBufOut, int* pOutLen){ unsigned char* bufRecv = (unsigned char*)bufIn; //char strFileName[20]; unsigned char ADTS[] = {0xFF, 0xF1, 0x00, 0x00, 0x00, 0x00, 0xFC}; int audioSamprate = 32000;//音频采样率 int audioChannel = 2;//音频声道 1或2 int audioBit = 16;//16位 固定 switch(audioSamprate) { case 16000: ADTS[2] = 0x60; break; case 32000: ADTS[2] = 0x54; break; case 44100: ADTS[2] = 0x50; break; case 48000: ADTS[2] = 0x4C; break; case 96000: ADTS[2] = 0x40; break; default: break; } ADTS[3] = (audioChannel==2)?0x80:0x40; int len = recvLen - 16 + 7; len <<= 5;//8bit * 2 - 11 = 5(headerSize 11bit) len |= 0x1F;//5 bit 1 ADTS[4] = len>>8; ADTS[5] = len & 0xFF; *pBufOut = (char*)bufIn+16-7; memcpy(*pBufOut, ADTS, sizeof(ADTS)); *pOutLen = recvLen - 16 + 7; unsigned char* bufTmp = (unsigned char*)bufIn; bool bFinishFrame = false; if (bufTmp[1] & 0x80) { //DebugTrace::D("Marker"); bFinishFrame = true; } else { bFinishFrame = false; } return true;}转载地址:http://najoo.baihongyu.com/