1.音视频编解码-H264和H265 运动估计对比
2.xvid和h264有什么区别?源码
3.音视频探索(6):浅析MediaCodec工作原理
4.流媒体客户端RTMP拉流保存h264(flv保存为h264)
5.如何让WebRTC支持H264?
6.FFmpeg开发笔记(三十三)分析ZLMediaKit对H.264流的插帧操作
音视频编解码-H264和H265 运动估计对比
本文探讨了H和H编码中运动估计的两种关键策略,MVP(运动矢量预测)和AMVP(自适应运动矢量预测)的源码差异。H的源码MVP基于单个参考的简单平均,而H的源码AMVP则更复杂,支持多个候选位置,源码包括不同参考帧的源码突破画线主图源码MV缩放后作为MVP,这提高了预测精度和压缩效率。源码
运动估计是源码视频编码的核心环节,它通过比较连续帧识别像素移动,源码以减少冗余数据。源码运动补偿则是源码利用这些估计的运动矢量来预测帧间变化,减少数据传输。源码H的源码AMVP不仅考虑了空间相邻块的运动,还考虑了时间依赖性和运动矢量场,源码这在处理复杂运动场景时更具优势。源码
在H中,MVP候选列表基于当前块的上下邻接块运动矢量;而在H中,AMVP的候选列表扩展到了空间候选、时间候选和零候选,提供了更细致的预测。AMVP的引入不仅减小了预测误差,还优化了编码比特率,特别是在高运动场景下。
总结来说,H的AMVP在运动估计的精度和压缩效率上超越了H的MVP。深入理解这些技术需要查阅相关标准、论文和编码器源码,以获得更全面的视角。
如果你对音视频编解码技术感兴趣,欢迎关注我的公众号《MediaStack》或知乎专栏,我们将定期分享深入的技术内容。
xvid和h有什么区别?
1.MPEG4(Xvid):Xvid是一个开放源代码的MPEG-4视频编解码器,它是基于OpenDivX而编写的。
MPEG是Moving Pictures Experts Group(动态图像专家组)的简称,是国际标准化组织(ISO)成立的专责制定有关运动图像压缩编码标准的工作组所制定的国际通用标准。
2.MPEG4(DivX) :
DivX是一种数字视频格式,支持MPEG-4, H.和最新H.标准的视频,分辨率可高达4K超高清。
3.AVC(H):
H是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。
AVC是高级视频编码的简称(Advanced Video Coding),视频编解码技术有两套标准,H.、国际电联(ITU-T)的标准H.、H.+等
扩展资料
Xvid是由一群原OpenDivX义务开发者在OpenDivX于年7月停止开发后自行开发的。Xvid支持多种编码模式,量化(Quantization)方式和范围控,运动侦测(Motion Search)和曲线平衡分配(Curve)等众多编码技术,对用户来说功能十分强大。
Xvid的主要竞争对手是DivX。但Xvid是emlog6.01源码开放源代码的,而DivX则只有免费(不是自由)的版本和商用版本。
DivX也不单只是数字视频格式。除推出软件之外,DivX还对消费电子设备进行认证,让数字视频不但能在PC和Mac上用软件播放,还能直接通过U盘、存储卡的方式,在电视机、蓝光机、DVD机、手机等电子产品上直接播放。
百度百科-XviD
百度百科-DIVX
百度百度-H.
音视频探索(6):浅析MediaCodec工作原理
MediaCodec类是Android平台用于访问低层多媒体编/解码器的接口,它是Android多媒体架构的一部分,通常与MediaExtractor、MediaMuxer、AudioTrack等工具配合使用,可以处理多种常见的音视频格式,包括H.、H.、AAC、3gp等。MediaCodec的工作原理是通过输入/输出缓存区同步或异步处理数据。客户端首先将要编解码的数据写入编解码器的输入缓存区,并提交给编解码器。编解码器处理后,数据转存到输出缓存区,同时收回客户端对输入缓存区的所有权。然后,客户端从编解码器的输出缓存区读取编码好的数据进行处理,读取完毕后编解码器收回客户端对输出缓存区的所有权。这一过程不断重复,直至编码器停止工作或异常退出。
在整个MediaCodec的使用过程中,会经历配置、启动、数据处理、停止、释放等步骤,对应的状态包括停止(Stopped)、执行(Executing)以及释放(Released),而Stopped状态又细分为未初始化(Uninitialized)、配置(Configured)、异常(Error),Executing状态细分为读写数据(Flushed)、运行(Running)和流结束(End-of-Stream)。当MediaCodec被创建后,它会处于未初始化状态,待设置好配置信息并调用start()方法启动后,它会进入运行状态,并可以进行数据读写操作。码云任务源码若在运行过程中出现错误,MediaCodec会进入Stopped状态。此时,使用reset方法来重置编解码器是必要的,否则MediaCodec所持有的资源最终会被释放。如果MediaCodec正常完成使用,可以向编解码器发送EOS指令,同时调用stop和release方法来终止编解码器的使用。
MediaCodec主要提供了createEncoderByType(String type)、createDecoderByType(String type)两个方法来创建编解码器,这两个方法需要传入一个MIME类型多媒体格式。常见的MIME类型多媒体格式有:image/jpeg、audio/amr、video/3gpp、video/h、video/avc等。此外,MediaCodec还提供了createByCodecName (String name)方法,可以使用组件的具体名称来创建编解码器,但这种方法的使用相对繁琐,且官方建议最好配合MediaCodecList使用,因为MediaCodecList记录了所有可用的编解码器。我们也可以使用MediaCodecList对传入的minmeType参数进行判断,以匹配出MediaCodec对该mineType类型的编解码器是否支持。例如,指定MIME类型为“video/avc”时,可以使用如下代码来创建H.编码器:
java
MediaCodecInfo.CodecCapabilities capabilities = MediaCodecList.getCodecCapabilities("video/avc");
if (capabilities != null) {
MediaCodec codec = MediaCodec.createByCodecName(capabilities.getName());
}
配置和启动编解码器使用MediaCodec的configure方法。这个方法首先提取MediaFormat存储的数据map,然后调用本地方法native_configure实现配置工作。在配置时,需要传入format、surface、crypto、flags参数。format是一个MediaFormat实例,它以“key-value”键值对的形式存储多媒体数据格式信息;surface用于指定解码器的数据源;crypto用于指定一个MediaCrypto对象,以便对媒体数据进行安全解密;flags指明配置的是编码器(CONFIGURE_FLAG_ENCODE)。对于H.编码器的配置,可以使用createVideoFormat("video/avc", , )方法创建“video/avc”类型的编码器的MediaFormat对象,并需要指定视频数据的宽高。如果处理音频数据,则可以调用MediaFormat的createAudioFormat(String mime, int sampleRate,int channelCount)方法。
配置完毕后,通过调用MediaCodec的start()方法启动编码器,并调用本地方法ByteBuffer[] getBuffers(input)开辟一系列输入、输出缓存区。start()方法的源码如下:
java
native_start();
ByteBuffer[] buffers = getBuffers(input);
MediaCodec支持同步(synchronous)和异步(asynchronous)两种编解码模式。同步模式下,编解码器的数据输入和输出是同步的,只有当输出数据处理完毕时,java集合系列 源码编解码器才会接收下一次输入数据。而异步模式下,输入和输出数据是异步的,编解码器不会等待输出数据处理完毕就接收下一次输入数据。这里主要介绍同步编解码模式,因为它更常用。当编解码器启动后,它会拥有输入和输出缓存区,但是这些缓存区暂时无法使用,需要通过MediaCodec的dequeueInputBuffer/dequeueOutputBuffer方法获取输入输出缓存区的授权,并通过返回的ID来操作这些缓存区。下面是一个官方提供的示例代码:
java
for (;;) {
ByteBuffer[] buffers = codec.dequeueInputBuffer();
if (buffers != null) {
// 处理输入缓存区
}
ByteBuffer[] outputBuffers = codec.dequeueOutputBuffer(new MediaCodec.BufferInfo(), );
if (outputBuffers != null) {
// 处理输出缓存区
}
}
获取编解码器的输入缓存区并写入数据。首先调用MediaCodec的dequeueInputBuffer(long timeoutUs)方法从编码器的输入缓存区集合中获取一个输入缓存区,并返回该缓存区的下标index。接着调用MediaCodec的getInputBuffer(int index),该方法返回缓存区的ByteBuffer,并将获得的ByteBuffer对象及其index存储到BufferMap对象中,以便在输入结束后释放缓存区并交还给编解码器。然后,在获得输入缓冲区后,将数据填入并使用queueInputBuffer将其提交到编解码器中处理,同时释放输入缓存区交还给编解码器。queueInputBuffer的源码如下:
java
native_queueInputBuffer(index, offset, size, presentationTimeUs, flags);
获取编解码器的输出缓存区并读出数据。与获取输入缓存区类似,MediaCodec提供了dequeueOutputBuffer和getOutputBuffer方法来获取输出缓存区。但是,在调用dequeueOutputBuffer时,还需要传入一个MediaCodec.BufferInfo对象,它记录了编解码好的数据在输出缓存区中的偏移量和大小。当调用本地方法native_dequeueOutputBuffer返回INFO_OUTPUT_BUFFERS_CHANGED时,会调用cacheBuffers方法重新获取一组输出缓存区。这意味着在使用getOutputBuffers方法(API 后被弃用,使用getOutputBuffer(index)代替)来获取输出缓存区时,需要在调用dequeueOutputBuffer时判断返回值,如果返回值为MediaCodec.INFO_OUTPUT_BUFFERS_CHANGED,则需要重新获取输出缓存区集合。此外,还需要判断dequeueOutputBuffer的其他两个返回值:MediaCodec.INFO_TRY_AGAIN_LATER、MediaCodec.INFO_OUTPUT_FORMAT_CHANGED,以处理获取缓存区超时或输出数据格式改变的情况。最后,当输出缓存区的数据被处理完毕后,通过调用MediaCodec的releaseOutputBuffer释放输出缓存区,交还给编解码器。releaseOutputBuffer方法接收两个参数:Index、render,其中Index为输出缓存区索引,render表示当配置编码器时指定了surface,那么应该置为true,输出缓存区的word转txt源码数据将被传递到surface中。
流媒体客户端RTMP拉流保存h(flv保存为h)
librtmp是通过调用int RTMP_Read(RTMP *r, char *buf, int size); 来拉取流,直接得到的流是flv格式,保存后即可播放。
RTMP_Read内部调用Read_1_Packet,其功能是从网络上读取一个RTMPPacket的数据,RTMP_Read在此基础上增加了个字节的flv头。
在librtmp的源码中,可以看到flv头信息。
flv头实际只有9个字节,但为何是个字节?因为除了9个字节的flv头外,还有多个Tag,每个Tag的开头有4个字节表示上一个Tag的长度,即使是第一个Tag也需填充这4个字节,以匹配源码中的flvHeader。
srs_librtmp是通过srs v2.0-r6版本(v2.0-r7版本加入了ipv6功能,但连接rtmp服务器时总是失败,可能是个人使用不当)来拉流并保存为flv文件。
从srs导出的srs_librtmp客户端详情见github.com/ossrs/srs/wiki...,导出后,在research/librtmp下有作者编写的demo,其中srs_rtmp_dump.c用于从rtmp服务器拉流并保存为flv文件。
以下是简化版的demo源码,我注释了自己的理解,若有错误请指正。在vs下此代码能编译运行,但在linux下能正常播放。
主要讲述了flv头信息的结构,srs_librtmp源码中srs_flv_write_tag通过data封装成Tag并写入flv文件,srs_rtmp_read_packet读取的数据是flv文件中的tag data。
Tag data分为Audio、Video、Script三种,这里仅讲解Video Tag Data。
VideoTagHeader的第一个字节包含了视频帧类型及视频CodecID的基本信息。VideoTagHeader之后跟着的是VIDEODATA数据,即video payload,对于H.格式的视频,VideoTagHeader会额外包含4个字节的信息。
AVCPacketType和CompositionTime。AVCPacketType表示VIDEODATA的内容类型:若AVCPacketType为0,则为AVCDecoderConfigurationRecord(H.序列头);若为1,则为一个或多个NALU(完整帧是必需的)。
AVCDecoderConfigurationRecord包含H.解码相关的sps和pps信息,解码器在送数据流之前必须送出sps和pps信息,否则解码器不能正常解码。在解码器停止后再次开始之前,如seek、快进快退状态切换等,都需要重新送出sps和pps的信息。AVCDecoderConfigurationRecord在FLV文件中通常只出现一次,即第一个video tag,但有些视频流的sps和pps可能会发生变化,所以可能会出现多次。
Composition Time用于告知渲染器视频帧进入解码器后多长时间在设备上显示。在flv格式中,timestamp用于告知帧何时提供给解码器,单位为毫秒。Composition Time告诉渲染器视频帧显示的时间,因此compositionTime = (PTS - DTS) / .0。
总结如下:使用srs_librtmp拉流,拉取的数据为一个又一个的Tag Data,可通过type与宏值比较判断Tag Data是否为Video Tag Data。连接rtmp服务器拉流时收到的第一个Video Tag Data通常包含PPS和SPS信息。对于每个h编码的Video Tag Data,会多出4个字节的AVCPacketType和CompositionTime,其中CompositionTime用于B帧,这里暂时忽略它,我们仅支持P帧和I帧。Frame Type在h编码中只能是1或2,Frame Type == 1表示关键帧或包含PPS和SPS信息的Video Tag Data。CodecID在h编码中只能是7(AVC)。当AVCPacketType == 0时,Video Tag Data包含SPS和PPS信息;当AVCPacketType == 1时,为帧数据。
获取PPS和SPS信息非常关键,如果不告知解码器,根本无法播放视频。我写了一段代码,虽然技术有限,但希望能帮助到您。
AVCPacketType为1表示Video Tag Body的内容是NALU。Frame Type为1表示NALU内容是关键帧,Frame Type为2表示NALU内容是非关键帧。NALU的开头的4个字节表示NALU的长度(nalu_length),nalu_length之后是一个字节的nalu header。
nalu header中nal_ref_idc表示优先级,范围在~(2进制),值越大表示越重要。值指示NAL单元的内容不用于重建影响图像的帧间图像预测。对于nal_unit_type为6、9、、、的NAL单元,H.规范要求NRI的值应该为0。对于nal_unit_type等于7、8(指示顺序参数集或图像参数集)的NAL单元,H.编码器应设置NRI为(二进制格式)。nal_unit_type表示nalu类型,SPS开头是0x(nal_ref_idc为3,nal_unit_type为7),PPS开头是0x(nal_ref_idc为3,nal_unit_type为8),关键帧开头是0x(nal_ref_idc为3,nal_unit_type为5),非关键帧开头是0x(nal_ref_idc为2,nal_unit_type为1)。nal_unit_type为5表示idr帧,idr帧具有随机访问能力,所以每个idr帧前需要加上sps和pps。startcode起始码。
H.原始码流由一个一个的NALU组成,其结构包括起始码(0x或0x,取决于编码器实现)和数据。具体何时使用3个字节的起始码,何时使用4个字节的起始码,这个我没有完全弄明白,资料中提到具体哪种开头取决于编码器实现。0x是NAL起始前缀码,解码器检测每个起始码,作为NAL的起始标识,当检测到下一个起始码时,当前NAL结束。同时H.规定,当检测到0x时,也可以表示当前NAL的结束。对于NAL中数据出现0x或0x时,H.引入了防止竞争机制,如果编码器检测到NAL数据存在0x或0x时(非起始码,而是真正的音视频数据),编码器会在最后个字节前插入一个新的字节0x,这样当遇到0x或0x时就一定是起始码了。解码器检测到0x时,把抛弃,恢复原始数据。因此,组装H的步骤如下:读取tag data并判断是否是video tag data,判断frameType和AVCPacketType,区分video tag data是AVCDecoderConfigurationRecord还是NALU,如果是AVCDecoderConfigurationRecord则解析PPS和SPS保存在内存中并加上startcode(我这里加的是0x),如果是NALU,则判断nal_unit_type(有些NALU的流比较奇怪,依然包含PPS、SPS信息,甚至还有SEI信息)。switch case根据不同的nal_unit_type来解析,并加上startcode。如果nal_unit_type == 0x,则是idr帧,需要加上PPS和SPS信息(即一个idr通常包含3个startcode,SPS一个PPS一个idr帧数据一个)。
以下是完整代码:
rtmpTo.h
rtmpTo.cpp
main.cpp
原文链接:blog.csdn.net/qq_...
如何让WebRTC支持H?
编译选项调整
WebRTC能支持H,但在Linux下编译时默认未启用。关键在于rtc_use_h开关,控制着是否使用H。通过在webrtc/webrtc.gni文件中调整proprietary_codecs选项,即可开启H支持。
调整proprietary_codecs为true后,打开rtc_use_h选项,使能OpenH编码支持。WebRTC内部会使用ffmpeg来解码H,需要确保rtc_initialize_ffmpeg选项为true以使ffmpeg初始化。
调整配置后,运行gn gen命令生成构建文件,验证选项是否生效。使用命令检查Current Value为true时,说明已成功启用H支持。
要完全启用H,还需调整C++代码中FFMPEG_H_DECODER宏,确保avcodec_register_all()方法注册H解码器。
此外,注意Linux编译WebRTC时,生成的构建文件可能缺少ffmpeg的H解码器源代码。因此,在third_party/ffmpeg/ffmpeg_generated.gni文件中打开相关条件,确保H解码器可用。
在C++音视频开发学习中,需要调整代码来改变默认的编解码顺序,将H置于优先位置,以适应不同的应用需求。
使用特定模块编译并重新构建native app后,H支持即可在WebRTC中生效。
关于WebRTC使用H会黑屏的问题,WebRTC以出色的QoS而著称,支持VP8和VP9视频,但在使用H时,质量可能不如VP8/VP9,存在卡顿、时延增加和块状效应等问题。
深入分析WebRTC的QoS策略后发现,H的FEC(前向纠错)被关闭,这与VP8/VP9不同。此外,H的FEC存在BUG,可能导致解码失败,引起视频卡顿。H的FEC机制与VP8/VP9不兼容,以及RTP组包协议的差异,导致H无法启用时间分级。
综上所述,WebRTC使用H时,需调整编译选项、代码配置以及理解其QoS策略与编码器特性,以确保稳定性和性能。
FFmpeg开发笔记(三十三)分析ZLMediaKit对H.流的插帧操作
在H.流的传输与接收过程中,分析器揭示了其开头的“SPS帧→PPS帧→IDR帧”结构,验证了网络传输的H.裸流是如何被接收端正确解析视频格式的。利用雷霄骅的H分析器,我们能直观地观察到流的构成,进而理解其编码原理。
为了更深入理解H.流的处理流程,我们以ZLMediaKit为例,探索其在推流序列插入I帧时的特殊处理。在ZLMediaKit的ext-codec/H.cpp源码中,我们发现了HTrack::inputFrame_l函数中对I帧的处理逻辑。一旦检测到I帧,程序会自动插入SPS与PPS等配置帧,确保流媒体服务器能正确地将MP4文件转化为H.裸流。
通过深入分析ZLMediaKit的代码,我们发现其在关键帧后插入SPS帧与PPS帧的机制,以保持H.裸流的顺序性与完整性。这些配置帧的插入是确保客户端能够正确解析并渲染视频画面的关键。若未添加SPS与PPS帧,客户端在拉取流时会遇到错误,显示“non-existing PPS 0 referenced”,表明缺少必要的配置信息。
综合来看,ZLMediaKit通过在每个关键帧前额外插入SPS帧和PPS帧,不仅维护了H.裸流的正确格式,还确保了客户端能够顺利解析和渲染视频内容,实现了高效的流媒体传输与播放体验。对于更深入的FFmpeg开发知识,推荐阅读《FFmpeg开发实战:从零基础到短视频上线》一书,了解更多关于流媒体处理与编码的实战技巧。
FFmpeg源码分析: AVStream码流
在AVCodecContext结构体中,AVStream数组存储着所有视频、音频和字幕流的信息。每个码流包含时间基、时长、索引数组、编解码器参数、dts和元数据。索引数组用于保存帧数据包的offset、size、timestamp和flag,方便进行seek定位。
让我们通过ffprobe查看mp4文件的码流信息。该文件包含5个码流,是双音轨双字幕文件。第一个是video,编码为h,帧率为.fps,分辨率为x,像素格式为yuvp。第二个和第三个都是audio,编码为aac,采样率为,立体声,语言分别为印地语和英语。第四个和第五个都是subtitle,语言为英语,编码器为mov_text和mov_text。
调试实时数据显示,stream数组包含以下信息:codec_type(媒体类型)、codec_id、bit_rate、profile、level、width、height、sample_rate、channels等编解码器参数。
我们关注AVCodecContext的编解码器参数,例如codec_type、codec_id、bit_rate、profile、level、width、height、sample_rate和channels。具体参数如下:codec_type - 视频/音频/字幕;codec_id - 编码器ID;bit_rate - 位率;profile - 编码器配置文件;level - 编码器级别;width - 宽度;height - 高度;sample_rate - 采样率;channels - 音道数。
AVStream内部的nb_index_entries(索引数组长度)和index_entries(索引数组)记录着offset、size、timestamp、flags和min_distance信息。在seek操作中,通过二分查找timestamp数组来定位指定时间戳对应的帧。seek模式有previous、next、nearest,通常使用previous模式向前查找。
时间基time_base在ffmpeg中用于计算时间戳。在rational.h中,AVRational结构体定义为一个有理数,用于时间计算。要将时间戳转换为真实时间,只需将num分子除以den分母。