在这里插入图片描述

欢迎诸位来阅读在下的博文~
在这里,在下会不定期发表一些浅薄的知识和经验,望诸位能与在下多多交流,共同努力

前期博客

FFmpeg的入门实践系列一(环境搭建)
FFmpeg的入门实践系列二(基础知识)
FFmpeg的入门实践系列三(基础知识)
FFmpeg的入门实践系列四(AVS)
FFmpeg的入门实践系列五(编程入门之属性查看)

参考书籍

《FFmpeg开发实战——从零基础到短视频上线》——欧阳燊

一、FFmpeg常见的处理流程

承接上章,上一章其实讲了三个对象,一个是AVFormatContext,代表音视频文件,然后是其相关的属性;一个是AVStream,代表音视频文件里面的数据流(音频流、视频流、字幕流等等),然后是其相关属性;一个是AVCodec,代表数据流里面的编解码器规格,然后是其相关属性。整个过程是一个由大到小的,层层深入的过程。这一章,将继续讲解编解码器的相关内容。

复制编解码器的参数

其实,AVCodec结构仅仅是规格定义,它在描述一个编解码器是怎么样的,但是它没有真正执行编码解码的功能,就是一个”光说不做的主“。要想执行真正的编码解码操作,还需要引入AVCodecContext才行。
具体的写代码流程如下:

  • 打开编解码器实例的完整流程:avcodec_alloc_context3–>avcodec_parameters_to_context–>avcodec_open2
  • 关闭编解码器实例的完整流程:avcodec_close–>avcodec_free_context

在编解码器实例打开之后,才能对数据包或者数据帧进行编解码操作,具体而言,就是数据包AVPacket经过解码生成数据帧AVFrame;反之亦然。下面代码片段演示如何打开编解码的实例:

AVCodecContext *video_decode_ctx = NULL;
video_decode_ctx = avcodec_alloc_context3(video_codec);
if(video_decode_ctx == NULL) {
    av_log(NULL, AV_LOG_ERROR, "Could not allocate video decode context\n");
    return -1;
}
// 把视频流中的编解码参数复制给解码器的实例
avcodec_parameters_to_context(video_decode_ctx, video_stream->codecpar);
av_log(NULL, AV_LOG_INFO, "success copy video stream parameters to video decode context\n");
ret = avcodec_open2(video_decode_ctx, video_codec, NULL);// 打开解码器
av_log(NULL, AV_LOG_INFO, "success open video decode context\n");
if(ret < 0) {
    av_log(NULL, AV_LOG_ERROR, "Could not open video decoder\n");
    return -1;
}
avcodec_close(video_decode_ctx); // 关闭解码器
avcodec_free_context(&video_decode_ctx); // 释放解码器资源

其实只要调用了avcodec_paramters_to_context函数,就能获取音视频文件的详细编码参数,具体参数保存在AVCodecContext结构中,该结构的常见字段说明如下:

  • codec_id: 编解码器的编号。//比如AV_CODEC_ID_MJPEG 7 JPEG图像编码标准
  • codec_type: 编解码器的类型。// AVMEDIA_TYPE_VIDEO 0 视频流
  • width: 视频画面的宽度
  • height: 视频画面的高度
  • gop_size: 每两个关键帧(I帧)间隔多少帧
  • max_b_frames: 双向预测帧(B帧)的最大数量
  • pix_fmt: 视频的像素格式。像素格式的定义来自AVPixelFormat枚举,详细的像素格式类型及其说明见附页
  • profile: 指定编解码器的配置文件,主要用于细分AAC音频的种类,详细的AAC种类定义及其说明见附页
  • ch_layout: 音频的声道布局,该字段为AVChannelLayout结构,声道数量是该结构的nb_channels字段。声道数量及其定义见附页
  • sample_fmt: 音频的采样格式。采样格式的定义来自AVSampleFormat枚举,详细的采样格式定义见附页
  • sample_rate: 音频的采样频率,单位为赫兹(次每秒)
  • frame_size: 音频的帧大小,也叫采样个数,即每个音频帧采集的样本数量
  • bit_rate: 码率,也叫比特率,单位为比特每秒
  • time_base: 音视频的时间基,该字段为AVRatianal结构

完整代码

接下来把AVStream到AVCodec再到AVCodecContext的完整流程串起来,分别在视频流和音频流中寻找它们的解码器的实例,并执行实例的打开和关闭操作。

#include <stdio.h>
#ifdef __cplusplus
extern "C"
{
#endif
#include <libavformat/avformat.h>
#include <libavcodec/avcodec.h>
#include <libavutil/avutil.h>
#ifdef __cplusplus
};
#endif


int main(int argc, char** argv){
    const char* filename = "../fuzhou.mp4";
    if(argc > 1)
        filename = argv[1];
    AVFormatContext* fmt_ctx = NULL;
    int ret = avformat_open_input(&fmt_ctx, filename, NULL, NULL);
    if(ret < 0){
        av_log(NULL, AV_LOG_ERROR, "Could not open file %s\n", filename);
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Opened file %s\n", filename);
    //查找音视频文件中的流信息
    ret = avformat_find_stream_info(fmt_ctx, NULL);
    if(ret < 0){
        av_log(NULL, AV_LOG_ERROR, "Could not find stream information\n");
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Success find stream information.\n");
    av_log(NULL, AV_LOG_INFO, "duration=%d\n", fmt_ctx->duration); // 持续时间,单位微秒
    av_log(NULL, AV_LOG_INFO, "nb_streams=%d\n", fmt_ctx->nb_streams); // 数据流的数量
    av_log(NULL, AV_LOG_INFO, "max_streams=%d\n", fmt_ctx->max_streams); // 数据流的最大数量
    av_log(NULL, AV_LOG_INFO, "video_codec_id=%d\n", fmt_ctx->video_codec_id);
    av_log(NULL, AV_LOG_INFO, "audio_codec_id=%d\n", fmt_ctx->audio_codec_id);

    // 找到视频流的索引
    int video_stream_index = av_find_best_stream(fmt_ctx, AVMEDIA_TYPE_VIDEO, -1, -1, NULL, 0);
    av_log(NULL, AV_LOG_INFO, "video_stream_index=%d\n", video_stream_index);
    if(video_stream_index >= 0){
        AVStream* video_stream = fmt_ctx->streams[video_stream_index];
        enum AVCodecID video_codec_id = video_stream->codecpar->codec_id;
        av_log(NULL, AV_LOG_INFO, "video_codec_id=%d\n", video_codec_id);
        // 查找视频解码器
        AVCodec* video_codec = (AVCodec*)avcodec_find_decoder(video_codec_id);
        if(video_codec == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not find video decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "video_codec_name=%s\n", video_codec->name);
        av_log(NULL, AV_LOG_INFO, "video_codec long_name=%s\n", video_codec->long_name);
        av_log(NULL, AV_LOG_INFO, "video_codec_type=%d\n", video_codec->type);

        // 视频解码器的实例
        AVCodecContext* video_dec_ctx = NULL;
        video_dec_ctx = avcodec_alloc_context3(video_codec);
        if(video_dec_ctx == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not allocate video decoder context\n");
            return -1;
        }
        //把视频流中的编解码器参数复制到解码器实例中
        avcodec_parameters_to_context(video_dec_ctx, video_stream->codecpar);
        av_log(NULL, AV_LOG_INFO, "Success copy video stream parameters to decoder context.\n");
        av_log(NULL, AV_LOG_INFO, "video_dec_ctx->width=%d\n", video_dec_ctx->width);
        av_log(NULL, AV_LOG_INFO, "video_dec_ctx->height=%d\n", video_dec_ctx->height);
        //打开视频解码器
        ret = avcodec_open2(video_dec_ctx, video_codec, NULL);
        if(ret < 0){
            av_log(NULL, AV_LOG_ERROR, "Could not open video decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "Success open video decoder.\n");
        av_log(NULL, AV_LOG_INFO, "video_decode profile = %d\n", video_dec_ctx->profile);
        avcodec_close(video_dec_ctx);
        avcodec_free_context(&video_dec_ctx);

    }

    // 找到音频流的索引
    int audio_stream_index = av_find_best_stream(fmt_ctx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
    av_log(NULL, AV_LOG_INFO, "audio_stream_index=%d\n", audio_stream_index);
    if(audio_stream_index >= 0){
        AVStream* audio_stream = fmt_ctx->streams[audio_stream_index];
        enum AVCodecID audio_codec_id = audio_stream->codecpar->codec_id;
        av_log(NULL, AV_LOG_INFO, "audio_codec_id=%d\n", audio_codec_id);
        // 查找音频解码器
        AVCodec* audio_codec = (AVCodec*)avcodec_find_decoder(audio_codec_id);
        if(audio_codec == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not find audio decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "audio_codec_name=%s\n", audio_codec->name);
        av_log(NULL, AV_LOG_INFO, "audio_codec long_name=%s\n", audio_codec->long_name);
        av_log(NULL, AV_LOG_INFO, "audio_codec_type=%d\n", audio_codec->type);

        // 音频解码器的实例
        AVCodecContext* audio_dec_ctx = NULL;
        audio_dec_ctx = avcodec_alloc_context3(audio_codec);
        if(audio_dec_ctx == NULL){
            av_log(NULL, AV_LOG_ERROR, "Could not allocate audio decoder context\n");
            return -1;
        }
        //把音频流中的编解码器参数复制到解码器实例中
        avcodec_parameters_to_context(audio_dec_ctx, audio_stream->codecpar);
        av_log(NULL, AV_LOG_INFO, "Success copy audio stream parameters to decoder context.\n");
        av_log(NULL, AV_LOG_INFO, "audio_dec_ctx->sample_rate=%d\n", audio_dec_ctx->sample_rate);
        av_log(NULL, AV_LOG_INFO, "audio_dec_ctx->channels=%d\n", audio_dec_ctx->ch_layout.nb_channels);
        //打开音频解码器
        ret = avcodec_open2(audio_dec_ctx, audio_codec, NULL);
        if(ret < 0){
            av_log(NULL, AV_LOG_ERROR, "Could not open audio decoder\n");
            return -1;
        }
        av_log(NULL, AV_LOG_INFO, "Success open audio decoder.\n");
        av_log(NULL, AV_LOG_INFO, "audio_decode profile = %d\n", audio_dec_ctx->profile);
        avcodec_close(audio_dec_ctx);
        avcodec_free_context(&audio_dec_ctx);
    }
    avformat_close_input(&fmt_ctx);
    return 0;
}

编译:

gcc para.c -o para -I /usr/local/ffmpeg/include -L /usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

输出结果:
在这里插入图片描述
由日志信息可见,视频流和音频流的解码器实例都被找到并且成功打开,还发现目标文件的视频宽高为1440*810,并且音频格式为AAC-LC(profile=1,根据表2-7找到规格说明),声道类型为双声道(立体声)。

二、创建并写入音视频文件

前面介绍的音视频处理属于对文件的读操作,如果是写操作,那又是另一套流程。写入音视频文件的总体步骤说明如下:

  • 01 调用avformat_alloc_output_context2函数分配音视频文件的封装实例
  • 02 调用avio_open函数打开音视频文件的输出流
  • 03 调用avformat_write_header函数写入音视频的文件头
  • 04 多次调用av_write_frame函数写入音视频的数据帧
  • 05 调用av_write_trailer函数写入音视频的文件尾
  • 06 调用avio_close函数关闭音视频文件的输出流
  • 07 调用avformat_free_context函数释放音视频文件的封装实例

需要注意的是,音视频文件要求至少封装一路数据流,要么封装单路视频,要么封装单路音频,要么两者都封装。以下是音视频文件封装数据流的总体步骤说明:

  • 01 调用avcodec_find_encoder函数查找指定编号的编码器
  • 02 调用avcodec_alloc_context3函数根据编码器分配对应的编码器实例。对于视频来说,还要设置编码器实例的width和height字段
  • 03 调用avformat_new_stream函数,给输出文件创建采用指定编码器的数据流
  • 04 调用avcodec_paramters_from_context函数把编码器实例的参数复制给数据流

上述的封装步骤虽然没有写入真实的数据帧,但不影响程序的正常运行。因为已经创建了一路视频流,不过是空而已。综合上述,可以得出完整代码如下:

#include <stdio.h>

// 之所以增加__cplusplus的宏定义,是为了同时兼容gcc编译器和g++编译器
#ifdef __cplusplus
extern "C"
{
#endif
#include <libavformat/avformat.h>
#include <libavcodec/avcodec.h>
#include <libavutil/avutil.h>
#ifdef __cplusplus
};
#endif

int main(int argc, char **argv) {
    const char *filename = "output.mp4";
    if (argc > 1) {
        filename = argv[1];
    }
    AVFormatContext *out_fmt_ctx;
    // 分配音视频文件的封装实例
    int ret = avformat_alloc_output_context2(&out_fmt_ctx, NULL, NULL, filename);
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "Can't alloc output_file %s.\n", filename);
        return -1;
    }
    // 打开输出流
    ret = avio_open(&out_fmt_ctx->pb, filename, AVIO_FLAG_READ_WRITE);
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "Can't open output_file %s.\n", filename);
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Success open output_file %s.\n", filename);
    
    // 查找编码器
    AVCodec *video_codec = (AVCodec*) avcodec_find_encoder(AV_CODEC_ID_H264);
    if (!video_codec) {
        av_log(NULL, AV_LOG_ERROR, "AV_CODEC_ID_H264 not found\n");
        return -1;
    }
    AVCodecContext *video_encode_ctx = NULL;
    video_encode_ctx = avcodec_alloc_context3(video_codec); // 分配编解码器的实例
    if (!video_encode_ctx) {
        av_log(NULL, AV_LOG_ERROR, "video_encode_ctx is null\n");
        return -1;
    }
    video_encode_ctx->width = 320; // 视频画面的宽度
    video_encode_ctx->height = 240; // 视频画面的高度
    // 创建指定编码器的数据流
    AVStream * video_stream = avformat_new_stream(out_fmt_ctx, video_codec);
    // 把编码器实例中的参数复制给数据流
    avcodec_parameters_from_context(video_stream->codecpar, video_encode_ctx);
    video_stream->codecpar->codec_tag = 0; // 非特殊情况都填0
    
    ret = avformat_write_header(out_fmt_ctx, NULL); // 写文件头
    if (ret < 0) {
        av_log(NULL, AV_LOG_ERROR, "write file_header occur error %d.\n", ret);
        return -1;
    }
    av_log(NULL, AV_LOG_INFO, "Success write file_header.\n");
    av_write_trailer(out_fmt_ctx); // 写文件尾
    avio_close(out_fmt_ctx->pb); // 关闭输出流
    avformat_free_context(out_fmt_ctx); // 释放封装器的实例
    return 0;
}

编译:

gcc write.c -o write -I /usr/local/ffmpeg/include -L /usr/local/ffmpeg/lib -lavformat -lavdevice -lavfilter -lavcodec -lavutil -lswscale -lswresample -lpostproc -lm

输出结果:
在这里插入图片描述

三、总结

本章中,主讲了对音视频文件的从上到下的读写流程。这里着重讲了AVCodecContext这个结构体的使用方法,诸位在实际开发时,一定要有层次意识,首先要问一下该代码片段处理的内容是处于什么位置的,是属于音视频文件(AVFormatContext),属于数据流(AVStream),还是属于数据流下面的编解码器(AVCodec,AVCodecContext)?把脉络给理清了,开发过程中才不会如同无头苍蝇乱闯。
下一期,会更精彩,期待诸位的关注~

附页

像素格式类型对应数值(可能不同版本数值不同)应用场合
AV_PIX_FMT_YUV420P0YUV 4:2:0 格式,适用于大多数YUV视频编码
AV_PIX_FMT_YUV422P1YUV 4:2:2 格式,适用于高质量视频编码
AV_PIX_FMT_YUV444P2YUV 4:4:4 格式,适用于高质量视频编码
AV_PIX_FMT_YUVJ420P3YUV 4:2:0 格式,适用于JPEG格式的YUV视频
AV_PIX_FMT_YUVJ422P4YUV 4:2:2 格式,适用于JPEG格式的YUV视频
AV_PIX_FMT_YUVJ444P5YUV 4:4:4 格式,适用于JPEG格式的YUV视频
AV_PIX_FMT_RGB24624位RGB格式,适用于计算机显示和图像处理
AV_PIX_FMT_BGR24724位BGR格式,适用于计算机显示和图像处理
AV_PIX_FMT_GRAY888位灰度格式,适用于灰度图像和视频
AV_PIX_FMT_MONOBLACK9单色(黑和白)格式,适用于特定的图像处理需求
AV_PIX_FMT_MONOWHITE10单色(白和黑)格式,适用于特定的图像处理需求
AV_PIX_FMT_NV1212YUV 4:2:0 格式,适用于硬件加速和某些视频编码
AV_PIX_FMT_NV2113YUV 4:2:0 格式,与NV12类似,但存储顺序不同
AV_PIX_FMT_ARGB16ARGB格式,适用于图像处理和某些视频编码
AV_PIX_FMT_RGBA17RGBA格式,适用于图像处理和某些视频编码
AV_PIX_FMT_ABGR18ABGR格式,适用于图像处理和某些视频编码
AV_PIX_FMT_BGRA19BGRA格式,适用于图像处理和某些视频编码
AAC配置文件对应数值说明
FF_PROFILE_AAC_LOW1低复杂度AAC,最常用,音质与复杂度平衡。
FF_PROFILE_AAC_SSR2采样率可调节的AAC
FF_PROFILE_AAC_LTP3长期预测的AAC
FF_PROFILE_AAC_HE4高效率的AAC
FF_PROFILE_AAC_HE_V228第二版的HE-AAC
FF_PROFILE_AAC_LD22低时延的AAC
FF_PROFILE_AAC_ELD38增强型的低时延的AAC
FF_PROFILE_UNKNOWN-99未知配置文件,表示未指定或无法识别的配置。
声道类型声道数量音频位置
单声道1中心位置,适用于所有音频内容
双声道2左右分布,提供基本的立体声体验
2.1环绕声3左、右和低音炮,增强低频效果
4.0环绕声4前左、前右、后左、后右,提供更广阔的声场
4.1环绕声54.0环绕声基础上增加一个低音炮声道
5.1环绕声6前左、前右、后左、后右、低音炮和中央声道
6.1环绕声75.1环绕声基础上增加一个后中/侧环绕声道
7.1环绕声85.1环绕声基础上增加两个侧环绕声道
7.1.2环绕声97.1环绕声基础上增加两个高度声道
7.1.4环绕声107.1.2环绕声基础上增加两个高度环绕声道
22.2环绕声(IMAX 12.1)137.1.4环绕声基础上增加五个侧面环绕声道
采样格式类型对应数值说明
AV_SAMPLE_FMT_U80无符号8位采样,交错模式
AV_SAMPLE_FMT_S161有符号16位采样,交错模式
AV_SAMPLE_FMT_S322有符号32位采样,交错模式
AV_SAMPLE_FMT_FLT3单精度浮点采样,交错模式
AV_SAMPLE_FMT_DBL4双精度浮点采样,交错模式
AV_SAMPLE_FMT_U8P5无符号8位采样,平面模式
AV_SAMPLE_FMT_S16P6有符号16位采样,平面模式
AV_SAMPLE_FMT_S32P7有符号32位采样,平面模式
AV_SAMPLE_FMT_FLTP8单精度浮点采样,平面模式
AV_SAMPLE_FMT_DBLP9双精度浮点采样,平面模式
AV_SAMPLE_FMT_S6410有符号64位采样,交错模式
AV_SAMPLE_FMT_S64P11有符号64位采样,平面模式
AV_SAMPLE_FMT_S16S12有符号16位采样,交错模式,小端字节序
AV_SAMPLE_FMT_S32S13有符号32位采样,交错模式,小端字节序
AV_SAMPLE_FMT_FLTS14单精度浮点采样,交错模式,小端字节序
AV_SAMPLE_FMT_DBLS15双精度浮点采样,交错模式,小端字节序
AV_SAMPLE_FMT_S16S_PLANAR16有符号16位采样,平面模式,小端字节序
AV_SAMPLE_FMT_S32S_PLANAR17有符号32位采样,平面模式,小端字节序
AV_SAMPLE_FMT_FLTS_PLANAR18单精度浮点采样,平面模式,小端字节序
AV_SAMPLE_FMT_DBLS_PLANAR19双精度浮点采样,平面模式,小端字节序

为了方便诸位编译,在此提供CMakeLists.txt文件

cmake_minimum_required(VERSION 3.10)

# 项目名称
project(Helloffmpeg)

# 设置 C 标准
set(CMAKE_C_STANDARD 99)

# 指定源文件
set(SRC write.c)

# 指定头文件搜索路径
include_directories(/usr/local/ffmpeg/include)

# 指定库文件搜索路径
link_directories(/usr/local/ffmpeg/lib)

# 添加可执行文件
add_executable(write ${SRC})

# 链接 FFmpeg 库
target_link_libraries(write
    avformat
    avdevice
    avfilter
    avcodec
    avutil
    swscale
    swresample
    postproc
    m
)

至此,结束~
在这里插入图片描述
望诸位不忘三连支持一下~

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部