橙色云资讯 - 工业互联网行业信息门户

深兰科技|硬编解码技术的AI应用

AI世界 2021-03-06

2100 字丨阅读本文需 15 分钟

有志成为算法工程师吗？

这是一篇不可多得的好教程

在基于NVIDIA平台上推理时，通常会遇到读取视频进行解码然后输入到GPU进行推理的需求。视频一般以RTMP/RTSP的流媒体，文件等形式出现。解码通常有VideoCapture/FFmpeg/GStreamer等选择，推理一般选择TensorRT。

NVIDIA已经为用户提供了基于GStreamer插件拼装的DeepStream Toolkit来解决上述需求，实现RTMP/RTSP/FileSystem到GStreamer再到TensorRT，从视频数据的输入到高性能解码推理，再到渲染编码，直到最终结果输出。端到端的屏蔽了细节，易于上手使用，用户只需要开发对应GStreamer插件即可轻易实现高性能解码推理。这个方案涵盖了服务端GPU、边缘端嵌入式设备的高性能支持。

由于项目的缘故，面临了大规模（96路）视频文件的同时处理，同时推理的模型种类有6种（Object Detection[Anchor base/Anchor free]、Instance Segmentation、Semantic Segmentation、Keypoint Detection、Classification），处理的模型约96个（分类器36个，检测分割60个）。项目需要极高的灵活度（模型种类和数量增加变化）、稳定性和高性能，考察DeepStream后发现其灵活度无法满足需求，因此针对该需求，使用FFMPEG、NVDEC(CUVID)、CUDA、TensorRT、ThreadPool、Lua等技术实现了一套高性能高灵活性的硬编解码推理技术方案，高扩展性，灵活的性能自动调整，任务调度。

解码器

VideoCapture/FFMPEG/NVDEC

VideoCapture基于FFMPEG，如果单独使用FFMPEG则可以做到更细粒度的性能控制，如果配合NVDEC则需要修改FFMPEG。

其中尤为重要的部分是：

a. 谨慎使用cvtColor，在OpenCV底层，cvtColor函数是一个多线程运行加速的函数，即使仅仅是CV_BGR2RGB这个通道交换的操作也如此。他是一个非常消耗CPU的操作。

b. 仅考虑CPU解码，使用FFMPEG可以配合nasm编译(--enable_asm)支持CPU的SIMD流指令集(SSE、AVX、MMX)，比默认VideoCapture配置的ffmpeg性能更好。同时还可以根据需要配置解码所使用的线程数，控制sws_scale、decode的消耗。

编码而言，ffmpeg可以使用preset=veryfast实现更高的速度提升于VideoWriter，设置合理的gop_size、bit_rate可以实现更加高效的编码速度、更小的编码后文件、以及更快的解码速度。

c. NVDEC是一个基于CUDA的GPU硬件解码器库，CUVID（NVENC）是编码库。

地址是：https://developer.nvidia.com/nvidia-video-codec-sdk

对于ffmpeg配合NVDEC时，需要修改libavutil/hwcontext_cuda.c:356 对于hwctx->cuda_ctx 的创建不能放到ffmpeg内部进行管理。这对于大规模（例如超过32路同时创建解码器时）是个灾难。硬件解码的一个核心就是CUcontext的管理，CUcontext应该在线程池的一个线程上下文中全局存在一个，而不是重复创建。TensorRT的模型加载时（cudaStreamCreate时），会在上下文中创建CUcontext，直接与其公用一个context即可。

对于没有合理管理CUcontext的，异步获取ffmpeg的输出数据会存在异常并且难以排查。如果大规模同时创建32个解码器，则同时执行的程序，其前后最大时长差为32秒。并且由于占用GPU显存，导致程序稳定性差，极其容易出现OOM。

frames_ctx->format指定为AV_PIX_FMT_CUDA后，解码出的图像数据直接在GPU显存上，格式是YUV_NV12，可以直接在显卡上对接后续的pipline。

在ffmpeg解码流程中，配合硬件解码，需要在avcodec_send_packet/avcodec_decode_video2之前，将codec_ctx_->pix_fmt设置为AV_PIX_FMT_CUDA，该操作每次执行都需要存在，并不是全局设置一次。

基于以上的结论为：

a) CPU编解码，使用配置了nasm的ffmpeg进行，避免使用VideoCapture/VideoWriter；

b) GPU编解码，服务器使用配置了NVDEC的ffmpeg进行，嵌入式使用DeepStream（不支持NVDEC）；

c) 避免使用cvtColor，尽量合并为一个cuda kernel减少数据扭转实现多重功能。

CUDA/TensorRT

关于推理的一些优化

a. 对于图像预处理部分，通常有居中对齐操作：把图像等比缩放后，图像中心移动到目标中心。通常可以使用resize+ROI复制实现，也可以使用copyMakeBorder等CPU操作。

在这里推荐采用GPU的warpAffine来替代resize+坐标运算。原因是warpAffine可以达到一样效果，并且代码逻辑简单，而且更加容易实现框坐标反算回图像尺度。对于反变换，计算warpAffine矩阵的逆矩阵即可（使用invertAffineTransform）。GPU的warpAffine实现，也仅仅只需要实现双线性插值即可。

b. 注意计算的密集性问题。

cudaStream的使用，将图像预处理、模型推理、后处理全部加入到同一个cudaStream中，使得计算密集性增加。实现更好的计算效率，统一的流进行管理。所有的GPU操作均采用Async异步，并尽可能减少主机到显存复制的情况发生。方案是定义MemoryManager类型，实现自动内存管理，在需要GPU内存时检查GPU是否是最新来决定是否发生复制操作。取自caffe的blob类。

c. 检测器通常遇到的sigmoid操作，是一个可以加速的地方。

例如通常onnx导出后会增加一个sigmoid节点，对数据进行sigmoid变为概率后进行后处理得到结果。Yolov5为例，我们有BxHxWx [(num_classes + 5) * num_anchor]个通道需要做sigmoid，假设B=8，H=80，W=80，num_classes=80，num_anchor=3，则我们有8x80x80x255个数字需要进行sigmoid。而真实情况是，我们仅仅只需要保留confidence > threshold的框需要保留。而大于threshold的框一般是很小的比例，例如200个以内。真正需要计算sigmoid的其实只有最多200个。这之间相差65280倍。这个问题适用全部存在类似需求的检测器后处理上。

解决对策为，实现cuda核时，使用desigmoid threshold为阈值过滤掉绝大部分不满足条件的框，仅对满足的少量框进行后续计算。

d. 在cuda核中，避免使用例如1.0，应该使用1.0f。

因为1.0是双精度浮点数，这会导致这个核的计算使用了双精度计算。众所周知，双精度性能远低于单精度，更低于半精度。

线程池 Thread Pool

主要利用了c++11提供的condition_variable、promise、 future、mutex、queue、thread实现。线程池是整个系统的基本单元，由于线程池的存在，轻易实现模型推理的高度并行化异步化。

使用线程池后，任务通过 commit提交，推理时序图为：

当线程池配合硬件解码后，时序图为：

此时实现了GPU运算的连续化，异步化。GPU与CPU之间没有等待。

资源管理的RAII机制

Resource Acquisition Is Initialization

在C++中，使用RAII机制封装后，具有头文件干净，依赖简单，管理容易等好处。

其要点在于：第一，资源创建即初始化，创建失败返回空指针；第二，使用shared_ptr自动内存管理，避免丑陋的create、release，new、delete等操作；第三，使用接口模式，hpp声明，cpp实现，隐藏细节。外界只需要看到必要的部分，不需要知道细节。

头文件：interface.hpp

实现文件：interface.cpp

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：AI世界

0 0

参与评论

登录后参与讨论 0/1000

下一篇使用计算机视觉反转视频

介绍在本文中，我们将使用［计算机视觉技术...

2022-08-02

深兰科技|硬编解码技术的AI应用

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

深兰科技|硬编解码技术的AI应用

参与评论

为你推荐

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

每个细分方向都是万亿级市场，超6000家公司携资本入局建筑业数字化 | 年度行业

CES 2022汽车科技最全总结：展会很冷、汽车很热

万里牛B轮融资过亿，电商SaaS究竟有多吸金？

210618|1398家:内蒙古公布可再生能源消纳责任主体清单

拟上市公司早知道|衡源智能启动A股IPO辅导 优必选、必贝特等150家更新进展

看三大巨头如何逐鹿智能安防？精细化场景需求提升AI应用范围

“赢在南京·创业金陵”科技创新创业大赛圆满举行|北京·活动

再次创业的李一男官宣造车，已获5亿美元投资，首款车2022年上市｜ 镁客网每周硬科技领域投融资

虚拟股权？科创板定位在哪里？华勤技术IPO三答问询

中国芯片设计公司有哪些？北京上海广州等地芯片设计企业名单汇总

亚马逊、微软、苹果、谷歌：一文读懂科技巨头的2022医疗图谱（二）

Facebook改名换运？扎克伯格画出元宇宙10年大饼，连甩13个XR眼镜黑科技

收购欧菲光一年后，闻泰科技迅速打入果链，靠的是什么?

声迅股份参股成立交通科技公司，持股68%

智能家居“起风”，家电、科技企业纷纷跨界，低端需求“养活”了这些低门槛芯片企业

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总

拟上市公司早知道|衡源智能启动A股IPO辅导优必选、必贝特等150家更新进展

再次创业的李一男官宣造车，已获5亿美元投资，首款车2022年上市｜镁客网每周硬科技领域投融资