论文名称：YOLOv4: Optimal Speed and Accuracy of Object Detection

YOLO官网：https://github.com/pjreddie/darknetgithub.com

论文下载：https://arxiv.org/abs/2004.10934

代码下载：https://github.com/AlexeyAB/darknet

作者：Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao

发表年份：2020

**地位：**YOLOv4 没有理论创新，而是在原有YOLO目标检测架构的基础上增加了近年CNN改进的众多技术，从数据处理到网络训练再到损失函数，遵行“拿来主义”，加上漂亮的工程实践，打造实现最佳速度与精度平衡的目标检测新基准！

一、摘要

There are a huge number of features which are said to improve Convolutional Neural Network (CNN) accuracy. Practical testing of combinations of such features on large datasets, and theoretical justifification of the result, is required. Some features operate on certain models exclusively and for certain problems exclusively, or only for small-scale datasets; while some features, such as batch-normalization and residual-connections, are applicable to the majority of models, tasks, and datasets. We assume that such universal features include Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation. We use new features: WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and combine some of them to achieve state-of-the-art results: 43.5% AP (65.7% AP50*) for the MS COCO dataset at a realtime speed of ∼65 FPS on Tesla V100.*

作者使用一些训练tricks：WRC（Weighted-Residual-Connections）、CSP（Cross-Stage-Partial-connections ）、CmBN（Cross mini-Batch Normalization）、SAT（Self-adversarial-training）、Mish-activation、Mosaic data augmentation、CmBN、DropBlock正则化和CIoU损失，并结合其中一些来实现最先进的结果：在MS COCO 数据集上达到了43.5%AP(65.7%AP50)

二、研究背景

2.1 研究现状

大多数基于CNN的物体检测器仅适用于推荐系统，最精确的现代神经网络无法实时运行，需要使用大量的GPU进行大量的mini-batch-size训练。
目标检测算法一般有两部分组成：
- 一个是在ImageNet预训练的主干网络（backbone）
- 另一个是用来预测对象类别和边界框的头部（head）
近年来研究的的目标检测算法经常在主干和头部之间插入一些层，这些层通常用于收集不同阶段的特征图。这些层称之为目标检测算法的颈部（neck）。

总而言之，普通的检测器由以下几个部分组成：

**输入：**图像，图像块，图像金字塔
**backbone：**VGG16 [68]，ResNet-50 [26]，SpineNet [12]，EfficientNet-B0 / B7 [75]，CSPResNeXt50 [81]，CSPDarknet53 [81]
neck：
- 添加块：SPP [25]，ASPP [5]，RFB [47]，SAM [85]
- 路径聚合块：FPN [44]，PAN [49]，NAS-FPN [17] ]，Fully-connected FPN，BiFPN [77]，ASFF [48]，SFAM [98]
heads ：
- 密集预测（单阶段）：
  - RPN[64]，SSD [50]，YOLO [61]， RetinaNet [45]（基于anchor）
  - CornerNet[37]，CenterNet [13]，MatrixNet [60]，FCOS [78]（anchor-free）
- 稀疏预测（双阶段）：
  - Faster R-CNN [64]，R-FCN [9]，Mask R-CNN [23]（基于anchor）
  - RepPoints[87]（anchor-free）

Untitled

2.2 Bag of freebies（指那些能够提高精度而不增加推断时间的技术）

通常，传统的物体检测器是离线训练的。因此，研究人员一直喜欢采用这种优势并开发出更好的训练方法，从而可以使目标检测器获得更好的精度而又不会增加推理成本。我们称这些仅改变培训策略或仅增加培训成本的方法为“Bag of freebies”，这类方法主要有以下：

一、 摘要

二、研究背景

2.1 研究现状

2.2 Bag of freebies（指那些能够提高精度而不增加推断时间的技术）

一、摘要