读论文系列·YOLO

CVPR2016： You Only Look Once:Unified, Real-Time Object Detection

转载请注明作者：梦里茶

YOLO，You Only Look Once，摒弃了RCNN系列方法中的region proposal步骤，将detection问题转为一个回归问题

网络结构

输出为每个格子输出B个bounding box，每个bounding box由x,y,w,h表示，为每个bounding box输出一个confidence，即属于前景的置信度

于是输出可以表示为一个 $S*S*(B*(4+1)+C)$ 的tensor，训练只需要根据数据集准备好这样的tensor进行regression就行

前两行为定位loss， $\lambda_{coord}$ 为定位loss的权重，论文中取5
第三行为一个bounding box属于前景时的置信度回归loss，
- 当格子中有对象出现时，真实 $C_{i}$ 为1，
- $1_{ij}^{obj}$ 是一个条件表达式，当bounding box“负责(is responsible for)”图中一个真实对象时为1，否则为0，
- 所谓“负责”，指的是在当前这个格子前向传播（论文里没讲，有代码依据）预测出的所有bounding box中，这个bounding box与真实的bounding box重叠率最大
第四行为一个bounding box属于背景时的置信度回归loss，
- 为了避免负样本过多导致模型跑偏， $\lambda_{noobj}=0.5$ ，
- $1_{ij}^{noobj}$ 是一个条件表达式，为 $1_{ij}^{obj}$ 取反
- 于是我们可以发现一个格子的两个bounding box的分工：一个贡献前景loss，一个贡献背景loss ，不论是前景背景box，我们都希望它们的confidence接近真实confidence，实际上，如果 $\lambda_{noobj}=1$ ，第四五行可以合并为一项求和，但由于背景box太多，所以才单独拆开加了权重约束
第五行为分类loss， $1_{i}^{obj}$ 是一个条件表达式，当有对象出现在这个格子中，取1，否则取0