128x128 128x64 64x128256x256 256x128 128x256512x512 512x256 256x512
两个FC在实现的时候是分别用两个1x1卷积实现的以橙色为例,256向量和W1矩阵相乘,得到长度为18的向量,这样的操作在51x39个feature都要做一遍,实现起来就很自然变成了用一个1x1的卷积核在feature map上做卷积啦,这样也暗含了一个假设,不同位置的slide window对于anchor的偏好是相同的,是一个参数数量与精度的权衡问题。
但这就意味着loss中的mini-batch size是以3x3的slide window为单位的,因为只有slide window和anchor的个数才有这种1:9的关系,而挑选训练样本讲的mini-batch size却是以anchor为单位的,所以我猜实际操作是这样的:
先选256个anchor, 然后找它们对应的256个slide window, 然后再算这256个slide window对应的256×9个anchor的loss,每个slide window对应一个256特征,有一个,同时对应9个anchor,有9个