图片对
对应的时空点对
对应的迁移时间,这里可视化了从摄像头1出发的行人,到达其他摄像头需要的时间的分布。但是!问题是我们在目标场景上往往是没有行人标记数据的!
= 视觉相似度*同一人产生这种移动的概率/任意两个时空点组成这种移动的概率
但这个近似能不能做呢?我们来做一下误差分析(大量推导,不感兴趣可以跳到接下来出现的第二张图,不影响后面的理解,只是分析一波会更加严谨)。
于是我们得到了一个由条件概率推断支撑的多模态数据融合方法,称为贝叶斯融合
输入是三张图片,分别用Resnet52提取特征并flatten flatten之后写一个Lambda层+全连接层算特征向量带权重的几何距离,得到score1和score2 用score1和score2和真实分数算交叉熵Loss(下面讲)
整个Learning to rank过程如图