数据集中的txt文件中的标签为抓取点的坐标以及对应的角度和宽度,而网络预测的是quality,angle,width三张图,这样如何与标签值比较从而计算loss呢?