本文围绕智能导盲机器狗比赛展开,介绍赛事对模型大小和检测速度的要求,分享三种模型选择思路:小模型加法、大模型减法及先减重再提速。还分析了数据集分布,细讲第三种思路中Backbone和Neck的处理,如用CSP结构减重、SPPF替代SPP提速等。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一只导盲犬能够给盲人带来许多生活上的便利,但是导盲犬的培训周期长,费用高昂,因此,不是所有盲人能够拥有导盲犬,如果有机器狗代替导盲犬,将极大的造福盲人,此项比赛为智能导盲机器狗比赛,通过比赛来考评智能导盲机器狗的智能感知能力及综合运动性能,要求智能四足仿生机器人沿布置好的城市人行道场景走完全程并完成指定任务。
其实说起来高大上,当我们一句看到具体的任务的时候就会发现,其实就是一个非常简单的目标检测任务在出塞中,赛事组提供五种不同的目标让你去进行识别,但是为了服务于现实场景, 其在模型大小 以及检测速度等方面均提出了要求模型大小限制在200兆以内检测速度要求不低于20FPS。
那么这里,当时我就想到了三个思路,
在我的初中和高中的生物课堂中,生物老师往往告诉我一个事情就是,一个好的实验材料往往能够在实验中起到关键性作用。无数足矣载入史册的实验中,首先是需要一个好的实验材料。 那么在机器学习以及深度学习中,好的数据及往往是一个数据分布均匀,种类繁多,能够反映真实情况的数据。 那么首先就先让我们来看一看,到忙的这个数据是否是一个比较好的数据集。
## 解压文件夹!tar -zxvf data/data137625/WisdomGuide.tar.gz## 安装所需环境!pip install pycocotools
from pycocotools.coco import COCO# 查看train数据分布annFile='WisdomGuide/annotations/instance_train.json'coco=COCO(annFile)
training_data= {}
cats = coco.loadCats(coco.getCatIds())
cat_nms=[cat['name'] for cat in cats]
print('-'*10,"training data",'-'*10)for cat_name in cat_nms:
catId = coco.getCatIds(catNms=[cat_name])
imgId = coco.getImgIds(catIds=catId)
annId = coco.getAnnIds(imgIds=imgId, catIds=catId, iscrowd=None)
training_data[cat_name] = len(imgId), len(annId) print("{:<15} {:<6d} {:<10d}".format(cat_name, len(imgId), len(annId)))print(training_data)# 查看val数据分布annFile='WisdomGuide/annotations/instance_val.json'coco=COCO(annFile)
cats = coco.loadCats(coco.getCatIds())
val_data = {}
cat_nms=[cat['name'] for cat in cats]
print('-'*10,"valuation data",'-'*10)for cat_name in cat_nms:
catId = coco.getCatIds(catNms=[cat_name])
imgId = coco.getImgIds(catIds=catId)
annId = coco.getAnnIds(imgIds=imgId, catIds=catId, iscrowd=None)
val_data[cat_name] = (len(imgId), len(annId))
print("{:<15} {:<6d} {:<10d}".format(cat_name, len(imgId), len(annId)))你是否觉得不够直观那么接下来我们用饼状图的形式来进行演示。
import matplotlib.pyplot as plt
name = [x for x in training_data.keys()]
train_imgid = [training_data[name[x]][0] for x in range(len(name))]
train_annid = [training_data[name[x]][1] for x in range(len(name))]
val_imgid = [val_data[name[x]][0] for x in range(len(name))]
val_annid = [val_data[name[x]][1] for x in range(len(name))]
plt.figure(figsize=(6,6))#将画布设定为正方形,则绘制的饼图是正圆values = train_imgid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('train_imgid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
plt.figure(figsize=(6,6))
values = train_annid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('train_annid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
plt.figure(figsize=(6,6))
values = val_imgid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('val_imgid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
plt.figure(figsize=(6,6))
values = val_annid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('val_annid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()<Figure size 432x432 with 1 Axes>
<Figure size 432x432 with 1 Axes>
<Figure size 432x432 with 1 Axes>
<Figure size 432x432 with 1 Axes>
通过饼状图,我们可以发现这是一个不均匀分布的数据集
数据集总共分为五类:盲道、红绿灯(红灯状态)、红绿灯(绿灯状态)、红绿灯(不亮灯状态)、障碍物
其实是有三个大分类——盲道,红绿灯以及障碍物, 其中红绿灯又能被细分为三类分别为红灯,绿灯以及不亮灯。所幸他所需要识别的物体,其实算是比较少的。如果像是这种数据的话,其实还有另外一种说法是密度分类或者叫做多类别分类识别, 比如你首先要识别出来,他是哪种动物像是猫或狗或蛇,然后你又要去细分它的种类,比如比格拉布拉多dou牛,或是暹罗,埃及,、加菲。。当然,那两种识别又是一个更高的领域。在这里,我们并不进行描述。
个人觉得这个数据其实已经是非常不错的,首先他是一个扫盲说自己吗,所以说他大部分的时间肯定是需要去看盲道, 所以他的忙到我的数据只能够占55%左右,剩下的红绿灯和障碍物大概五五分成, 就是有一点我不太明白,为什么没有灯的占了其中的一半,有灯的占了另一半呢,难道现在大街上的红绿灯大多数都是没有灯吗?
在考虑是否对Backbone进行动刀前你应该先考虑清楚你是否有足够的机器或者算力,因为你一旦选择对Backbone动刀就意味着你将失去一个预训练模型,你必须要自己再在Imagenet上去训练一个不错的预训练模型,请注意一定是要不错的预训练模型,因为如果你的预训练模型较差那么你的网络很有可能无法收敛更不要提所谓的达到一个不错的精度了。
如果是像是PPYOLOv2一样没有使用过CSP结构的网络可以直接将CSP结构拿过来使用,CSP结构能够降低网络参数量,在减重的同时还能达到提速的效果,至于精度,论文中说的是能提升精度的哈。要是不能提升我这里也不负责呀,一切情况以实物为准
如果是PPYOLOE就比较尴尬了,因为在PPYOLOE中虽然使用了CSP结构,但是很尴尬的是PPYOLOE也和咱们的思路一样就是先减重然后再增重,结果就是虽然使用了CSP结构但是模型大小反而也没怎么减少但是精度提高了,那么这就比较尴尬了,那么这个时候我们应该怎么找一个比PPYOLOE中 CSPRegResNet精度还高速度更快或者最起码差不多,然后参数还要少的Backbone呢? 所以这里其实就是一个比较尴尬的点了。如果看过我那个给大核卷积提速项目的同学可能知道我是使用CSPConvNeXt平替,但是尴尬的是我的CSPConvNeXt在Iamgenet中也只有78.5,不说和ConvNeXt的82.1相差甚远甚至连CSPRegResNet的79.5也有一个点的差距,然后CSPCOnvNeXt网络还有一个问题就是难以训练,具体来说可以去看一下我的那个给大核卷积提速的项目, 简单一句话来说,就是我并没有找到一个合适的训练策略,去激发CSPResNet的所有潜能,但是一方面我自己没有机器然后ai studio 4卡训练一直报错提了issue也没有解决。因此这方面我也暂时搁置了。
对neck动刀就不会像是Backbone那么难受了你可以随意去改变那么第一个我想到的就是SPPF去替代SPP
简单介绍一下SPPF SPPF就是使用三个5x5的maxpool层代替 原本的SPP结构,SPPF结构与SPP结构结果相同但是所用时间大大减少
下面我们先做一个小实验,来对比SPPF与SPP的所用时间
import paddle
import paddle.nn as nnimport time
paddle.device.set_device("cpu")class SPP(nn.Layer):
def __init__(self):
super().__init__()
self.maxpool1 = nn.MaxPool2D(5,1,padding=2)
self.maxpool2 = nn.MaxPool2D(9,1,padding=4)
self.maxpool3 = nn.MaxPool2D(13,1,padding=6) def forward(self, x):
p = x
o1 = self.maxpool1(x)
o2 = self.maxpool2(x)
o3 = self.maxpool3(x) return paddle.concat([x,o1,o2,o3],axis=1)class SPPF(nn.Layer):
def __init__(self):
super().__init__()
self.maxpool = nn.MaxPool2D(5, 1, padding=2) def forward(self, x):
o1 = self.maxpool(x)
o2 = self.maxpool(o1)
o3 = self.maxpool(o2) return paddle.concat([x, o1, o2, o3], axis=1)def main():
input_tensor = paddle.rand((8, 32, 16, 16))
spp = SPP()
sppf = SPPF()
output1 = spp(input_tensor)
output2 = sppf(input_tensor) # print(paddle.equal(output1, output2))
t_start = time.time() for _ in range(100):
spp(input_tensor) print(f"spp time: {time.time() - t_start}")
t_start = time.time() for _ in range(100):
sppf(input_tensor) print(f"sppf time: {time.time() - t_start}")if __name__ == '__main__':
main()spp time: 1.2195651531219482 sppf time: 0.43102502822875977
可以看到SPPF所用时间几乎是SPP结构的三分之一,那么我们就可以将一个SPP结构平替称为三个SPPF结构,相当于用一个SPP结构的时间,达到了使用三个SPP才能达到的效果。
以上就是导盲赛道思路分享的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号