DeepSORT

1. 简介

本例程使用YOLOv5中的目标检测模型，并对Deep Sort with PyTorch的特征提取模型和算法进行移植，使之能在SOPHON BM1684/BM1684X/BM1688上进行推理测试。

2. 特性

支持BM1688(SoC)/BM1684X(x86 PCIe、SoC)/BM1684(x86 PCIe、SoC、arm PCIe)
支持FP32、FP16(BM1688/BM1684X)、INT8模型编译和推理
支持基于BMCV预处理的C++推理
支持基于OpenCV预处理的Python推理
支持单batch和多batch模型推理
支持MOT格式数据集(即图片文件夹)和单视频测试

3. 准备模型与数据

本例程需要准备目标检测模型和特征提取模型，目标检测模型请参考YOLOv5，下面主要介绍特征提取模型。

建议使用TPU-MLIR编译BModel，Pytorch模型在编译前要导出成onnx模型。tools/extractor_transform.py是针对Deep Sort with PyTorch中模型的转换脚本，可以一次性导出torchscript和onnx模型。请您根据需要修改代码。

python3 tools/extractor_transform.py --pth_path <your .pth weights>

同时，您需要准备用于测试的数据集或视频，如果量化模型，还要准备用于量化的数据集。

本例程在scripts目录下提供了相关模型和数据的下载脚本download.sh，您也可以自己准备模型和数据集，并参考4. 模型编译进行模型转换。

# 安装unzip，若已安装请跳过
sudo apt install unzip
chmod -R +x scripts/
./scripts/download.sh

下载的模型包括：

./models
├── BM1684
│   ├── extractor_fp32_1b.bmodel              # 使用TPU-MLIR编译，用于BM1684的FP32 BModel，batch_size=1
│   ├── extractor_fp32_4b.bmodel              # 使用TPU-MLIR编译，用于BM1684的FP32 BModel，batch_size=4
│   ├── extractor_int8_1b.bmodel              # 使用TPU-MLIR编译，用于BM1684的INT8 BModel，batch_size=1
│   ├── extractor_int8_4b.bmodel              # 使用TPU-MLIR编译，用于BM1684的INT8 BModel，batch_size=4
│   ├── yolov5s_v6.1_3output_fp32_1b.bmodel   # 从YOLOv5例程中获取，用于BM1684的FP32 BModel，batch_size=1
│   ├── yolov5s_v6.1_3output_int8_1b.bmodel   # 从YOLOv5例程中获取，用于BM1684的INT8 BModel，batch_size=1
│   └── yolov5s_v6.1_3output_int8_4b.bmodel   # 从YOLOv5例程中获取，用于BM1684的INT8 BModel，batch_size=4
├── BM1684X
│   ├── extractor_fp16_1b.bmodel              # 使用TPU-MLIR编译，用于BM1684X的FP16 BModel，batch_size=1
│   ├── extractor_fp16_4b.bmodel              # 使用TPU-MLIR编译，用于BM1684X的FP16 BModel，batch_size=4
│   ├── extractor_fp32_1b.bmodel              # 使用TPU-MLIR编译，用于BM1684X的FP32 BModel，batch_size=1
│   ├── extractor_fp32_4b.bmodel              # 使用TPU-MLIR编译，用于BM1684X的FP32 BModel，batch_size=4
│   ├── extractor_int8_1b.bmodel              # 使用TPU-MLIR编译，用于BM1684X的INT8 BModel，batch_size=1
│   ├── extractor_int8_4b.bmodel              # 使用TPU-MLIR编译，用于BM1684X的INT8 BModel，batch_size=4
│   ├── yolov5s_v6.1_3output_fp16_1b.bmodel   # 从YOLOv5例程中获取，用于BM1684X的FP16 BModel，batch_size=1
│   ├── yolov5s_v6.1_3output_fp32_1b.bmodel   # 从YOLOv5例程中获取，用于BM1684X的FP32 BModel，batch_size=1
│   ├── yolov5s_v6.1_3output_int8_1b.bmodel   # 从YOLOv5例程中获取，用于BM1684X的INT8 BModel，batch_size=1
│   └── yolov5s_v6.1_3output_int8_4b.bmodel   # 从YOLOv5例程中获取，用于BM1684X的INT8 BModel，batch_size=4
├── BM1688
│   ├── extractor_fp16_1b.bmodel              # 使用TPU-MLIR编译，用于BM1688的FP16 BModel，batch_size=1，num_core=1
│   ├── extractor_fp16_4b.bmodel              # 使用TPU-MLIR编译，用于BM1688的FP16 BModel，batch_size=4，num_core=1
│   ├── extractor_fp32_1b.bmodel              # 使用TPU-MLIR编译，用于BM1688的FP32 BModel，batch_size=1，num_core=1
│   ├── extractor_fp32_4b.bmodel              # 使用TPU-MLIR编译，用于BM1688的FP32 BModel，batch_size=4，num_core=1
│   ├── extractor_int8_1b.bmodel              # 使用TPU-MLIR编译，用于BM1688的INT8 BModel，batch_size=1，num_core=1
│   ├── extractor_int8_4b.bmodel              # 使用TPU-MLIR编译，用于BM1688的INT8 BModel，batch_size=4，num_core=1
│   ├── extractor_fp16_1b_2core.bmodel        # 使用TPU-MLIR编译，用于BM1688的FP16 BModel，batch_size=1，num_core=2
│   ├── extractor_fp16_4b_2core.bmodel        # 使用TPU-MLIR编译，用于BM1688的FP16 BModel，batch_size=4，num_core=2
│   ├── extractor_fp32_1b_2core.bmodel        # 使用TPU-MLIR编译，用于BM1688的FP32 BModel，batch_size=1，num_core=2
│   ├── extractor_fp32_4b_2core.bmodel        # 使用TPU-MLIR编译，用于BM1688的FP32 BModel，batch_size=4，num_core=2
│   ├── extractor_int8_1b_2core.bmodel        # 使用TPU-MLIR编译，用于BM1688的INT8 BModel，batch_size=1，num_core=2
│   ├── extractor_int8_4b_2core.bmodel        # 使用TPU-MLIR编译，用于BM1688的INT8 BModel，batch_size=4，num_core=2
│   └── yolov5s_v6.1_3output_int8_1b.bmodel   # 从YOLOv5例程中获取，用于BM1688的INT8 BModel，batch_size=1
├── onnx
│   └── extractor.onnx                        # 由ckpt.t7导出的onnx模型
└── torch
    └── extractor.pt                          # 由ckpt.t7导出的torchscript模型

下载的数据包括：

./datasets
├── cali_set                                  # 量化数据集
├── test_car_person_1080P.mp4                 # 测试视频
└── mot15_trainset                            # MOT15的训练集，这里用于评价指标测试。

4. 模型编译

导出的模型需要编译成BModel才能在SOPHON TPU上运行，如果使用下载好的BModel可跳过本节。建议使用TPU-MLIR编译BModel。

模型编译前需要安装TPU-MLIR，具体可参考TPU-MLIR环境搭建。安装好后需在TPU-MLIR环境中进入例程目录。使用TPU-MLIR将onnx模型编译为BModel，具体方法可参考《TPU-MLIR快速入门手册》的“3. 编译ONNX模型”(请从算能官网相应版本的SDK中获取)。

生成FP32 BModel

本例程在scripts目录下提供了TPU-MLIR编译FP32 BModel的脚本，请注意修改gen_fp32bmodel_mlir.sh中的onnx模型路径、生成模型目录和输入大小shapes等参数，并在执行时指定BModel运行的目标平台（支持BM1684/BM1684X/BM1688），如：

./scripts/gen_fp32bmodel_mlir.sh bm1684 #bm1684x/bm1688

执行上述命令会在models/BM1684等文件夹下生成extractor_fp32_1b.bmodel文件，即转换好的FP32 BModel。

生成FP16 BModel

本例程在scripts目录下提供了TPU-MLIR编译FP16 BModel的脚本，请注意修改gen_fp16bmodel_mlir.sh中的onnx模型路径、生成模型目录和输入大小shapes等参数，并在执行时指定BModel运行的目标平台（支持BM1684X/BM1688），如：

./scripts/gen_fp16bmodel_mlir.sh bm1684x #bm1688

执行上述命令会在models/BM1684X/等文件夹下生成extractor_fp16_1b.bmodel文件，即转换好的FP16 BModel。

生成INT8 BModel

本例程在scripts目录下提供了量化INT8 BModel的脚本，请注意修改gen_int8bmodel_mlir.sh中的onnx模型路径、生成模型目录和输入大小shapes等参数，在执行时输入BModel的目标平台（支持BM1684/BM1684X/BM1688），如：

./scripts/gen_int8bmodel_mlir.sh bm1684 #bm1684x/bm1688

上述脚本会在models/BM1684等文件夹下生成extractor_int8_1b.bmodel等文件，即转换好的INT8 BModel。

5. 例程测试

C++例程
Python例程

6. 精度测试

6.1 测试方法

首先，参考C++例程或Python例程推理要测试的数据集，生成包含目标追踪结果的txt文件，注意修改数据集(datasets/mot15_trainset/ADL-Rundle-6/img1)。
然后，使用tools目录下的eval_mot15.py脚本，将测试生成的txt文件与测试集标签txt文件进行对比，计算出目标追踪的一系列评价指标，命令如下：

# 安装motmetrics，若已安装请跳过
pip3 install motmetrics
# 请根据实际情况修改程序路径和txt文件路径
python3 tools/eval_mot15.py --gt_file datasets/mot15_trainset/ADL-Rundle-6/gt/gt.txt --ts_file python/results/mot_eval/ADL-Rundle-6_extractor_fp32_1b.bmodel.txt

运行结果：

MOTA = 0.43801157915751643
     num_frames      IDF1       IDP       IDR      Rcll      Prcn    GT  MT  PT  ML    FP    FN  IDsw  FM      MOTA      MOTP
acc         525  0.524889  0.544908  0.506289  0.687163  0.739579  5009  10  12   2  1212  1567    36  79  0.438012  0.218005

6.2 测试结果

这里使用目标检测模型yolov5s_v6.1_3output_int8_1b.bmodel，使用数据集ADL-Rundle-6，记录MOTA作为精度指标，精度测试结果如下：

测试平台	测试程序	测试模型	MOTA
BM1684 PCIe	deepsort_opencv.py	extractor_fp32_1b.bmodel	0.457
BM1684 PCIe	deepsort_opencv.py	extractor_int8_1b.bmodel	0.459
BM1684 PCIe	deepsort_bmcv.pcie	extractor_fp32_1b.bmodel	0.450
BM1684 PCIe	deepsort_bmcv.pcie	extractor_int8_1b.bmodel	0.452
BM1684x PCIe	deepsort_opencv.py	extractor_fp32_1b.bmodel	0.439
BM1684x PCIe	deepsort_opencv.py	extractor_fp16_1b.bmodel	0.439
BM1684x PCIe	deepsort_opencv.py	extractor_int8_1b.bmodel	0.436
BM1684X PCIe	deepsort_bmcv.pcie	extractor_fp32_1b.bmodel	0.442
BM1684X PCIe	deepsort_bmcv.pcie	extractor_fp16_1b.bmodel	0.442
BM1684X PCIe	deepsort_bmcv.pcie	extractor_int8_1b.bmodel	0.437
BM1688 SoC	deepsort_opencv.py	extractor_fp32_1b.bmodel	0.441
BM1688 SoC	deepsort_opencv.py	extractor_fp16_1b.bmodel	0.441
BM1688 SoC	deepsort_opencv.py	extractor_int8_1b.bmodel	0.440
BM1688 SoC	deepsort_bmcv.soc	extractor_fp32_1b.bmodel	0.430
BM1688 SoC	deepsort_bmcv.soc	extractor_fp16_1b.bmodel	0.430
BM1688 SoC	deepsort_bmcv.soc	extractor_int8_1b.bmodel	0.429

测试说明：

batch_size=4和batch_size=1的模型精度一致；

由于sdk版本之间可能存在差异，实际运行结果与本表有<1%的精度误差是正常的；

BM1688 num_core=2的模型与num_core=1的模型精度基本一致。

7. 性能测试

7.1 bmrt_test

使用bmrt_test测试模型的理论性能：

# 请根据实际情况修改要测试的bmodel路径和devid参数
bmrt_test --bmodel models/BM1684X/extractor_fp32_1b.bmodel

测试结果中的calculate time就是模型推理的时间，多batch size模型应当除以相应的batch size才是每张图片的理论推理时间。测试各个模型的理论推理时间，结果如下：

测试模型	calculate time(ms)
BM1684/extractor_fp32_1b.bmodel	2.26
BM1684/extractor_fp32_4b.bmodel	1.25
BM1684/extractor_int8_1b.bmodel	0.99
BM1684/extractor_int8_4b.bmodel	0.25
BM1684X/extractor_fp32_1b.bmodel	2.08
BM1684X/extractor_fp32_4b.bmodel	1.88
BM1684X/extractor_fp16_1b.bmodel	0.56
BM1684X/extractor_fp16_4b.bmodel	0.24
BM1684X/extractor_int8_1b.bmodel	0.33
BM1684X/extractor_int8_4b.bmodel	0.14
BM1688/extractor_fp32_1b.bmodel	13.29
BM1688/extractor_fp32_4b.bmodel	11.27
BM1688/extractor_fp16_1b.bmodel	3.14
BM1688/extractor_fp16_4b.bmodel	1.84
BM1688/extractor_int8_1b.bmodel	1.93
BM1688/extractor_int8_4b.bmodel	0.75
BM1688/extractor_fp32_1b_2core.bmodel	13.34
BM1688/extractor_fp32_4b_2core.bmodel	6.36
BM1688/extractor_fp16_1b_2core.bmodel	3.49
BM1688/extractor_fp16_4b_2core.bmodel	1.32
BM1688/extractor_int8_1b_2core.bmodel	1.87
BM1688/extractor_int8_4b_2core.bmodel	0.75

测试说明：

性能测试结果具有一定的波动性；
calculate time已折算为平均每张图片的推理时间。
SoC和PCIe的测试结果基本一致。

7.2 程序运行性能

参考C++例程或Python例程运行程序，并查看统计的解码时间、预处理时间、推理时间、后处理时间。这里只统计特征提取模型的时间，解码、目标检测模型的时间请参考YOLOV5。

这里使用目标检测模型yolov5s_v6.1_3output_int8_1b.bmodel，在不同的测试平台上，使用不同的例程、模型测试datasets/mot15_trainset/ADL-Rundle-6/img1，性能测试结果如下：

测试平台	测试程序	测试模型	preprocess_time	inference_time	postprocess_time
BM1684 soc	deepsort_opencv.py	extractor_fp32_1b.bmodel	2.63	3.43	94.40
BM1684 soc	deepsort_opencv.py	extractor_fp32_4b.bmodel	2.52	1.95	74.49
BM1684 soc	deepsort_opencv.py	extractor_int8_1b.bmodel	2.44	2.08	75.16
BM1684 soc	deepsort_opencv.py	extractor_int8_4b.bmodel	2.42	1.09	61.44
BM1684 soc	deepsort_bmcv.soc	extractor_fp32_1b.bmodel	0.16	2.19	4.53
BM1684 soc	deepsort_bmcv.soc	extractor_fp32_4b.bmodel	0.09	1.35	4.59
BM1684 soc	deepsort_bmcv.soc	extractor_int8_1b.bmodel	0.15	0.92	5.02
BM1684 soc	deepsort_bmcv.soc	extractor_int8_4b.bmodel	0.09	0.25	5.05
BM1684x soc	deepsort_opencv.py	extractor_fp32_1b.bmodel	2.14	3.50	62.09
BM1684x soc	deepsort_opencv.py	extractor_fp32_4b.bmodel	2.14	3.15	66.19
BM1684x soc	deepsort_opencv.py	extractor_fp16_1b.bmodel	2.17	1.19	59.13
BM1684x soc	deepsort_opencv.py	extractor_fp16_4b.bmodel	2.14	1.45	58.72
BM1684x soc	deepsort_opencv.py	extractor_int8_1b.bmodel	2.17	1.19	59.13
BM1684x soc	deepsort_opencv.py	extractor_int8_4b.bmodel	2.15	0.64	62.25
BM1684X soc	deepsort_bmcv.soc	extractor_fp32_1b.bmodel	0.12	2.65	5.34
BM1684X soc	deepsort_bmcv.soc	extractor_fp32_4b.bmodel	0.08	2.31	5.29
BM1684X soc	deepsort_bmcv.soc	extractor_fp16_1b.bmodel	0.12	0.61	5.15
BM1684X soc	deepsort_bmcv.soc	extractor_fp16_4b.bmodel	0.08	0.28	5.31
BM1684X soc	deepsort_bmcv.soc	extractor_int8_1b.bmodel	0.12	0.34	5.41
BM1684X soc	deepsort_bmcv.soc	extractor_int8_4b.bmodel	0.08	0.16	5.43
BM1688 soc	deepsort_opencv.py	extractor_fp32_1b.bmodel	3.04	13.87	61.21
BM1688 soc	deepsort_opencv.py	extractor_fp32_4b.bmodel	2.97	13.62	66.88
BM1688 soc	deepsort_opencv.py	extractor_fp16_1b.bmodel	3.02	3.69	60.15
BM1688 soc	deepsort_opencv.py	extractor_fp16_4b.bmodel	2.97	2.53	61.57
BM1688 soc	deepsort_opencv.py	extractor_int8_1b.bmodel	3.02	2.41	57.79
BM1688 soc	deepsort_opencv.py	extractor_int8_4b.bmodel	2.98	1.29	59.12
BM1688 soc	deepsort_bmcv.soc	extractor_fp32_1b.bmodel	0.39	12.29	6.72
BM1688 soc	deepsort_bmcv.soc	extractor_fp32_4b.bmodel	0.33	10.97	6.68
BM1688 soc	deepsort_bmcv.soc	extractor_fp16_1b.bmodel	0.38	2.12	6.72
BM1688 soc	deepsort_bmcv.soc	extractor_fp16_4b.bmodel	0.32	1.56	6.70
BM1688 soc	deepsort_bmcv.soc	extractor_int8_1b.bmodel	0.37	0.85	6.64
BM1688 soc	deepsort_bmcv.soc	extractor_int8_4b.bmodel	0.32	0.50	6.67

测试说明：

时间单位均为毫秒(ms)，preprocess_time、inference_time是特征提取模型平均每个crop的处理时间，postprocess_time是deepsort算法平均每帧的后处理时间；
性能测试结果具有一定的波动性，建议多次测试取平均值；
BM1684/1684X SoC的主控处理器均为8核 ARM A53 42320 DMIPS @2.3GHz，PCIe上的性能由于处理器的不同可能存在较大差异；

8. FAQ

请参考FAQ查看一些常见的问题与解答。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

DeepSORT

目录

1. 简介

2. 特性

3. 准备模型与数据

4. 模型编译

5. 例程测试

6. 精度测试

6.1 测试方法

6.2 测试结果

7. 性能测试

7.1 bmrt_test

7.2 程序运行性能

8. FAQ

Files

README.md

Latest commit

History

README.md

File metadata and controls

DeepSORT

目录

1. 简介

2. 特性

3. 准备模型与数据

4. 模型编译

5. 例程测试

6. 精度测试

6.1 测试方法

6.2 测试结果

7. 性能测试

7.1 bmrt_test

7.2 程序运行性能

8. FAQ