// Copyright 2025 Tencent // SPDX-License-Identifier: BSD-3-Clause // 1. install // pip3 install -U ultralytics pnnx ncnn // 2. export yolo11 torchscript // yolo export model=yolo11n.pt format=torchscript // 3. convert torchscript with static shape // pnnx yolo11n.torchscript // 4. modify yolo11n_pnnx.py for dynamic shape inference // A. modify reshape to support dynamic image sizes // B. permute tensor before concat and adjust concat axis // C. drop post-process part // before: // v_235 = v_204.view(1, 144, 6400) // v_236 = v_219.view(1, 144, 1600) // v_237 = v_234.view(1, 144, 400) // v_238 = torch.cat((v_235, v_236, v_237), dim=2) // ... // after: // v_235 = v_204.view(1, 144, -1).transpose(1, 2) // v_236 = v_219.view(1, 144, -1).transpose(1, 2) // v_237 = v_234.view(1, 144, -1).transpose(1, 2) // v_238 = torch.cat((v_235, v_236, v_237), dim=1) // return v_238 // D. modify area attention for dynamic shape inference // before: // v_95 = self.model_10_m_0_attn_qkv_conv(v_94) // v_96 = v_95.view(1, 2, 128, 400) // v_97, v_98, v_99 = torch.split(tensor=v_96, dim=2, split_size_or_sections=(32,32,64)) // v_100 = torch.transpose(input=v_97, dim0=-2, dim1=-1) // v_101 = torch.matmul(input=v_100, other=v_98) // v_102 = (v_101 * 0.176777) // v_103 = F.softmax(input=v_102, dim=-1) // v_104 = torch.transpose(input=v_103, dim0=-2, dim1=-1) // v_105 = torch.matmul(input=v_99, other=v_104) // v_106 = v_105.view(1, 128, 20, 20) // v_107 = v_99.reshape(1, 128, 20, 20) // v_108 = self.model_10_m_0_attn_pe_conv(v_107) // v_109 = (v_106 + v_108) // v_110 = self.model_10_m_0_attn_proj_conv(v_109) // after: // v_95 = self.model_10_m_0_attn_qkv_conv(v_94) // v_96 = v_95.view(1, 2, 128, -1) // v_97, v_98, v_99 = torch.split(tensor=v_96, dim=2, split_size_or_sections=(32,32,64)) // v_100 = torch.transpose(input=v_97, dim0=-2, dim1=-1) // v_101 = torch.matmul(input=v_100, other=v_98) // v_102 = (v_101 * 0.176777) // v_103 = F.softmax(input=v_102, dim=-1) // v_104 = torch.transpose(input=v_103, dim0=-2, dim1=-1) // v_105 = torch.matmul(input=v_99, other=v_104) // v_106 = v_105.view(1, 128, v_95.size(2), v_95.size(3)) // v_107 = v_99.reshape(1, 128, v_95.size(2), v_95.size(3)) // v_108 = self.model_10_m_0_attn_pe_conv(v_107) // v_109 = (v_106 + v_108) // v_110 = self.model_10_m_0_attn_proj_conv(v_109) // 5. re-export yolo11 torchscript // python3 -c 'import yolo11n_pnnx; yolo11n_pnnx.export_torchscript()' // 6. convert new torchscript with dynamic shape // pnnx yolo11n_pnnx.py.pt inputshape=[1,3,640,640] inputshape2=[1,3,320,320] // 7. now you get ncnn model files // mv yolo11n_pnnx.py.ncnn.param yolo11n.ncnn.param // mv yolo11n_pnnx.py.ncnn.bin yolo11n.ncnn.bin // the out blob would be a 2-dim tensor with w=144 h=8400 // // | bbox-reg 16 x 4 | per-class scores(80) | // +-----+-----+-----+-----+----------------------+ // | dx0 | dy0 | dx1 | dy1 |0.1 0.0 0.0 0.5 ......| // all /| | | | | . | // boxes | .. | .. | .. | .. |0.0 0.9 0.0 0.0 ......| // (8400)| | | | | . | // \| | | | | . | // +-----+-----+-----+-----+----------------------+ // #include "layer.h" #include "net.h" #if defined(USE_NCNN_SIMPLEOCV) #include "simpleocv.h" #else #include #include #include #endif #include #include #include struct Object { cv::Rect_ rect; int label; float prob; }; static inline float intersection_area(const Object& a, const Object& b) { cv::Rect_ inter = a.rect & b.rect; return inter.area(); } static void qsort_descent_inplace(std::vector