// Tencent is pleased to support the open source community by making ncnn available. // // Copyright (C) 2019 THL A29 Limited, a Tencent company. All rights reserved. // // Licensed under the BSD 3-Clause License (the "License"); you may not use this file except // in compliance with the License. You may obtain a copy of the License at // // https://opensource.org/licenses/BSD-3-Clause // // Unless required by applicable law or agreed to in writing, software distributed // under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR // CONDITIONS OF ANY KIND, either express or implied. See the License for the // specific language governing permissions and limitations under the License. #ifndef TESTUTIL_H #define TESTUTIL_H #include #include #include #include "prng.h" #include "mat.h" #include "layer.h" #if NCNN_VULKAN #include "gpu.h" #include "command.h" class GlobalGpuInstance { public: GlobalGpuInstance() { ncnn::create_gpu_instance(); } ~GlobalGpuInstance() { ncnn::destroy_gpu_instance(); } }; // initialize vulkan runtime before main() GlobalGpuInstance g_global_gpu_instance; #endif // NCNN_VULKAN static struct prng_rand_t g_prng_rand_state; #define SRAND(seed) prng_srand(seed, &g_prng_rand_state) #define RAND() prng_rand(&g_prng_rand_state) static float RandomFloat(float a = -2.f, float b = 2.f) { float random = ((float) RAND()) / (float) uint64_t(-1);//RAND_MAX; float diff = b - a; float r = random * diff; return a + r; } static void Randomize(ncnn::Mat& m, float a = -2.f, float b = 2.f) { for (size_t i=0; i& a, const std::vector& b, float epsilon = 0.001) { if (a.size() != b.size()) { fprintf(stderr, "output blob count not match %zu %zu\n", a.size(), b.size()); return -1; } for (size_t i=0; i int test_layer(int typeindex, const ncnn::ParamDict& pd, const std::vector& weights, const ncnn::Option& _opt, const std::vector& a, int top_blob_count, const std::vector& top_shapes = std::vector(), float epsilon = 0.001, void (*func)(T*) = 0) { ncnn::Layer* op = ncnn::create_layer(typeindex); if (func) { (*func)((T*)op); } ncnn::Option opt = _opt; if (!op->support_vulkan) opt.use_vulkan_compute = false; if (!op->support_packing) opt.use_packing_layout = false; if (!op->support_bf16_storage) opt.use_bf16_storage = false; if (opt.use_int8_inference) opt.use_bf16_storage = false; #if NCNN_VULKAN ncnn::VulkanDevice* vkdev = ncnn::get_gpu_device(); ncnn::VkWeightBufferAllocator g_weight_vkallocator(vkdev); ncnn::VkWeightStagingBufferAllocator g_weight_staging_vkallocator(vkdev); ncnn::VkAllocator* blob_vkallocator = vkdev->acquire_blob_allocator(); ncnn::VkAllocator* staging_vkallocator = vkdev->acquire_staging_allocator(); opt.blob_vkallocator = blob_vkallocator; opt.workspace_vkallocator = blob_vkallocator; opt.staging_vkallocator = staging_vkallocator; if (!vkdev->info.support_fp16_storage) opt.use_fp16_storage = false; if (!vkdev->info.support_fp16_packed) opt.use_fp16_packed = false; op->vkdev = vkdev; #endif // NCNN_VULKAN if (op->one_blob_only && a.size() != 1) { fprintf(stderr, "layer with one_blob_only but consume multiple inputs\n"); delete op; return -1; } if (!top_shapes.empty()) { op->bottom_shapes = a; op->top_shapes = top_shapes; } op->load_param(pd); ncnn::ModelBinFromMatArray mb(weights.data()); op->load_model(mb); op->create_pipeline(opt); #if NCNN_VULKAN if (opt.use_vulkan_compute) { ncnn::VkTransfer cmd(vkdev); cmd.weight_vkallocator = &g_weight_vkallocator; cmd.staging_vkallocator = &g_weight_staging_vkallocator; op->upload_model(cmd, opt); cmd.submit_and_wait(); } #endif // NCNN_VULKAN std::vector b(top_blob_count); if (op->support_inplace) { for (size_t i=0; iT::forward_inplace(b, opt); } else { ((T*)op)->T::forward(a, b, opt); } std::vector c(top_blob_count); { std::vector a4(a.size()); if (opt.use_packing_layout) { for (size_t i=0; isupport_inplace) { for (size_t i=0; iforward_inplace(c, opt); } else { op->forward(a4, c, opt); } if (opt.use_bf16_storage) { for (size_t i=0; i d(top_blob_count); if (opt.use_vulkan_compute) { // pack std::vector a4(a.size()); for (size_t i=0; i a4_fp16(a4.size()); for (size_t i=0; i a4_fp16_gpu(a4_fp16.size()); for (size_t i=0; i d4_fp16_gpu(top_blob_count); if (op->support_inplace) { for (size_t i=0; iforward_inplace(d4_fp16_gpu, cmd, opt); } else { op->forward(a4_fp16_gpu, d4_fp16_gpu, cmd, opt); } for (size_t i=0; idestroy_pipeline(opt); delete op; #if NCNN_VULKAN vkdev->reclaim_blob_allocator(blob_vkallocator); vkdev->reclaim_staging_allocator(staging_vkallocator); g_weight_vkallocator.clear(); g_weight_staging_vkallocator.clear(); #endif // NCNN_VULKAN if (CompareMat(b, c, epsilon) != 0) { fprintf(stderr, "test_layer failed cpu\n"); return -1; } #if NCNN_VULKAN if (opt.use_vulkan_compute && CompareMat(b, d, epsilon) != 0) { fprintf(stderr, "test_layer failed gpu\n"); return -1; } #endif // NCNN_VULKAN if (top_shapes.empty()) return test_layer(typeindex, pd, weights, opt, a, top_blob_count, b, epsilon, func); return 0; } template int test_layer(int typeindex, const ncnn::ParamDict& pd, const std::vector& weights, const ncnn::Option& _opt, const ncnn::Mat& a, const ncnn::Mat& top_shape = ncnn::Mat(), float epsilon = 0.001, void (*func)(T*) = 0) { ncnn::Layer* op = ncnn::create_layer(typeindex); ncnn::Option opt = _opt; if (func) { (*func)((T*)op); } if (!op->support_vulkan) opt.use_vulkan_compute = false; if (!op->support_packing) opt.use_packing_layout = false; if (!op->support_bf16_storage) opt.use_bf16_storage = false; if (opt.use_int8_inference) opt.use_bf16_storage = false; #if NCNN_VULKAN ncnn::VulkanDevice* vkdev = ncnn::get_gpu_device(); ncnn::VkWeightBufferAllocator g_weight_vkallocator(vkdev); ncnn::VkWeightStagingBufferAllocator g_weight_staging_vkallocator(vkdev); ncnn::VkAllocator* blob_vkallocator = vkdev->acquire_blob_allocator(); ncnn::VkAllocator* staging_vkallocator = vkdev->acquire_staging_allocator(); opt.blob_vkallocator = blob_vkallocator; opt.workspace_vkallocator = blob_vkallocator; opt.staging_vkallocator = staging_vkallocator; if (!vkdev->info.support_fp16_storage) opt.use_fp16_storage = false; if (!vkdev->info.support_fp16_packed) opt.use_fp16_packed = false; op->vkdev = vkdev; #endif // NCNN_VULKAN if (top_shape.dims) { op->bottom_shapes.resize(1); op->top_shapes.resize(1); op->bottom_shapes[0] = a; op->top_shapes[0] = top_shape; } op->load_param(pd); ncnn::ModelBinFromMatArray mb(weights.data()); op->load_model(mb); op->create_pipeline(opt); #if NCNN_VULKAN if (opt.use_vulkan_compute) { ncnn::VkTransfer cmd(vkdev); cmd.weight_vkallocator = &g_weight_vkallocator; cmd.staging_vkallocator = &g_weight_staging_vkallocator; op->upload_model(cmd, opt); cmd.submit_and_wait(); g_weight_staging_vkallocator.clear(); } #endif // NCNN_VULKAN ncnn::Mat b; if (op->support_inplace) { b = a.clone(); ((T*)op)->T::forward_inplace(b, opt); } else { ((T*)op)->T::forward(a, b, opt); } ncnn::Mat c; { ncnn::Mat a4; if (opt.use_packing_layout) { ncnn::convert_packing(a, a4, 4, opt); } else { a4 = a; } if (opt.use_bf16_storage) { ncnn::Mat a_bf16; ncnn::cast_float32_to_bfloat16(a4, a_bf16, opt); a4 = a_bf16; } if (op->support_inplace) { c = a4.clone(); op->forward_inplace(c, opt); } else { op->forward(a4, c, opt); } if (opt.use_bf16_storage) { ncnn::Mat c_fp32; ncnn::cast_bfloat16_to_float32(c, c_fp32, opt); c = c_fp32; } } #if NCNN_VULKAN ncnn::Mat d; if (opt.use_vulkan_compute) { // pack ncnn::Mat a4; if (opt.use_shader_pack8) { ncnn::convert_packing(a, a4, 8, opt); if (a4.elempack != 8) ncnn::convert_packing(a, a4, 4, opt); } else ncnn::convert_packing(a, a4, 4, opt); // fp16 ncnn::Mat a4_fp16; if (opt.use_fp16_storage || ((a4.elempack == 4 || a4.elempack == 8) && opt.use_fp16_packed)) { ncnn::cast_float32_to_float16(a4, a4_fp16, opt); } else { a4_fp16 = a4; } // upload ncnn::VkMat a4_fp16_gpu; a4_fp16_gpu.create_like(a4_fp16, opt.blob_vkallocator, opt.staging_vkallocator); a4_fp16_gpu.prepare_staging_buffer(); a4_fp16_gpu.upload(a4_fp16); // forward ncnn::VkCompute cmd(vkdev); cmd.record_upload(a4_fp16_gpu); ncnn::VkMat d4_fp16_gpu; if (op->support_inplace) { d4_fp16_gpu.create_like(a4_fp16_gpu, a4_fp16_gpu.allocator, a4_fp16_gpu.staging_allocator); cmd.record_clone(a4_fp16_gpu, d4_fp16_gpu); op->forward_inplace(d4_fp16_gpu, cmd, opt); } else { op->forward(a4_fp16_gpu, d4_fp16_gpu, cmd, opt); } d4_fp16_gpu.prepare_staging_buffer(); cmd.record_download(d4_fp16_gpu); cmd.submit_and_wait(); // download d.create_like(d4_fp16_gpu); d4_fp16_gpu.download(d); } #endif // NCNN_VULKAN op->destroy_pipeline(opt); delete op; #if NCNN_VULKAN vkdev->reclaim_blob_allocator(blob_vkallocator); vkdev->reclaim_staging_allocator(staging_vkallocator); g_weight_vkallocator.clear(); g_weight_staging_vkallocator.clear(); #endif // NCNN_VULKAN if (CompareMat(b, c, epsilon) != 0) { fprintf(stderr, "test_layer failed cpu\n"); return -1; } #if NCNN_VULKAN if (opt.use_vulkan_compute && CompareMat(b, d, epsilon) != 0) { fprintf(stderr, "test_layer failed gpu\n"); return -1; } #endif // NCNN_VULKAN if (top_shape.dims == 0) return test_layer(typeindex, pd, weights, opt, a, b, epsilon, func); return 0; } template int test_layer(const char* layer_type, const ncnn::ParamDict& pd, const std::vector& weights, const ncnn::Option& _opt, const std::vector& a, int top_blob_count = 1, float epsilon = 0.001, void (*func)(T*) = 0) { ncnn::Option opts[3]; opts[0] = _opt; opts[0].use_packing_layout = false; opts[0].use_fp16_packed = false; opts[0].use_fp16_storage = false; opts[0].use_shader_pack8 = false; opts[1] = _opt; opts[1].use_packing_layout = true; opts[1].use_fp16_packed = true; opts[1].use_fp16_storage = false; opts[1].use_shader_pack8 = true; opts[2] = _opt; opts[2].use_packing_layout = true; opts[2].use_bf16_storage = true; opts[2].use_vulkan_compute = false; for (int i = 0; i < 3; i++) { const ncnn::Option& opt = opts[i]; // fp16 representation std::vector a_fp16; std::vector weights_fp16; float epsilon_fp16; if (opt.use_fp16_packed || opt.use_fp16_storage) { a_fp16.resize(a.size()); for (size_t j = 0; j < a.size(); j++) { ncnn::Mat tmp; ncnn::cast_float32_to_float16(a[j], tmp, opt); ncnn::cast_float16_to_float32(tmp, a_fp16[j], opt); } weights_fp16.resize(weights.size()); for (size_t j = 0; j < weights.size(); j++) { ncnn::Mat tmp; ncnn::cast_float32_to_float16(weights[j], tmp, opt); ncnn::cast_float16_to_float32(tmp, weights_fp16[j], opt); } epsilon_fp16 = epsilon * 100;// 0.1 } else if (opt.use_bf16_storage) { a_fp16.resize(a.size()); for (size_t j = 0; j < a.size(); j++) { ncnn::Mat tmp; ncnn::cast_float32_to_bfloat16(a[j], tmp, opt); ncnn::cast_bfloat16_to_float32(tmp, a_fp16[j], opt); } weights_fp16.resize(weights.size()); for (size_t j = 0; j < weights.size(); j++) { ncnn::Mat tmp; ncnn::cast_float32_to_bfloat16(weights[j], tmp, opt); ncnn::cast_bfloat16_to_float32(tmp, weights_fp16[j], opt); } epsilon_fp16 = epsilon * 100;// 0.1 } else { a_fp16 = a; weights_fp16 = weights; epsilon_fp16 = epsilon; } std::vector top_shapes; int ret = test_layer(ncnn::layer_to_index(layer_type), pd, weights_fp16, opt, a_fp16, top_blob_count, top_shapes, epsilon_fp16, func); if (ret != 0) { fprintf(stderr, "test_layer %s failed use_packing_layout=%d use_bf16_storage=%d\n", layer_type, opt.use_packing_layout, opt.use_bf16_storage); return ret; } } return 0; } template int test_layer(const char* layer_type, const ncnn::ParamDict& pd, const std::vector& weights, const ncnn::Option& _opt, const ncnn::Mat& a, float epsilon = 0.001, void (*func)(T*) = 0) { ncnn::Option opts[3]; opts[0] = _opt; opts[0].use_packing_layout = false; opts[0].use_fp16_packed = false; opts[0].use_fp16_storage = false; opts[0].use_shader_pack8 = false; opts[1] = _opt; opts[1].use_packing_layout = true; opts[1].use_fp16_packed = true; opts[1].use_fp16_storage = false; opts[1].use_shader_pack8 = true; opts[2] = _opt; opts[2].use_packing_layout = true; opts[2].use_bf16_storage = true; opts[2].use_vulkan_compute = false; for (int i = 0; i < 3; i++) { const ncnn::Option& opt = opts[i]; // fp16 representation ncnn::Mat a_fp16; std::vector weights_fp16; float epsilon_fp16; if (opt.use_fp16_packed || opt.use_fp16_storage) { { ncnn::Mat tmp; ncnn::cast_float32_to_float16(a, tmp, opt); ncnn::cast_float16_to_float32(tmp, a_fp16, opt); } weights_fp16.resize(weights.size()); for (size_t j = 0; j < weights.size(); j++) { ncnn::Mat tmp; ncnn::cast_float32_to_float16(weights[j], tmp, opt); ncnn::cast_float16_to_float32(tmp, weights_fp16[j], opt); } epsilon_fp16 = epsilon * 100;// 0.1 } else if (opt.use_bf16_storage) { { ncnn::Mat tmp; ncnn::cast_float32_to_bfloat16(a, tmp, opt); ncnn::cast_bfloat16_to_float32(tmp, a_fp16, opt); } weights_fp16.resize(weights.size()); for (size_t j = 0; j < weights.size(); j++) { ncnn::Mat tmp; ncnn::cast_float32_to_bfloat16(weights[j], tmp, opt); ncnn::cast_bfloat16_to_float32(tmp, weights_fp16[j], opt); } epsilon_fp16 = epsilon * 100;// 0.1 } else { a_fp16 = a; weights_fp16 = weights; epsilon_fp16 = epsilon; } ncnn::Mat top_shape; int ret = test_layer(ncnn::layer_to_index(layer_type), pd, weights_fp16, opt, a_fp16, top_shape, epsilon_fp16, func); if (ret != 0) { fprintf(stderr, "test_layer %s failed use_packing_layout=%d use_bf16_storage=%d\n", layer_type, opt.use_packing_layout, opt.use_bf16_storage); return ret; } } return 0; } #endif // TESTUTIL_H