!4118 fix post training quant

Merge pull request !4118 from xutianchun/quant_0807
5 years ago · 1b646b9527
--- a/mindspore/lite/src/common/anf_exporter/anf_exporter.cc
+++ b/mindspore/lite/src/common/anf_exporter/anf_exporter.cc
@@ -177,31 +177,44 @@ schema::MetaGraphT *AnfExporter::Export(const FuncGraphPtr &funcGraph) {
    if (node->quantType == schema::QuantType_PostTraining) {
      MS_LOG(INFO) << "node: " << node->name << " add QuantParam";
      // activation
      auto activate_index = node->inputIndex[0];
      auto tensor_input = metaGraphT->allTensors[activate_index].get();
      auto input_quant_params = primitiveT_value->GetInputQuantParams();
      if (input_quant_params.empty()) {
        MS_LOG(WARNING) << "node: " << node->name
                        << " input quant params is empty";
      } else {
      auto node_type = primitiveT_value->GetPrimitiveT()->value.type;
      for (int i = 0; i < input_quant_params.size(); i++) {
        if (i >= node->inputIndex.size()) {
          MS_LOG(ERROR) << "node: " << node->name << " input has " << input_quant_params.size()
                        << " quant_params; but only " << node->inputIndex.size() << " input";
          break;
        }
        auto activate_index = node->inputIndex[i];
        auto tensor_input = metaGraphT->allTensors[activate_index].get();
        std::unique_ptr<schema::QuantParamT> input_quant_param =
            std::make_unique<schema::QuantParamT>(input_quant_params[0]);
          std::make_unique<schema::QuantParamT>(input_quant_params[i]);
        MS_LOG(DEBUG) << "[input]node: " << node->name << " scale: " << input_quant_param->scale
                      << " zp: " << input_quant_param->zeroPoint;
        tensor_input->quantParams.emplace_back(std::move(input_quant_param));
        if (!(node_type == schema::PrimitiveType_QuantDTypeCast &&
              primitiveT_value->GetPrimitiveT()->value.AsQuantDTypeCast()->srcT == kNumberTypeFloat32)) {
          tensor_input->dataType = kNumberTypeInt8;
        }
      }
      tensor_input->dataType = kNumberTypeInt8;

      // output
      auto output_index = node->outputIndex[0];
      auto tensor_output = metaGraphT->allTensors[output_index].get();
      auto output_quant_params = primitiveT_value->GetOutputQuantParams();
      if (output_quant_params.empty()) {
        MS_LOG(WARNING) << "node: " << node->name
                        << " output quant params is empty";
        MS_LOG(WARNING) << "node: " << node->name << " output quant params is empty";
      } else {
        std::unique_ptr<schema::QuantParamT> output_quant_param =
            std::make_unique<schema::QuantParamT>(output_quant_params[0]);
          std::make_unique<schema::QuantParamT>(output_quant_params[0]);
        MS_LOG(DEBUG) << "[output]node: " << node->name << " scale: " << output_quant_param->scale
                      << " zp: " << output_quant_param->zeroPoint;
        tensor_output->quantParams.emplace_back(std::move(output_quant_param));
      }
      tensor_output->dataType = kNumberTypeInt8;
      if (!(node_type == schema::PrimitiveType_QuantDTypeCast &&
            primitiveT_value->GetPrimitiveT()->value.AsQuantDTypeCast()->dstT == kNumberTypeFloat32)) {
        tensor_output->dataType = kNumberTypeInt8;
      }
      //      // TensorType
      //      valuePtr = primitive->GetAttr(kInputTensorDataType);
      //      if (valuePtr != nullptr) {
--- a/mindspore/lite/src/lite_session.cc
+++ b/mindspore/lite/src/lite_session.cc
@@ -64,6 +64,16 @@ int LiteSession::ConvertTensors(const lite::Model *model) {
      // no copy data, do copy when call LiteKernel::Init
      dstTensor->SetData(const_cast<unsigned char *>(srcTensor->data()->data()));
    }
    auto quant_params = srcTensor->quantParams();
    if (quant_params != nullptr) {
      for (int j = 0; j < quant_params->size(); j++) {
        tensor::QuantArg quant_arg{};
        quant_arg.scale = quant_params->Get(j)->scale();
        quant_arg.zeroPoint = quant_params->Get(j)->zeroPoint();
        dstTensor->AddQuantParam(quant_arg);
      }
    }

    this->tensors.emplace_back(dstTensor);
  }
  return RET_OK;
--- a/mindspore/lite/src/ops/quant_dtype_cast.cc
+++ b/mindspore/lite/src/ops/quant_dtype_cast.cc
@@ -30,6 +30,7 @@ int QuantDTypeCast::InferShape(std::vector<tensor::Tensor *> inputs_, std::vecto
  auto param = primitive->value_as_QuantDTypeCast();
  MS_ASSERT(input->data_type() == param->srcT);
  output->set_data_type(static_cast<TypeId>(param->dstT()));
  output->SetFormat(input->GetFormat());
  return RET_OK;
 }
 }  // namespace mindspore::lite
--- a/mindspore/lite/src/runtime/kernel/arm/base/quant_dtype_cast.cc
+++ b/mindspore/lite/src/runtime/kernel/arm/base/quant_dtype_cast.cc
@@ -62,7 +62,7 @@ int QuantDTypeCastCPUKernel::Init() {
    }
    inverse_ = true;
  } else {
    MS_LOG(ERROR) << "param data type not supported.";
    MS_LOG(ERROR) << "param data type not supported:" << " src: " << param->srcT << " dst: " << param->dstT;
    return RET_ERROR;
  }

@@ -148,7 +148,6 @@ kernel::LiteKernel *CpuQuantDTypeCastFp32KernelCreator(const std::vector<lite::t
  }
  return kernel;
 }

 REG_KERNEL(kCPU, kNumberTypeInt8, PrimitiveType_QuantDTypeCast, CpuQuantDTypeCastFp32KernelCreator)
 REG_KERNEL(kCPU, kNumberTypeFloat32, PrimitiveType_QuantDTypeCast, CpuQuantDTypeCastFp32KernelCreator)
 }  // namespace mindspore::kernel
--- a/mindspore/lite/src/runtime/kernel/arm/nnacl/int8/quant_dtype_cast.cc
+++ b/mindspore/lite/src/runtime/kernel/arm/nnacl/int8/quant_dtype_cast.cc
@@ -23,7 +23,7 @@ int DequantizeInt8(int8_t *quant_values, float *real_values, float scale, int32_
  }

  for (int i = 0; i < size; ++i) {
    real_values[i] = (quant_values[i] + zp) * scale;
    real_values[i] = (quant_values[i] - zp) * scale;
  }
  return NNACL_OK;
 }
@@ -34,7 +34,14 @@ int QuantizeToInt8(float *real_values, int8_t *quant_values, float scale, int32_
  }

  for (int i = 0; i < size; ++i) {
    quant_values[i] = (int8_t)round(real_values[i] / scale + zp);
    float temp = round(real_values[i] / scale + zp);
    if (temp > 127) {
      quant_values[i] = 127;
    } else if (temp < -128) {
      quant_values[i] = -128;
    } else {
      quant_values[i] = (int8_t)temp;
    }
  }
  return NNACL_OK;
 }
--- a/mindspore/lite/tools/converter/legacy_optimizer/node/weight_format_pass.cc
+++ b/mindspore/lite/tools/converter/legacy_optimizer/node/weight_format_pass.cc
@@ -166,6 +166,7 @@ int WeightFormatPass::ShapeFormatTrans(GraphNode *graphNode) {
        return -1;
      }
    }
    MS_LOG(DEBUG) << "weight_tensor_format: " << weightTensor->format;
    return 0;
  } else if (fmkType == converter::FmkType_ONNX) {
    switch (node->quantType) {
@@ -217,7 +218,7 @@ int WeightFormatPass::QuantDataFormatTrans(GraphNode *graphNode) {
  auto opType = node->primitive->value.type;
  if (opType != schema::PrimitiveType_Conv2D && opType != schema::PrimitiveType_DepthwiseConv2D &&
      opType != schema::PrimitiveType_DeConv2D && opType != schema::PrimitiveType_DeDepthwiseConv2D) {
    return 0;
    return RET_OK;
  }

  MS_ASSERT(node->inputIndex.size() >= 2);
@@ -225,7 +226,7 @@ int WeightFormatPass::QuantDataFormatTrans(GraphNode *graphNode) {
  MS_ASSERT(subGraph->allTensors.size() > weightIndex);
  auto &weightTensor = subGraph->allTensors[weightIndex];
  MS_ASSERT(weightTensor->dataType == kNumberTypeInt8);  // DataType_DT_FLOAT
  STATUS status;
  STATUS status = RET_OK;
  if (opType == schema::PrimitiveType_Conv2D) {         // weight should be HWCK
    if (weightTensor->format == schema::Format_KCHW) {  // from caffe
      if (weightTensor->dataType == kNumberTypeInt8) {  // DataType_DT_UINT8) {
@@ -238,11 +239,12 @@ int WeightFormatPass::QuantDataFormatTrans(GraphNode *graphNode) {
        status = TransFilterFormat<float>(weightTensor.get(), kKCHW2HWCK);
      }
    } else if (weightTensor->format == schema::Format_KHWC) {  // from onnx
      if (weightTensor->dataType == kNumberTypeInt8) {         // DataType_DT_UINT8) {
        status = TransFilterFormat<int8_t>(weightTensor.get(), kKHWC2HWCK);
      } else {
        status = TransFilterFormat<float>(weightTensor.get(), kKHWC2HWCK);
      }
      return RET_OK;
 //      if (weightTensor->dataType == kNumberTypeInt8) {                     // DataType_DT_UINT8) {
 //        status = TransFilterFormat<int8_t>(weightTensor.get(), kKHWC2HWCK);
 //      } else {
 //        status = TransFilterFormat<float>(weightTensor.get(), kKHWC2HWCK);
 //      }
    } else if (weightTensor->format == schema::Format_HWCK) {  // from tf
      return 0;
    } else {
@@ -273,8 +275,8 @@ int WeightFormatPass::QuantDataFormatTrans(GraphNode *graphNode) {
    } else if (weightTensor->format == schema::Format_HWCK) {  // from tf
      return 0;
    } else if (weightTensor->format == schema::Format_CHWK) {  // from onnx
      if (weightTensor->dataType == kNumberTypeInt8) {         // DataType_DT_UINT8) {
        status = TransFilterFormat<uint8_t>(weightTensor.get(), kCHWK2HWCK);
      if (weightTensor->dataType == kNumberTypeInt8) {                     // DataType_DT_UINT8) {
        status = TransFilterFormat<int8_t>(weightTensor.get(), kCHWK2KHWC);
      } else {
        status = TransFilterFormat<float>(weightTensor.get(), kCHWK2HWCK);
      }
--- a/mindspore/lite/tools/converter/quantizer/post_training.cc
+++ b/mindspore/lite/tools/converter/quantizer/post_training.cc
@@ -54,7 +54,7 @@ struct DivergInfo {
  size_t bit_num;
  int quant_max = 255;
  int quant_min = 0;
  DivergInfo(CNodePtr cnode, int bins, size_t bits, int quant_max = 255, int quant_min = 0) {
  DivergInfo(CNodePtr cnode, int bins, size_t bits, int quant_max, int quant_min) {
    this->cnode = cnode;
    this->bin_num = bins;
    this->bit_num = bits;
@@ -81,6 +81,9 @@ struct DivergInfo {

  STATUS UpdateHistogram(const std::vector<float> &data, const std::vector<int> &shape) {
    for (auto value : data) {
      if (value == 0) {
        continue;
      }
      int bin_index = std::min(static_cast<int>(std::fabs(value) / this->interval), bin_num - 1);
      this->histogram[bin_index]++;
    }
@@ -470,8 +473,10 @@ STATUS Calibrator::ReadConfig() {
 Calibrator::Calibrator(string path, size_t bitNum, int quantMax, int quantMin)
    : config_path_(path), bit_num_(bitNum), quant_max_(quantMax), quant_min_(quantMin) {}

 PostTrainingQuantizer::PostTrainingQuantizer(FuncGraphPtr graph, string path, int bit_num, TypeId target_type)
 PostTrainingQuantizer::PostTrainingQuantizer(FuncGraphPtr graph, string path, int bit_num, TypeId target_type,
                                             bool per_channel)
    : Quantizer(graph) {
  this->per_channel_ = per_channel;
  this->bit_num = bit_num;
  this->target_type_ = target_type;
  if (target_type == kNumberTypeInt8) {
@@ -533,7 +538,7 @@ STATUS PostTrainingQuantizer::DoWeightQuant(AnfNodePtr node) {
  }
  auto parameter = std::dynamic_pointer_cast<Parameter>(node);
  ParamValueLitePtr paramValue = std::dynamic_pointer_cast<ParamValueLite>(parameter->default_param());
  auto status = QuantFilter(paramValue, QuantType_PostTraining, quant_max, quant_min, bit_num);
  auto status = QuantFilter(paramValue, QuantType_PostTraining, quant_max, quant_min, bit_num, per_channel_);
  if (status != RET_OK) {
    MS_LOG(ERROR) << "QuantFilter failed: " << status;
    return status;
@@ -670,18 +675,32 @@ STATUS PostTrainingQuantizer::QuantNode() {
      MS_LOG(ERROR) << "PrimitiveT_value is nullptr";
      continue;
    }

    if (input_scale.find(cnode) == input_scale.end()) {
      primitiveT_value->SetQuantType(schema::QuantType_QUANT_NONE);
      continue;
    }
    auto input_vec = cnode->inputs();
    auto op_name = cnode->fullname_with_scope();
    auto op_type = primitiveT_value->GetPrimitiveT()->value.type;
    MS_LOG(INFO) << "OpName: " << op_name;
    if (input_vec.size() <= 3 && op_name != "Conv2D" && op_name != "DepthwiseConv2D") {
      MS_LOG(INFO) << "todo(x): ";
      // int32_t qnodeOutputZeropoint = outputZeropoint[cnode];
      // p->AddAttr(kInputTensorDataType, MakeValue((int)targetType));
    if (op_type != PrimitiveType_Conv2D && op_type != PrimitiveType_DepthwiseConv2D) {
      for (auto i = 1; i < cnode->inputs().size(); i++) {
        auto input_node = cnode->input(i);
        if (!input_node->isa<mindspore::CNode>()) {
          MS_LOG(WARNING) << "node: " << cnode_name << " input " << i << " not a cnode";
          continue;
        }
        auto input_cnode = std::dynamic_pointer_cast<mindspore::CNode>(input_node);
        auto input_cnode_primitiveT_value = GetValueNode<std::shared_ptr<PrimitiveTValue>>(input_cnode->input(0));
        if (input_cnode_primitiveT_value == nullptr) {
          MS_LOG(DEBUG) << "input: " << i << " " << input_cnode->fullname_with_scope() << ": "
                        << " PrimitiveTValue is null";
          continue;
        }
        for (auto &quant_param : input_cnode_primitiveT_value->GetOutputQuantParams()) {
          primitiveT_value->AddInputQuantParam(quant_param);
        }
      }
    } else {
      // do input quant
      double scale = input_scale[cnode];
--- a/mindspore/lite/tools/converter/quantizer/post_training.h
+++ b/mindspore/lite/tools/converter/quantizer/post_training.h
@@ -55,15 +55,18 @@ struct ConfigParam {

 class PostTrainingQuantizer : public Quantizer {
 public:
  PostTrainingQuantizer(FuncGraphPtr graph, std::string path, int bit_num, TypeId target_type = kNumberTypeInt8);
  PostTrainingQuantizer(FuncGraphPtr graph, std::string path, int bit_num, TypeId target_type = kNumberTypeInt8,
                        bool per_channel = false);

  STATUS DoQuantize(FuncGraphPtr funcGraph) override;

  size_t bit_num;
  int quant_max{255};
  int quant_min{0};
  int quant_max{127};
  int quant_min{-128};

 private:
  bool per_channel_;

  TypeId target_type_{kNumberTypeInt8};

  std::unique_ptr<Calibrator> calibrator_;
--- a/mindspore/lite/tools/converter/quantizer/quant_cast.cc
+++ b/mindspore/lite/tools/converter/quantizer/quant_cast.cc
@@ -25,10 +25,11 @@ namespace mindspore::lite::quant {
 ValueNodePtr NewQuantCastValueNode(int src_type, int dst_type, const std::vector<schema::QuantParamT> &quant_params) {
  std::unique_ptr<schema::PrimitiveT> primitive = std::make_unique<schema::PrimitiveT>();
  schema::QuantDTypeCastT quant_dtype_cast;
  quant_dtype_cast.srcT = src_type;  // kNumberTypeUInt8;
  quant_dtype_cast.srcT = src_type;  // kNumberTypeInt8;
  quant_dtype_cast.dstT = dst_type;  // kNumberTypeFloat32;
  primitive->value.Set(quant_dtype_cast);
  auto primTValue = std::make_shared<PrimitiveTValue>(primitive.release());
  primTValue->SetQuantType(schema::QuantType_PostTraining);
  for (auto &quant_param : quant_params) {
    primTValue->AddInputQuantParam(quant_param);
  }
@@ -52,7 +53,7 @@ STATUS QuantCast::Run(FuncGraphPtr graph) {
    if (first) {
      if (curnode_quant_type == schema::QuantType_PostTraining && inputDataDType == kNumberTypeFloat32) {
        auto value_node =
          NewQuantCastValueNode(kNumberTypeFloat32, kNumberTypeUInt8, primitiveT_value->GetInputQuantParams());
          NewQuantCastValueNode(kNumberTypeFloat32, kNumberTypeInt8, primitiveT_value->GetInputQuantParams());
        std::vector<AnfNodePtr> op_inputs = {value_node, cnode->input(1)};
        auto quant_cast_cnode = graph->NewCNode(op_inputs);
        quant_cast_cnode->set_fullname_with_scope(cnode->fullname_with_scope() + "_quant_cast");
@@ -82,11 +83,11 @@ STATUS QuantCast::Run(FuncGraphPtr graph) {
        ValueNodePtr value_node = nullptr;
        if (curnode_quant_type == schema::QuantType_PostTraining &&
            input_cnode_quant_type == schema::QuantType_QUANT_NONE) {
          value_node = NewQuantCastValueNode(kNumberTypeFloat32, kNumberTypeUInt8,
                                             input_cnode_primitiveT_value->GetInputQuantParams());
          value_node = NewQuantCastValueNode(kNumberTypeFloat32, kNumberTypeInt8,
                                             primitiveT_value->GetInputQuantParams());
        } else if (curnode_quant_type == schema::QuantType_QUANT_NONE &&
                   input_cnode_quant_type == schema::QuantType_PostTraining) {
          value_node = NewQuantCastValueNode(kNumberTypeUInt8, kNumberTypeFloat32,
          value_node = NewQuantCastValueNode(kNumberTypeInt8, kNumberTypeFloat32,
                                             input_cnode_primitiveT_value->GetInputQuantParams());
        }
        if (value_node == nullptr) {
--- a/mindspore/lite/tools/converter/quantizer/quantize_util.cc
+++ b/mindspore/lite/tools/converter/quantizer/quantize_util.cc
@@ -98,7 +98,7 @@ bool QuantStrategy::CanOpPostQuantized(AnfNodePtr &node) const {
    static const std::vector<schema::PrimitiveType> uint8OpList = {
        schema::PrimitiveType_Nchw2Nhwc,       schema::PrimitiveType_Nhwc2Nchw, schema::PrimitiveType_Conv2D,
        schema::PrimitiveType_DepthwiseConv2D, schema::PrimitiveType_Add,       schema::PrimitiveType_Pooling,
        schema::PrimitiveType_Concat,          schema::PrimitiveType_SoftMax,   schema::PrimitiveType_Reshape,
        schema::PrimitiveType_Concat,          /*schema::PrimitiveType_SoftMax,*/   schema::PrimitiveType_Reshape,
        schema::PrimitiveType_Activation};
    return IsContain(uint8OpList, type);
 }
@@ -242,64 +242,122 @@ STATUS CalQuantizationParams(std::unique_ptr<AnfQuantParam> &quantParam, double
    return RET_OK;
 }

 STATUS QuantFilter(ParamValueLitePtr &weightPtr, QuantType quantType, int quant_max, int quant_min, size_t bitNum) {
 STATUS QuantFilter(ParamValueLitePtr &weightPtr, QuantType quantType, int quant_max, int quant_min, size_t bitNum,
                   bool per_channel) {
  if (per_channel) {
    // per channel
    auto dims = weightPtr->tensor_shape();
    if (dims.size() < 1) {
        MS_LOG(ERROR) << "weight dims size error";
        return RET_ERROR;
      MS_LOG(ERROR) << "weight dims size error";
      return RET_ERROR;
    }
    uint32_t channels = dims[0];
    // todo(x)
    uint32_t channels = dims[3];
    if (channels == 0) {
        MS_LOG(ERROR) << "channels error 0";
        return RET_ERROR;
      MS_LOG(ERROR) << "channels error 0";
      return RET_ERROR;
    }

    size_t shapeSize = weightPtr->tensor_shape_size();
    size_t oneFilterSize = shapeSize / channels;
    auto *rawDatas = reinterpret_cast<const float *>(weightPtr->tensor_addr());
    if (rawDatas == nullptr) {
        MS_LOG(ERROR) << "rawDatas is nullptr";
        return RET_ERROR;
      MS_LOG(ERROR) << "rawDatas is nullptr";
      return RET_ERROR;
    }

    weightPtr->quant_param().clear();
    vector<uint8_t> qDatas(shapeSize);
    vector<int8_t> qDatas(shapeSize);
    for (uint32_t i = 0; i < channels; i++) {
        float min = 0;
        float max = 0;
        // find min and max
        for (uint32_t j = 0; j < oneFilterSize; j++) {
            min = std::min(min, rawDatas[j + i * oneFilterSize]);
            max = std::max(max, rawDatas[j + i * oneFilterSize]);
        }
      float min = 0;
      float max = 0;
      // find min and max
      for (uint32_t j = 0; j < oneFilterSize; j++) {
        min = std::min(min, rawDatas[j + i * oneFilterSize]);
        max = std::max(max, rawDatas[j + i * oneFilterSize]);
      }

      std::unique_ptr<AnfQuantParam> quantParam = std::unique_ptr<AnfQuantParam>(new AnfQuantParam);
      STATUS status = CalQuantizationParams(quantParam, min, max, false, quant_max, quant_min, bitNum);
      if (status != RET_OK) {
        MS_LOG(ERROR) << "CalQuantizationParams failed" << status;
        return status;
      }
      // update data and datatype
      for (uint32_t j = 0; j < oneFilterSize; j++) {
        float rawData = rawDatas[j + i * oneFilterSize];
        auto qData = QuantizeData<int8_t>(rawData, quantParam.get(), quant_max, quant_min);
        qDatas[j + i * oneFilterSize] = qData;
      }

      weightPtr->set_quant_param(quantParam);
    }
    auto ret = memcpy_s(const_cast<float*>(rawDatas), weightPtr->tensor_size(),
                        qDatas.data(), shapeSize * sizeof(int8_t));
    if (ret != EOK) {
      MS_LOG(ERROR) << "memcpy error: " << ret;
      return RET_ERROR;
    }
    if (quantType == QuantType_WeightQuant) {
      PostBitPack(const_cast<float*>(rawDatas), shapeSize, bitNum);
    }

        std::unique_ptr<AnfQuantParam> quantParam = std::unique_ptr<AnfQuantParam>(new AnfQuantParam);
        STATUS status = CalQuantizationParams(quantParam, min, max, false, quant_max, quant_min, bitNum);
        if (status != RET_OK) {
            MS_LOG(ERROR) << "CalQuantizationParams failed" << status;
            return status;
        }
        // update data and datatype
        for (uint32_t j = 0; j < oneFilterSize; j++) {
            float rawData = rawDatas[j + i * oneFilterSize];
            auto qData = QuantizeData<uint8_t>(rawData, quantParam.get());
            qDatas[j + i * oneFilterSize] = qData;
        }
    weightPtr->set_tensor_type(kNumberTypeInt8);
    weightPtr->set_tensor_size(shapeSize * sizeof(int8_t));
  } else {
    // per layer
    size_t shapeSize = weightPtr->tensor_shape_size();
    auto *rawDatas = static_cast<float *>(weightPtr->tensor_addr());
    if (rawDatas == nullptr) {
      MS_LOG(ERROR) << "rawDatas is nullptr";
      return RET_ERROR;
    }

        weightPtr->set_quant_param(quantParam);
    weightPtr->quant_param().clear();
    vector<int8_t> qDatas(shapeSize);

    float min = 0;
    float max = 0;
    for (uint32_t i = 0; i < shapeSize; i++) {
      // find max min
      min = std::min(min, rawDatas[i]);
      max = std::max(max, rawDatas[i]);
    }
    auto ret = memcpy_s(const_cast<float*>(rawDatas), weightPtr->tensor_size(),
                        qDatas.data(), shapeSize * sizeof(uint8_t));

    std::unique_ptr<AnfQuantParam> quantParam = std::unique_ptr<AnfQuantParam>(new AnfQuantParam);
    STATUS status = CalQuantizationParams(quantParam, min, max, false, quant_max, quant_min, bitNum);
    if (status != RET_OK) {
      MS_LOG(ERROR) << "CalQuantizationParams failed" << status;
      return status;
    }
    // update data and datatype
    for (uint32_t i = 0; i < shapeSize; i++) {
      float rawData = rawDatas[i];
      auto quant_data = std::round(rawData / quantParam->scale + quantParam->zeroPoint);
      if (quant_data > quant_max) {
        qDatas[i] = quant_max;
      } else if (quant_data < quant_min) {
        qDatas[i] = quant_min;
      }  else {
        qDatas[i] = static_cast<int8_t>(quant_data);
      }
    }

    weightPtr->set_quant_param(quantParam);
    auto ret = memcpy_s(rawDatas, weightPtr->tensor_size() * sizeof(int8_t),
                        qDatas.data(), shapeSize * sizeof(int8_t));
    if (ret != EOK) {
        MS_LOG(ERROR) << "memcpy error: " << ret;
        return RET_ERROR;
      MS_LOG(ERROR) << "memcpy error: " << ret;
      return RET_ERROR;
    }
    if (quantType == QuantType_WeightQuant) {
        PostBitPack(const_cast<float*>(rawDatas), shapeSize, bitNum);
      PostBitPack(rawDatas, shapeSize, bitNum);
    }

    weightPtr->set_tensor_type(kNumberTypeInt8);
    weightPtr->set_tensor_size(shapeSize * sizeof(int8_t));
  }


    return RET_OK;
 }
--- a/mindspore/lite/tools/converter/quantizer/quantize_util.h
+++ b/mindspore/lite/tools/converter/quantizer/quantize_util.h
@@ -63,41 +63,30 @@ STATUS CalQuantizationParams(std::unique_ptr<AnfQuantParam> &quantParam, double
                             bool narrowRange, int quant_max, int quant_min, int num_bits);

 template <typename T>
 T QuantizeData(const float originData, const AnfQuantParam *quantParam) {
 T QuantizeData(float originData, const AnfQuantParam *quantParam, int quant_max, int quant_min) {
  MS_ASSERT(quantParam != nullptr);
  MS_ASSERT(quantParam->inited);
  const auto scale = quantParam->scale;
  const auto zeroPoint = quantParam->zeroPoint;
  const auto numBit = quantParam->numBits;
  const int zeroPoint = quantParam->zeroPoint;
  const auto narrowRange = quantParam->narrowRange;
  const double maxLimit = static_cast<float>((1 << (unsigned int)numBit) - 1 - zeroPoint) * scale;
  double minLimit;
  if (narrowRange) {
    minLimit = static_cast<float>(1 - zeroPoint) * scale;
  } else {
    minLimit = static_cast<float>(0 - zeroPoint) * scale;
  }
  const int maxLimit = quant_max;
  const int minLimit = quant_min;

  return [maxLimit, minLimit, zeroPoint, scale, narrowRange, originData] {
    double tmp = 0.0f;
    if (originData > maxLimit) {
      tmp = maxLimit;
    } else if (originData < minLimit) {
      tmp = minLimit;
    } else {
      tmp = originData;
    }
    auto quantData = static_cast<T>(std::round(tmp / scale + zeroPoint));
    if (quantData == 0 && narrowRange) {
      quantData++;
    int quant_data = std::round(originData / scale + zeroPoint);
    if (quant_data > maxLimit) {
      quant_data = maxLimit;
    } else if (quant_data < minLimit) {
      quant_data = minLimit;
    }
    return quantData;
    return static_cast<T>(quant_data);
  }();
 }

 void CalFakeNode(const AnfNodePtr &inTensor);

 STATUS QuantFilter(ParamValueLitePtr &weightPtr, QuantType quantType, int quant_max, int quant_min,
                   size_t bitNum = UINT8_QUANTIZATION);
                   size_t bitNum = UINT8_QUANTIZATION, bool per_channel = false);

 STATUS PostBitPack(float *weights, size_t shapeSize, size_t bitNum = UINT8_QUANTIZATION);