!12234 [GraphKernel] Support pipeline optimization for parallel fusion.

From: @tronzhang Reviewed-by: Signed-off-by:
4 years ago · 54fc5e0d2b
--- a/+ 1
+++ b/+ 1
@@ -1 +1 @@
 Subproject commit 94cb709ecaf5d1d869883dfe80cee7497dd0692c
 Subproject commit 24ba04df564fb3d2578e1b4324c760783b34d551
--- a/mindspore/_extends/graph_kernel/model/graph_parallel.py
+++ b/mindspore/_extends/graph_kernel/model/graph_parallel.py
@@ -17,11 +17,12 @@ from .model import PrimLib
 class ParalGain:
    def __init__(self, fusion_type, bottleneck, gain, block_assign):
    def __init__(self, fusion_type, bottleneck, gain, block_assign, type_info):
        self.fusion_type = fusion_type
        self.bottleneck = bottleneck
        self.gain = gain
        self.block_assign = block_assign
        self.type_info = type_info
 class ScheduleAnalyzer:
@@ -30,6 +31,7 @@ class ScheduleAnalyzer:
    MAX_SM = 80  # Volta
    MAX_NUM_THREADS = 1024
    MAX_BLOCK = 256
    PIPELINE_OP_THREADHOLD = 5
    def __init__(self, graph):
        self.graph = graph
@@ -132,11 +134,141 @@ class ScheduleAnalyzer:
        else:
            self.default_analyze()
    def suitable_to_pipeline(self):
        """judge whether is suitable to be pipeline optimized"""
        # Reduce is not suitable
        def _contain_reduce(ops):
            for op in ops:
                # Reduce may make the tiling bad.
                if PrimLib.primtives.get(op.prim, None) == PrimLib.REDUCE:
                    return True
            return False
        suitable = True
        if _contain_reduce(self.ops):
            suitable = False
        return suitable
    @staticmethod
    def k_mean(data, class_n=2, exclude_id=()):
        """
        Find k clusters in which element is close to each other.
        Args:
            data (list): Elements' information.
            class_n (int): Number of clusters wanted to be analyzed, default is 2.
            exclude_id (tuple[int]): The list of excluded element's index, default is ().
        Returns:
            classes (list[list[int]]): The list of clusters. Each cluster is a list of indices.
        """
        def _cal_mean(classes):
            class_datas = [[data[cid] for cid in cls] for cls in classes]
            return [sum(cls) / len(cls) if cls else float('inf') for cls in class_datas]
        def _cal_distance(a, b):
            return abs(a - b)
        def _check_different(old_classes, new_classes):
            for o, n in zip(old_classes, new_classes):
                if o != n:
                    return True
            return False
        if len(data) < class_n:
            return None
        classes = []
        for i, _ in enumerate(data):
            if i in exclude_id:
                continue
            if len(classes) >= class_n:
                break
            classes.append([i])
        changed = True
        while changed:
            new_classes = [[] for cls in classes]
            means = _cal_mean(classes)
            for idx, d in enumerate(data):
                if idx in exclude_id:
                    continue
                min_idx = -1
                min_dis = float('inf')
                for i, m in enumerate(means):
                    cur_dis = _cal_distance(m, d)
                    min_idx = i if min_dis > cur_dis else min_idx
                    min_dis = cur_dis if min_dis > cur_dis else min_dis
                new_classes[min_idx].append(idx)
            changed = _check_different(classes, new_classes)
            classes = new_classes
        return classes
    @staticmethod
    def pipeline_fusion_analyze(blocks, op_sizes, exclude_id):
        """analyze whether the segments can be pipeline optimized"""
        # op size first, block second.
        def _simple_factor(block, op_size):
            return block + 5 * op_size
        def _take_second(elem):
            return elem[1]
        simple_indicators = [_simple_factor(b, s)
                             for b, s in zip(blocks, op_sizes)]
        # 2 classes, one heavy, the other light
        classes = ScheduleAnalyzer.k_mean(simple_indicators, 2, exclude_id)
        if not classes:
            return []
        means = [sum([simple_indicators[idx] for idx in cls]) /
                 len(cls) if cls else float('inf') for cls in classes]
        # The target two clusters should be a heavy one and a light one.
        # The light one maybe suitable to run with pipeline optimized.
        classes_infos = [[cls, m] for cls, m in zip(classes, means)]
        classes_infos.sort(key=_take_second)
        pipeline_target = None
        for ci in classes_infos:
            if ci:
                pipeline_target = ci
                break
        pipeline_gids, pipeline_mean = pipeline_target
        if pipeline_mean > _simple_factor(float(ScheduleAnalyzer.MAX_SM) / len(blocks),
                                          ScheduleAnalyzer.PIPELINE_OP_THREADHOLD):
            return []
        pipeline_blocks = []
        pipeline_weight = len(pipeline_gids)
        # Try to make two paralleled at least.
        if pipeline_weight > 3 and pipeline_weight > len(blocks) / 2:
            if len(pipeline_gids[:pipeline_weight // 2]) > 1:
                pipeline_blocks.append(pipeline_gids[:pipeline_weight // 2])
            if len(pipeline_gids[pipeline_weight // 2:]) > 1:
                pipeline_blocks.append(pipeline_gids[pipeline_weight // 2:])
        elif pipeline_weight > 1:
            pipeline_blocks.append(pipeline_gids)
        return pipeline_blocks
    @staticmethod
    def fusion_consult(blocks, op_sizes, exclude_gid):
        """get a recommendation for parallel fusion"""
        # Default is block fusion
        fusion_type = "block_fusion"
        type_info = None
        activate_pipeline_optimization = False # Disable pipeline optimization for now.
        if activate_pipeline_optimization:
            pipeline_info = ScheduleAnalyzer.pipeline_fusion_analyze(
                blocks, op_sizes, exclude_gid)
            if pipeline_info:
                fusion_type = "block_pipeline_fusion"
                type_info = pipeline_info
        return fusion_type, type_info
 def block_parallel_estimate(graphs):
    """estimate block parallel gain"""
    sum_block, max_weight, sum_weight, blocks = 0, 0, 0, []
    for g in graphs:
    sum_block, max_weight, sum_weight, blocks, op_sizes, exclude_gid = 0, 0, 0, [], [], []
    for gid, g in enumerate(graphs):
        s = ScheduleAnalyzer(g)
        s.analyze()
        sum_block += s.block_num
@@ -144,9 +276,14 @@ def block_parallel_estimate(graphs):
            max_weight = s.block_weight
        sum_weight += s.block_weight
        blocks.append(s.block_num)
        op_sizes.append(len(s.ops))
        if not s.suitable_to_pipeline():
            exclude_gid.append(gid)
    if sum_block > ScheduleAnalyzer.MAX_SM * 32:
        return ParalGain("none", sum_weight, 0, [])
    return ParalGain("block_fusion", max_weight, sum_weight - max_weight, blocks)
        return ParalGain("none", sum_weight, 0, [0 for _ in graphs], None)
    fusion_type, type_info = ScheduleAnalyzer.fusion_consult(blocks, op_sizes, tuple(exclude_gid))
    return ParalGain(fusion_type, max_weight, sum_weight - max_weight, blocks, type_info)
 def parallel_estimate(graphs):
--- a/mindspore/_extends/graph_kernel/parallel_estimate.py
+++ b/mindspore/_extends/graph_kernel/parallel_estimate.py
@@ -28,10 +28,8 @@ def estimate_ops(json_str: str):
        for gd in graph_descs:
            graphs.append(model.load_composite(gd).graph)
        estimation = model.parallel_estimate(graphs)
        if estimation.fusion_type == "block_fusion" and estimation.gain > 0:
            res = (estimation.block_assign, estimation.gain)
        else:
            res = ([0 for g in graphs], 0)
        res = (estimation.block_assign, estimation.gain,
               estimation.fusion_type, estimation.type_info)
        return res
    except jd.JSONDecodeError:
        logger.error(traceback.format_exc())
--- a/mindspore/ccsrc/backend/kernel_compiler/akg/akg_kernel_json_generator.cc
+++ b/mindspore/ccsrc/backend/kernel_compiler/akg/akg_kernel_json_generator.cc
@@ -557,30 +557,6 @@ bool AkgKernelJsonGenerator::CollectJson(const AnfNodePtr &anf_node, nlohmann::j
  return true;
 }
 void AkgKernelJsonGenerator::SetParallelValueToJson(const std::string &processor,
                                                    const std::map<size_t, size_t> &dim_infos,
                                                    nlohmann::json *sub_fusion_json) {
  if (processor == kProcessorCuda) {
    std::vector<size_t> cnums;
    std::transform(dim_infos.cbegin(), dim_infos.cend(), std::back_insert_iterator(cnums),
                   [](const std::pair<size_t, size_t> &dim) { return dim.second; });
    (*sub_fusion_json)[kJsonKeyCoreNum] = cnums;
  } else {
    MS_LOG(EXCEPTION) << "Parallel fusion not support " << processor << " now.";
  }
 }
 void AkgKernelJsonGenerator::AddParalleFusionJsonInfo(const std::string &processor, nlohmann::json *kernel_json) {
  nlohmann::json parallel_fusion_json;
  parallel_fusion_json[kJsonKeyFusionType] = "block_fusion";
  std::vector<std::vector<std::string>> sgraphs;
  std::transform(sub_graphs_.cbegin(), sub_graphs_.cend(), std::back_insert_iterator(sgraphs),
                 [](const std::pair<int, std::vector<std::string>> &sg) { return sg.second; });
  parallel_fusion_json[kJsonKeySubGraph] = sgraphs;
  SetParallelValueToJson(processor, dim_infos_, &parallel_fusion_json);
  (*kernel_json)[kJsonKeyParallelFusion] = parallel_fusion_json;
 }
 void AkgKernelJsonGenerator::GenStitchJson(const std::vector<AnfNodePtr> &anf_nodes,
                                           std::map<AnfNodePtr, nlohmann::json> *node_json_map,
                                           nlohmann::json *kernel_json) {
@@ -633,12 +609,8 @@ bool AkgKernelJsonGenerator::CollectFusedJson(const std::vector<AnfNodePtr> &anf
  (*kernel_json)[kJsonKeyOutputDesc] =
    CreateOutputsJson(anf_nodes, input_list, output_list, inputs_json, node_json_map);
  auto processor = GetProcessorStr(anf_nodes[0]);
  // Add parallel fusion information.
  if (!sub_graphs_.empty()) {
    AddParalleFusionJsonInfo(processor, kernel_json);
  }
  GenParallelJson(anf_nodes, input_list, output_list, node_json_map, kernel_json);
  size_t hash_id = std::hash<std::string>()(kernel_json->dump());
  kernel_name_ = "Fused_";
@@ -660,7 +632,7 @@ bool AkgKernelJsonGenerator::CollectFusedJson(const std::vector<AnfNodePtr> &anf
  (*kernel_json)[kJsonKeyId] = GetOpCntInc();
  (*kernel_json)[kJsonKeyOp] = kernel_name_;
  (*kernel_json)[kJsonKeyPlatform] = "AKG";
  (*kernel_json)[kJsonKeyProcess] = processor;
  (*kernel_json)[kJsonKeyProcess] = GetProcessorStr(anf_nodes[0]);
  (*kernel_json)[kJsonKeyComposite] = true;
  (*kernel_json)[kJsonKeyCompositeGraph] = fg->ToString() + "." + fg->debug_info()->get_id();
@@ -755,6 +727,70 @@ nlohmann::json AkgKernelJsonGenerator::CreateInputsJson(const std::vector<AnfNod
  return inputs_json;
 }
 void AkgKernelJsonGenerator::GenParallelJson(const std::vector<AnfNodePtr> &anf_nodes,
                                             const std::vector<AnfNodePtr> &input_list,
                                             const std::vector<AnfNodePtr> &output_list,
                                             const std::map<AnfNodePtr, nlohmann::json> &node_json_map,
                                             nlohmann::json *kernel_json) {
  std::map<size_t, std::pair<size_t, std::vector<std::string>>> sub_graphs_info;
  std::string fusion_type;
  std::vector<std::vector<int>> type_info;
  auto output_index = GetOutputIndex(anf_nodes, input_list, output_list);
  for (size_t i = 0; i < output_index.size(); ++i) {
    auto [tmp_output, tmp_output_index] = output_index[i];
    bool found = std::any_of(input_list.cbegin(), input_list.cend(),
                             [&tmp_output](const AnfNodePtr &in) { return tmp_output == in; });
    if (!found) {
      auto tcnode = tmp_output->cast<CNodePtr>();
      if (tcnode == nullptr) {
        return;
      }
      // Get dim info.
      if (AnfAlgo::HasNodeAttr(kAttrParallelDimInfo, tcnode)) {
        auto info = AnfAlgo::GetNodeAttr<std::vector<size_t>>(tcnode, kAttrParallelDimInfo);
        if (info.size() != 2) {
          MS_LOG(EXCEPTION) << "Parallel dim info is invalid!";
        }
        auto tensor_name =
          GetTensorName(node_json_map.at(tmp_output), kJsonKeyOutputDesc, std::make_pair(0, tmp_output_index));
        sub_graphs_info[info[0]].second.push_back(tensor_name);
        sub_graphs_info[info[0]].first = info[1];
      }
      // Get fusion type.
      if (AnfAlgo::HasNodeAttr(kAttrParallelFusionType, tcnode)) {
        fusion_type = AnfAlgo::GetNodeAttr<std::string>(tcnode, kAttrParallelFusionType);
      }
      // Get fusion type info.
      if (AnfAlgo::HasNodeAttr(kAttrParallelTypeInfo, tcnode)) {
        type_info = AnfAlgo::GetNodeAttr<std::vector<std::vector<int>>>(tcnode, kAttrParallelTypeInfo);
      }
    }
  }
  if (!sub_graphs_info.empty()) {
    auto processor = GetProcessorStr(anf_nodes[0]);
    if (processor != kProcessorCuda) {
      MS_LOG(EXCEPTION) << "Parallel fusion not support " << processor << " now.";
    }
    nlohmann::json parallel_fusion_json;
    parallel_fusion_json[kJsonKeyFusionType] = fusion_type;
    parallel_fusion_json[kJsonKeyTypeInfo] = type_info;
    std::vector<std::vector<std::string>> sgraphs;
    std::vector<size_t> cnums;
    std::for_each(sub_graphs_info.cbegin(), sub_graphs_info.cend(),
                  [&sgraphs, &cnums](const std::pair<size_t, std::pair<size_t, std::vector<std::string>>> &sg_info) {
                    sgraphs.push_back(sg_info.second.second);
                    cnums.push_back(sg_info.second.first);
                  });
    parallel_fusion_json[kJsonKeySubGraph] = sgraphs;
    parallel_fusion_json[kJsonKeyCoreNum] = cnums;
    (*kernel_json)[kJsonKeyParallelFusion] = parallel_fusion_json;
  }
 }
 nlohmann::json AkgKernelJsonGenerator::CreateOutputsJson(const std::vector<AnfNodePtr> &anf_nodes,
                                                         const std::vector<AnfNodePtr> &input_list,
                                                         const std::vector<AnfNodePtr> &output_list,
@@ -785,17 +821,6 @@ nlohmann::json AkgKernelJsonGenerator::CreateOutputsJson(const std::vector<AnfNo
        output_shape.push_back(1);
      }
      output_desc_json[kJsonKeyShape] = output_shape;
      if (auto tcnode = tmp_output.first->cast<CNodePtr>();
          tcnode && AnfAlgo::HasNodeAttr(kAttrParallelDimInfo, tcnode)) {
        auto info = AnfAlgo::GetNodeAttr<std::vector<size_t>>(tcnode, kAttrParallelDimInfo);
        if (info.size() != 2) {
          MS_LOG(EXCEPTION) << "Parallel dim info is invalid!";
        }
        sub_graphs_[info[0]].push_back(output_desc_json[kJsonKeyTensorName]);
        if (dim_infos_.find(info[0]) == dim_infos_.end()) {
          dim_infos_[info[0]] = info[1];
        }
      }
    }
    outputs_json.emplace_back(output_desc_json);
  }
--- a/mindspore/ccsrc/backend/kernel_compiler/akg/akg_kernel_json_generator.h
+++ b/mindspore/ccsrc/backend/kernel_compiler/akg/akg_kernel_json_generator.h
@@ -54,6 +54,7 @@ constexpr auto kJsonKeyParallelFusion = "parallel_fusion";
 constexpr auto kJsonKeyFusionType = "fusion_type";
 constexpr auto kJsonKeySubGraph = "sub_graph";
 constexpr auto kJsonKeyCoreNum = "core_num";
 constexpr auto kJsonKeyTypeInfo = "type_info";
 constexpr auto kJsonKeyBufferStitch = "buffer_stitch";
 constexpr auto kJsonKeyStitchOp = "stitch_op";
 constexpr auto kJsonKeyStitchAtomicOp = "stitch_atomic_op";
@@ -89,8 +90,6 @@ class AkgKernelJsonGenerator {
    input_tensor_idx_.clear();
    address_node_map_.clear();
    output_tensor_idx_ = 0;
    sub_graphs_.clear();
    dim_infos_.clear();
  }
  void set_dump_option(DumpOption dump_option) { dump_option_ = dump_option; }
  std::map<std::string, AnfNodePtr> address_node_map() { return address_node_map_; }
@@ -127,9 +126,10 @@ class AkgKernelJsonGenerator {
  std::string GetOutputFormat(const AnfNodePtr &anf_node, size_t index);
  void SaveNodeAddress(const AnfNodePtr &anf_node, nlohmann::json *node_json);
  OpInfoPtr ExtractOpInfo(const AnfNodePtr &anf_node);
  void SetParallelValueToJson(const std::string &processor, const std::map<size_t, size_t> &dim_infos,
                              nlohmann::json *sub_fusion_json);
  void AddParalleFusionJsonInfo(const std::string &processor, nlohmann::json *kernel_json);
  void CollectParallelDimInfo(const AnfNodePtr &anf_node);
  void GenParallelJson(const std::vector<AnfNodePtr> &anf_nodes, const std::vector<AnfNodePtr> &input_list,
                       const std::vector<AnfNodePtr> &output_list,
                       const std::map<AnfNodePtr, nlohmann::json> &node_json_map, nlohmann::json *kernel_json);
  DumpOption dump_option_;
  static int op_cnt_;
@@ -142,8 +142,6 @@ class AkgKernelJsonGenerator {
  std::vector<size_t> input_size_list_;
  std::vector<size_t> output_size_list_;
  std::map<std::string, AnfNodePtr> address_node_map_;
  std::map<size_t, std::vector<std::string>> sub_graphs_;
  std::map<size_t, size_t> dim_infos_;
  bool is_basic_op_{false};
 };
 }  // namespace kernel
--- a/mindspore/ccsrc/backend/kernel_compiler/akg/gpu/akg_gpu_kernel_build.cc
+++ b/mindspore/ccsrc/backend/kernel_compiler/akg/gpu/akg_gpu_kernel_build.cc
@@ -60,8 +60,9 @@ KernelPackPtr AkgGpuKernelBuilder::OpBuild(const AkgKernelJsonGenerator &json_ge
    return cached_kernel_pack;
  }
  (void)alarm(AUTODIFF_COMPILE_OVERTIME);
  auto kernel_json = json_generator.kernel_json_str();
  kernel::SaveJsonInfo(kernel_name, kernel_json, kernel::KernelMeta::GetInstance()->kernel_meta_path());
  (void)alarm(AUTODIFF_COMPILE_OVERTIME);
  auto res = GpuKernelBuildClient::Instance().AkgCompileSingle(kernel_json);
  (void)alarm(0);
  if (!res) {
@@ -70,7 +71,6 @@ KernelPackPtr AkgGpuKernelBuilder::OpBuild(const AkgKernelJsonGenerator &json_ge
  }
  auto new_kernel_pack = InsertCache(kernel_name, processor);
  kernel::SaveJsonInfo(kernel_name, kernel_json, kernel::KernelMeta::GetInstance()->kernel_meta_path());
  if (new_kernel_pack == nullptr) {
    MS_LOG(ERROR) << "Insert to cache failed, kernel_name[" << kernel_name << "], fullname_with_scope["
                  << anf_node->fullname_with_scope() << "].";
--- a/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_cost_model.cc
+++ b/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_cost_model.cc
@@ -47,7 +47,7 @@ int ParallelCostModel::GetNodeCalAmount(const AnfNodePtr &node) {
  return py::cast<int>(ret);
 }
 std::tuple<std::vector<DimInfoPtr>, int> ParallelCostModel::CalFuseInfo(const AnfNodePtrList &nodes) {
 std::tuple<std::vector<DimInfoPtr>, int, FusionInfoPtr> ParallelCostModel::CalFuseInfo(const AnfNodePtrList &nodes) {
  nlohmann::json json_desc;
  std::vector<AnfNodePtrList> graphs;
  std::transform(nodes.begin(), nodes.end(), std::back_inserter(graphs),
@@ -65,7 +65,7 @@ std::tuple<std::vector<DimInfoPtr>, int> ParallelCostModel::CalFuseInfo(const An
  }
  py::tuple ret_tuple = py::cast<py::tuple>(ret);
  if (!py::isinstance<py::tuple>(ret_tuple) || ret_tuple.size() != 2) {
  if (!py::isinstance<py::tuple>(ret_tuple) || ret_tuple.size() != 4) {
    MS_LOG(EXCEPTION) << "Parallel cost model should return a tuple with two elements!";
  }
@@ -75,8 +75,41 @@ std::tuple<std::vector<DimInfoPtr>, int> ParallelCostModel::CalFuseInfo(const An
    dim_infos.push_back(std::make_shared<CommonDimInfo>(py::cast<int>(dim_list[i])));
  }
  int benefit = py::cast<int>(ret_tuple[1]);
  auto fusion_info = ProcessFusionInfo(ret_tuple[2], ret_tuple[3]);
  return std::make_tuple(dim_infos, benefit);
  return std::make_tuple(dim_infos, benefit, fusion_info);
 }
 FusionInfoPtr ParallelCostModel::ProcessFusionInfo(py::object fusion_type, py::object type_info) {
  if (!py::isinstance<py::str>(fusion_type)) {
    MS_LOG(EXCEPTION) << "Fusion type for parallel is invalid!";
  }
  std::string fusion_type_name = py::cast<std::string>(fusion_type);
  FusionInfoPtr fusion_info;
  if (fusion_type_name == "block_fusion") {
    fusion_info = std::make_shared<BlockFusionInfo>();
  } else if (fusion_type_name == "block_pipeline_fusion") {
    if (!py::isinstance<py::list>(type_info)) {
      MS_LOG(EXCEPTION) << "Fusion type info for block pipe fusion type is invalid!";
    }
    std::vector<std::vector<int>> pipeline_ids;
    py::list pipeline_ids_list = py::cast<py::list>(type_info);
    for (size_t i = 0; i < pipeline_ids_list.size(); ++i) {
      std::vector<int> part_ids;
      py::list inner_ids_list = py::cast<py::list>(pipeline_ids_list[i]);
      for (size_t j = 0; j < inner_ids_list.size(); ++j) {
        part_ids.push_back(py::cast<int>(inner_ids_list[j]));
      }
      pipeline_ids.push_back(part_ids);
    }
    fusion_info = std::make_shared<BlockPipelineFusionInfo>(pipeline_ids);
  } else {
    MS_LOG(EXCEPTION) << "Unsupported parallel fusion type: " << fusion_type_name;
  }
  return fusion_info;
 }
 ParallelCostModelPtr ParellelCostModelWarehouse::GetParallelCostModel(const std::string &target) {
--- a/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_cost_model.h
+++ b/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_cost_model.h
@@ -29,6 +29,7 @@
 #include "backend/optimizer/common/optimizer.h"
 #include "backend/optimizer/graph_kernel/parallel_cost_model.h"
 #include "backend/session/kernel_graph.h"
 #include "pipeline/jit/parse/python_adapter.h"
 #include "utils/ms_context.h"
 namespace mindspore {
@@ -55,12 +56,50 @@ class CommonDimInfo : public DimInfo {
 using DimInfoPtr = std::shared_ptr<DimInfo>;
 using CommonDimInfoPtr = std::shared_ptr<CommonDimInfo>;
 class FusionInfo {
 public:
  FusionInfo() = default;
  explicit FusionInfo(const std::string &type) : fusion_type_(type) {}
  ~FusionInfo() = default;
  std::string FusionType() { return fusion_type_; }
  virtual bool ExistTypeInfo() { return false; }
 private:
  std::string fusion_type_{"none"};
 };
 class BlockFusionInfo : public FusionInfo {
 public:
  BlockFusionInfo() : FusionInfo("block_fusion") {}
  ~BlockFusionInfo() = default;
  bool ExistTypeInfo() { return false; }
 };
 class BlockPipelineFusionInfo : public FusionInfo {
 public:
  explicit BlockPipelineFusionInfo(const std::vector<std::vector<int>> &ids)
      : FusionInfo("block_pipeline_fusion"), pipeline_ids_(ids) {}
  ~BlockPipelineFusionInfo() = default;
  bool ExistTypeInfo() { return true; }
  std::vector<std::vector<int>> PipelineIds() { return pipeline_ids_; }
 private:
  std::vector<std::vector<int>> pipeline_ids_;
 };
 using FusionInfoPtr = std::shared_ptr<FusionInfo>;
 using BlockFusionInfoPtr = std::shared_ptr<BlockFusionInfo>;
 using BlockPipelineFusionInfoPtr = std::shared_ptr<BlockPipelineFusionInfo>;
 class ParallelCostModel {
 public:
  ParallelCostModel() {}
  ~ParallelCostModel() {}
  int GetNodeCalAmount(const AnfNodePtr &node);
  std::tuple<std::vector<DimInfoPtr>, int> CalFuseInfo(const AnfNodePtrList &nodes);
  std::tuple<std::vector<DimInfoPtr>, int, FusionInfoPtr> CalFuseInfo(const AnfNodePtrList &nodes);
 private:
  FusionInfoPtr ProcessFusionInfo(py::object fusion_type, py::object type_info);
 };
 using ParallelCostModelPtr = std::shared_ptr<ParallelCostModel>;
--- a/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_fusion.cc
+++ b/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_fusion.cc
@@ -553,7 +553,7 @@ std::tuple<std::vector<bool>, std::vector<ParallelInfo>> ParallelOpFusion::DoSea
      std::tie(other_candidates, std::ignore) =
        GetAvaliableNodesByOffset(i, tc, sorted_candidates_used, candidates, std::set<int>());
      int benefit;
      std::tie(std::ignore, benefit) = cost_model_ptr_->CalFuseInfo(other_candidates);
      std::tie(std::ignore, benefit, std::ignore) = cost_model_ptr_->CalFuseInfo(other_candidates);
      if (benefit > 0) {
        begin = mid + 1;
      } else {
@@ -567,12 +567,12 @@ std::tuple<std::vector<bool>, std::vector<ParallelInfo>> ParallelOpFusion::DoSea
      AnfNodePtrList other_candidates;
      std::tie(other_candidates, std::ignore) =
        GetAvaliableNodesByOffset(i, tc, sorted_candidates_used, candidates, std::set<int>());
      auto [dim_infos, benefit] = cost_model_ptr_->CalFuseInfo(other_candidates);
      auto [dim_infos, benefit, fusion_info] = cost_model_ptr_->CalFuseInfo(other_candidates);
      if (benefit <= 0) {
        MS_LOG(EXCEPTION) << "Internal error in candidate search!";
      }
      max_benefit = benefit;
      best_parallel_info = ParallelInfo(other_candidates, dim_infos);
      best_parallel_info = ParallelInfo(other_candidates, dim_infos, fusion_info);
      i += begin - 1;
    }
@@ -676,10 +676,13 @@ std::vector<ParallelInfo> ParallelOpFusion::SearchFusableParallelCNodes(
 }
 void ParallelOpFusion::SetFusedParallelOpAttrToReturnNode(const ParallelInfo &parallel_info) {
  AnfNodePtr attach_node;
  // Dim info should be attach to each segment's output.
  for (size_t i = 0; i < parallel_info.GetSize(); ++i) {
    const auto &fuse_nodes = parallel_info.nodes();
    std::vector<size_t> info = {i, std::dynamic_pointer_cast<CommonDimInfo>(parallel_info.dims()[i])->dim_info()};
    if (!AnfAlgo::IsGraphKernel(fuse_nodes[i])) {
      attach_node = fuse_nodes[i];
      SetNodeAttrSafely(kAttrParallelDimInfo, MakeValue<std::vector<size_t>>(info), fuse_nodes[i]);
    } else {
      auto node_g = GetValueNode<FuncGraphPtr>((fuse_nodes[i]->cast<CNodePtr>())->input(0));
@@ -689,11 +692,16 @@ void ParallelOpFusion::SetFusedParallelOpAttrToReturnNode(const ParallelInfo &pa
        for (size_t j = 1; j < inputs.size(); ++j) {
          SetNodeAttrSafely(kAttrParallelDimInfo, MakeValue<std::vector<size_t>>(info), inputs[j]);
        }
        attach_node = inputs[1];
      } else {
        attach_node = out_node;
        SetNodeAttrSafely(kAttrParallelDimInfo, MakeValue<std::vector<size_t>>(info), out_node);
      }
    }
  }
  // Fusion info is ok to attach to one of the segments.
  SetFusionInfoAttrToNode(attach_node, parallel_info);
 }
 void PostProcessForNewSubGraphCNode(const AnfNodePtr &node, const std::shared_ptr<session::KernelGraph> &kernel_graph) {
@@ -741,6 +749,17 @@ void PostProcessForNewSubGraphCNode(const AnfNodePtr &node, const std::shared_pt
  }
 }
 void ParallelOpFusion::SetFusionInfoAttrToNode(const AnfNodePtr &node, const ParallelInfo &parallel_info) {
  auto fusion_type = parallel_info.fusion_info()->FusionType();
  AnfAlgo::SetNodeAttr(kAttrParallelFusionType, MakeValue<std::string>(fusion_type), node);
  if (parallel_info.fusion_info()->ExistTypeInfo()) {
    if (auto pipeline_fusion = std::dynamic_pointer_cast<BlockPipelineFusionInfo>(parallel_info.fusion_info())) {
      AnfAlgo::SetNodeAttr(kAttrParallelTypeInfo,
                           MakeValue<std::vector<std::vector<int>>>(pipeline_fusion->PipelineIds()), node);
    }
  }
 }
 bool ParallelOpFusion::CreateParallelOpSubGraphs(const std::vector<ParallelInfo> &parallel_infos,
                                                 const std::shared_ptr<session::KernelGraph> &kernel_graph) {
  bool changed = false;
@@ -755,6 +774,7 @@ bool ParallelOpFusion::CreateParallelOpSubGraphs(const std::vector<ParallelInfo>
    AnfNodePtr sg_node;
    std::tie(sg_node, std::ignore) = FuseNodesToSubGraph(fuse_nodes, kernel_graph, "parallel");
    PostProcessForNewSubGraphCNode(sg_node, kernel_graph);
    AnfAlgo::SetNodeAttr(kAttrCompositeType, MakeValue("parallel_fusion"), sg_node);
    DumpParallelFusionDetail(fuse_nodes, sg_node);
  }
--- a/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_fusion.h
+++ b/mindspore/ccsrc/backend/optimizer/graph_kernel/parallel_fusion.h
@@ -37,10 +37,12 @@ namespace opt {
 class ParallelInfo {
 public:
  ParallelInfo() = default;
  ParallelInfo(const AnfNodePtrList &nodes, const std::vector<DimInfoPtr> &dims) : nodes_(nodes), dims_(dims) {}
  ParallelInfo(const AnfNodePtrList &nodes, const std::vector<DimInfoPtr> &dims, const FusionInfoPtr &fusion_info)
      : nodes_(nodes), dims_(dims), fusion_info_(fusion_info) {}
  ParallelInfo(const ParallelInfo &obj) {
    nodes_ = obj.nodes_;
    dims_ = obj.dims_;
    fusion_info_ = obj.fusion_info_;
  }
  ~ParallelInfo() = default;
@@ -52,10 +54,12 @@ class ParallelInfo {
  }
  const AnfNodePtrList &nodes() const { return nodes_; }
  const std::vector<DimInfoPtr> &dims() const { return dims_; }
  const FusionInfoPtr &fusion_info() const { return fusion_info_; }
 private:
  AnfNodePtrList nodes_;
  std::vector<DimInfoPtr> dims_;
  FusionInfoPtr fusion_info_;
 };
 class ParallelConfig {
@@ -102,6 +106,8 @@ class ParallelOpFusion : public Pass {
  std::vector<ParallelInfo> SearchFusableParallelCNodes(const std::vector<std::vector<AnfNodePtrList>> &groups);
  void SetFusionInfoAttrToNode(const AnfNodePtr &node, const ParallelInfo &parallel_info);
  void SetFusedParallelOpAttrToReturnNode(const ParallelInfo &parallel_info);
  bool CreateParallelOpSubGraphs(const std::vector<ParallelInfo> &parallel_infos,
--- a/mindspore/ccsrc/utils/utils.h
+++ b/mindspore/ccsrc/utils/utils.h
@@ -397,6 +397,9 @@ constexpr auto kAttrIsGrad = "is_grad";
 constexpr auto kAttrRecompute = "recompute";
 constexpr auto kAttrNeedCseAfterRecompute = "need_cse_after_recompute";
 constexpr auto kAttrParallelDimInfo = "parallel_dim_info";
 constexpr auto kAttrParallelFusionType = "parallel_fusion_type";
 constexpr auto kAttrParallelTypeInfo = "parallel_type_info";
 constexpr auto kAttrCompositeType = "composite_type";
 constexpr auto kAttrStitch = "stitch";
 constexpr auto kAttrTopoSortRhsFirst = "topo_sort_rhs_first";
 constexpr auto kAttrSwitchLayer = "switch_layer";