gemmlowp/internal/pack.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// pack.h: packing blocks of the LHS and RHS into the data layout
*5f39d1b3SJooyung Han// that is expected by compute.h and eventually by kernels.
*5f39d1b3SJooyung Han// Because this data layout depends on the kernel format, code here
*5f39d1b3SJooyung Han// is templated in KernelLhsFormat/KernelRhsFormat.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Readers note: an important theme around here is that we try hard
*5f39d1b3SJooyung Han// to handle both Lhs and Rhs with a single piece of code. We indifferently
*5f39d1b3SJooyung Han// refer to the Lhs and Rhs as a 'Side'. Instead of addressing matrices
*5f39d1b3SJooyung Han// by (row, column) indices, we address them by (width, depth), as explained
*5f39d1b3SJooyung Han// in kernel.h. This allows us to handle both Lhs and Rhs on an equal footing,
*5f39d1b3SJooyung Han// at once.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_INTERNAL_PACK_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_INTERNAL_PACK_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <cstring>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "allocator.h"
*5f39d1b3SJooyung Han#include "block_params.h"
*5f39d1b3SJooyung Han#include "common.h"
*5f39d1b3SJooyung Han#include "kernel.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// A PackedSideBlock instance is a packed block of either the LHS or RHS
*5f39d1b3SJooyung Han// (whence the generic 'Side' name).
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// 'Packed' means that it is laid out in the storage order that
*5f39d1b3SJooyung Han// is expected by the specified kernel format. From a block of the input
*5f39d1b3SJooyung Han// LHS or RHS matrix, one obtains a PackedSideBlock by calling PackLhs()
*5f39d1b3SJooyung Han// or PackRhs().
*5f39d1b3SJooyung Hantemplate <typename tKernelSideFormat>
*5f39d1b3SJooyung Hanclass PackedSideBlock {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  typedef tKernelSideFormat KernelSideFormat;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  PackedSideBlock(Side side, Allocator* allocator,
*5f39d1b3SJooyung Han                  const BlockParams& block_params)
*5f39d1b3SJooyung Han      : allocator_(allocator), pos_(0) {
*5f39d1b3SJooyung Han    GetSideBlockParams(side, &params_, block_params);
*5f39d1b3SJooyung Han    data_handle_ =
*5f39d1b3SJooyung Han        allocator_->Reserve<std::uint8_t>(params_.l2_width * params_.l2_depth);
*5f39d1b3SJooyung Han    sums_of_each_slice_handle_ =
*5f39d1b3SJooyung Han        allocator_->Reserve<std::int32_t>(params_.l2_width);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  ~PackedSideBlock() {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void seek_run(int start_width, int start_depth) const {
*5f39d1b3SJooyung Han    int kernel_run_depth =
*5f39d1b3SJooyung Han        std::min<int>(params_.l1_depth, params_.l2_depth - start_depth);
*5f39d1b3SJooyung Han    pos_ = params_.l2_width * start_depth + start_width * kernel_run_depth;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void seek_next_cell() const { pos_ += KernelSideFormat::Cell::kSize; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void seek_forward_n_cells(int n) const {
*5f39d1b3SJooyung Han    pos_ += n * KernelSideFormat::Cell::kSize;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // TODO(suharshs): The datatype can now be int8 as well. We could introduce a
*5f39d1b3SJooyung Han  // new int8 current_data impl as well. This change would propagate to all pack
*5f39d1b3SJooyung Han  // impls and the Kernel::Run API, which all assume uint8. For now we leave
*5f39d1b3SJooyung Han  // this as-is pending future refactor.
*5f39d1b3SJooyung Han  const std::uint8_t* current_data() const {
*5f39d1b3SJooyung Han    return allocator_->GetPointer<std::uint8_t>(data_handle_) + pos_;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::uint8_t* current_data() {
*5f39d1b3SJooyung Han    return allocator_->GetPointer<std::uint8_t>(data_handle_) + pos_;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::int32_t* sums_of_each_slice() {
*5f39d1b3SJooyung Han    return allocator_->GetPointer<std::int32_t>(sums_of_each_slice_handle_);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const std::int32_t* sums_of_each_slice() const {
*5f39d1b3SJooyung Han    return allocator_->GetPointer<const std::int32_t>(
*5f39d1b3SJooyung Han        sums_of_each_slice_handle_);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const SideBlockParams& params() const { return params_; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han private:
*5f39d1b3SJooyung Han  // The block size parameters that this PackedSizeBlock follows.
*5f39d1b3SJooyung Han  // The L2 parameters determine its overall size, while the L1 parameters,
*5f39d1b3SJooyung Han  // together with the kernel format template parameter, determine
*5f39d1b3SJooyung Han  // the fine details of the storage/traversal order.
*5f39d1b3SJooyung Han  SideBlockParams params_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Pointer to the allocator provided by the caller. Not owned.
*5f39d1b3SJooyung Han  // The Allocator is assumed to outlive the PackedSideBlock.
*5f39d1b3SJooyung Han  Allocator* const allocator_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Handle on the buffer backing this packed block. Owned.
*5f39d1b3SJooyung Han  Allocator::Handle data_handle_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Handle on the additional buffer backing the vector of sums of slices
*5f39d1b3SJooyung Han  // associated with this block. Owned.
*5f39d1b3SJooyung Han  Allocator::Handle sums_of_each_slice_handle_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // pos_ is the current position in the buffer, which we access
*5f39d1b3SJooyung Han  // sequentially, like a file.
*5f39d1b3SJooyung Han  // The idea is that we pack data in the same order as it is
*5f39d1b3SJooyung Han  // going to be traversed during the computation, which for
*5f39d1b3SJooyung Han  // cache-friendliness reasons is complicated to random-access,
*5f39d1b3SJooyung Han  // as the offsets calculations would be intricate. So we
*5f39d1b3SJooyung Han  // give up random-access addressing, and instead content ourselves
*5f39d1b3SJooyung Han  // with sequential access.
*5f39d1b3SJooyung Han  //
*5f39d1b3SJooyung Han  // pos_ is mutable because during the computation we will want to
*5f39d1b3SJooyung Han  // be able to iterate on the data in a const PackedSideBlock.
*5f39d1b3SJooyung Han  mutable int pos_;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// WidthMajor and DepthMajor are custom phrases modelled after the
*5f39d1b3SJooyung Han// standard terminology 'row-major' and 'column-major'. Their meaning
*5f39d1b3SJooyung Han// should be transparent once one has read the explanation in kernel.h:
*5f39d1b3SJooyung Han// for example, in the Lhs, the 'width' dimension is the rows dimension,
*5f39d1b3SJooyung Han// so there WidthMajor means RowMajor, while in the Rhs it is the opposite.
*5f39d1b3SJooyung Han// Another way to put it: WidthMajor means that contiguous storage is used
*5f39d1b3SJooyung Han// for entries having the same 'width' index.
*5f39d1b3SJooyung Hanenum class SideMapOrder { WidthMajor, DepthMajor };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Similar to MatrixMap from map.h, but in terms of width/depth instead of
*5f39d1b3SJooyung Han// rows/columns. Used to address blocks of the input LHS/RHS matrices when
*5f39d1b3SJooyung Han// packing them.
*5f39d1b3SJooyung Hantemplate <typename tScalar, SideMapOrder tOrder>
*5f39d1b3SJooyung Hanclass SideMap {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  typedef tScalar Scalar;
*5f39d1b3SJooyung Han  static constexpr SideMapOrder kOrder = tOrder;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  SideMap(Scalar* data, int width, int depth, int stride)
*5f39d1b3SJooyung Han      : data_(data), width_(width), depth_(depth), stride_(stride) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  SideMap(Scalar* data, int width, int depth)
*5f39d1b3SJooyung Han      : data_(data), width_(width), depth_(depth) {
*5f39d1b3SJooyung Han    stride_ = kOrder == SideMapOrder::WidthMajor ? depth_ : width_;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  SideMap(const SideMap& other)
*5f39d1b3SJooyung Han      : data_(other.data_),
*5f39d1b3SJooyung Han        width_(other.width_),
*5f39d1b3SJooyung Han        depth_(other.depth_),
*5f39d1b3SJooyung Han        stride_(other.stride_) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  int width() const { return width_; }
*5f39d1b3SJooyung Han  int depth() const { return depth_; }
*5f39d1b3SJooyung Han  int stride() const { return stride_; }
*5f39d1b3SJooyung Han  int width_stride() const {
*5f39d1b3SJooyung Han    return kOrder == SideMapOrder::DepthMajor ? 1 : stride_;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  int depth_stride() const {
*5f39d1b3SJooyung Han    return kOrder == SideMapOrder::WidthMajor ? 1 : stride_;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  Scalar* data() const { return data_; }
*5f39d1b3SJooyung Han  Scalar* data(int w, int d) const {
*5f39d1b3SJooyung Han    return data_ + w * width_stride() + d * depth_stride();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  Scalar operator()(int w, int d) const { return *data(w, d); }
*5f39d1b3SJooyung Han  Scalar& operator()(int w, int d) { return *data(w, d); }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  SideMap block(int start_width, int start_depth, int block_width,
*5f39d1b3SJooyung Han                int block_depth) const {
*5f39d1b3SJooyung Han    assert(start_width >= 0);
*5f39d1b3SJooyung Han    assert(start_width + block_width <= width_);
*5f39d1b3SJooyung Han    assert(start_depth >= 0);
*5f39d1b3SJooyung Han    assert(start_depth + block_depth <= depth_);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    return SideMap(data(start_width, start_depth), block_width, block_depth,
*5f39d1b3SJooyung Han                   stride_);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han private:
*5f39d1b3SJooyung Han  Scalar* data_;  // not owned.
*5f39d1b3SJooyung Han  int width_, depth_, stride_;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// A PackingRegisterBlock is a small fixed-size block of a matrix being
*5f39d1b3SJooyung Han// packed. This class is the generic non-optimized implementation,
*5f39d1b3SJooyung Han// it is inherited by the generic implementation of PackingRegisterBlock,
*5f39d1b3SJooyung Han// which may be overriden by template specialization. Overriding it is how
*5f39d1b3SJooyung Han// one may provide optimized packing code paths.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The packing of a block proceeds in two steps:
*5f39d1b3SJooyung Han//   1. Ensuring that we have a complete block of source data, i.e. a block of
*5f39d1b3SJooyung Han//      the compile-time prescribed size. This is where we handle unaligned
*5f39d1b3SJooyung Han//      boundaries: if we don't have a complete block of source data, then
*5f39d1b3SJooyung Han//      we copy and zero-extend it into a local temporary (complete_src_),
*5f39d1b3SJooyung Han//      see MakeCompleteSrc. In the generic case, we do have a complete block,
*5f39d1b3SJooyung Han//      so we just use it in-place, see UseCompleteSrcInPlace.
*5f39d1b3SJooyung Han//   2. Packing a complete block into the destination, see Pack. This is the
*5f39d1b3SJooyung Han//      most critical part, so it's convenient that unaligned boundaries have
*5f39d1b3SJooyung Han//      already been handled in step 1.
*5f39d1b3SJooyung Hantemplate <typename SrcMapType, typename PackedSideBlock>
*5f39d1b3SJooyung Hanclass PackingRegisterBlockBase {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  typedef typename PackedSideBlock::KernelSideFormat KernelSideFormat;
*5f39d1b3SJooyung Han  typedef typename KernelSideFormat::Cell CellFormat;
*5f39d1b3SJooyung Han  typedef typename KernelSideFormat::InputScalar KernelInputScalar;
*5f39d1b3SJooyung Han  typedef typename KernelSideFormat::Scalar KernelScalar;
*5f39d1b3SJooyung Han  static constexpr int kCells = KernelSideFormat::kCells;
*5f39d1b3SJooyung Han  static constexpr int kCellWidth = CellFormat::kWidth;
*5f39d1b3SJooyung Han  static constexpr int kKernelWidth = CellFormat::kWidth * kCells;
*5f39d1b3SJooyung Han  static constexpr int kCellDepth = CellFormat::kDepth;
*5f39d1b3SJooyung Han  static constexpr int kCellSize = CellFormat::kSize;
*5f39d1b3SJooyung Han  static constexpr SideMapOrder kSrcOrder = SrcMapType::kOrder;
*5f39d1b3SJooyung Han  static constexpr int kZeroPointInputValue =
*5f39d1b3SJooyung Han      ZeroPointInputValue<KernelInputScalar, KernelScalar>::kValue;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  PackingRegisterBlockBase() : complete_src_(nullptr, 0, 0, 0) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han protected:
*5f39d1b3SJooyung Han  // The source data that's ready for packing. May point to
*5f39d1b3SJooyung Han  // in-place actual source data if it's already a complete block,
*5f39d1b3SJooyung Han  // (see UseCompleteSrcInPlace)
*5f39d1b3SJooyung Han  // or to the local buf_ below into which we copy incomplete blocks
*5f39d1b3SJooyung Han  // (see MakeCompleteSrc)
*5f39d1b3SJooyung Han  SrcMapType complete_src_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Temporary buffer for loading incomplete blocks to,
*5f39d1b3SJooyung Han  // in the source storage order
*5f39d1b3SJooyung Han  std::uint8_t buf_[kKernelWidth * kRegisterSize];
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  // Selects a block if in-place source data that's already a complete block.
*5f39d1b3SJooyung Han  void UseCompleteSrcInPlace(const SrcMapType& src) { complete_src_ = src; }
*5f39d1b3SJooyung Han  // Copies an incomplete block of source data into a local temporary
*5f39d1b3SJooyung Han  // complete block by zero-extending it.
*5f39d1b3SJooyung Han  void MakeCompleteSrc(const SrcMapType& src) {
*5f39d1b3SJooyung Han    memset(buf_, kZeroPointInputValue, kKernelWidth * kRegisterSize);
*5f39d1b3SJooyung Han    if (kSrcOrder == SideMapOrder::WidthMajor) {
*5f39d1b3SJooyung Han      for (int w = 0; w < src.width(); w++) {
*5f39d1b3SJooyung Han        memcpy(buf_ + w * kRegisterSize, src.data(w, 0), src.depth());
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    } else {
*5f39d1b3SJooyung Han      assert(kSrcOrder == SideMapOrder::DepthMajor);
*5f39d1b3SJooyung Han      for (int d = 0; d < src.depth(); d++) {
*5f39d1b3SJooyung Han        memcpy(buf_ + d * kKernelWidth, src.data(0, d), src.width());
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // Since the KernelInputScalar type may not be uint8, we need to cast buf_.
*5f39d1b3SJooyung Han    complete_src_ = SrcMapType(reinterpret_cast<KernelInputScalar*>(buf_),
*5f39d1b3SJooyung Han                               kKernelWidth, kRegisterSize);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  // Packs a complete block into the destination. This is the most
*5f39d1b3SJooyung Han  // critical part and the part that we most typically want to
*5f39d1b3SJooyung Han  // override in architecture-specific optimized specializations.
*5f39d1b3SJooyung Han  void Pack(PackedSideBlock* dst, int start_width) {
*5f39d1b3SJooyung Han    std::uint8_t* dst_ptr = dst->current_data();
*5f39d1b3SJooyung Han    for (int cell_start_depth = 0; cell_start_depth < kRegisterSize;
*5f39d1b3SJooyung Han         cell_start_depth += kCellDepth) {
*5f39d1b3SJooyung Han      for (int cell_start_width = 0; cell_start_width < kKernelWidth;
*5f39d1b3SJooyung Han           cell_start_width += kCellWidth) {
*5f39d1b3SJooyung Han        std::int32_t* cell_sums_of_each_slice_ptr =
*5f39d1b3SJooyung Han            dst->sums_of_each_slice() + start_width + cell_start_width;
*5f39d1b3SJooyung Han        const SideMap<const std::uint8_t, kSrcOrder> src_cell_map(
*5f39d1b3SJooyung Han            complete_src_.block(cell_start_width, cell_start_depth, kCellWidth,
*5f39d1b3SJooyung Han                                kCellDepth));
*5f39d1b3SJooyung Han        for (int w = 0; w < kCellWidth; w++) {
*5f39d1b3SJooyung Han          std::int32_t sum = 0;
*5f39d1b3SJooyung Han          for (int d = 0; d < kCellDepth; d++) {
*5f39d1b3SJooyung Han            const std::uint8_t src_val = src_cell_map(w, d);
*5f39d1b3SJooyung Han            const std::int16_t kernel_val_unwrapped =
*5f39d1b3SJooyung Han                src_val - kZeroPointInputValue;
*5f39d1b3SJooyung Han            const std::uint8_t kernel_val_uint8 = kernel_val_unwrapped;
*5f39d1b3SJooyung Han            dst_ptr[OffsetIntoCell<CellFormat>(w, d)] = kernel_val_uint8;
*5f39d1b3SJooyung Han            sum += kernel_val_unwrapped;
*5f39d1b3SJooyung Han          }
*5f39d1b3SJooyung Han          cell_sums_of_each_slice_ptr[w] += sum;
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        dst_ptr += kCellSize;
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    dst->seek_forward_n_cells(kCells * kRegisterSize / kCellDepth);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename SrcMapType, typename PackedSideBlock>
*5f39d1b3SJooyung Hanclass PackingRegisterBlock
*5f39d1b3SJooyung Han    : public PackingRegisterBlockBase<SrcMapType, PackedSideBlock> {};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Large-scale implementation of packing.
*5f39d1b3SJooyung Hantemplate <typename SrcMapType, typename PackedSideBlock>
*5f39d1b3SJooyung Hanclass PackSideBlockImpl {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  typedef typename PackedSideBlock::KernelSideFormat KernelSideFormat;
*5f39d1b3SJooyung Han  typedef typename KernelSideFormat::Cell CellFormat;
*5f39d1b3SJooyung Han  static constexpr int kCells = KernelSideFormat::kCells;
*5f39d1b3SJooyung Han  static constexpr int kCellWidth = CellFormat::kWidth;
*5f39d1b3SJooyung Han  static constexpr int kKernelWidth = CellFormat::kWidth * kCells;
*5f39d1b3SJooyung Han  static constexpr int kCellDepth = CellFormat::kDepth;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef PackingRegisterBlock<SrcMapType, PackedSideBlock>
*5f39d1b3SJooyung Han      PackingRegisterBlockType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  PackSideBlockImpl(PackedSideBlock* packed_side_block,
*5f39d1b3SJooyung Han                    const SrcMapType& src_map)
*5f39d1b3SJooyung Han      : packed_side_block_(packed_side_block), src_map_(src_map) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  PackedSideBlock* packed_side_block() const { return packed_side_block_; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const SrcMapType& src_map() const { return src_map_; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // The public entry point to pack a block.
*5f39d1b3SJooyung Han  void PackL2() {
*5f39d1b3SJooyung Han    memset(packed_side_block_->sums_of_each_slice(), 0,
*5f39d1b3SJooyung Han           sizeof(std::int32_t) * packed_side_block_->params().l2_width);
*5f39d1b3SJooyung Han    for (int d = 0; d < src_map_.depth();
*5f39d1b3SJooyung Han         d += packed_side_block_->params().l1_depth) {
*5f39d1b3SJooyung Han      int ds = std::min<int>(packed_side_block_->params().l1_depth,
*5f39d1b3SJooyung Han                             src_map_.depth() - d);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      for (int w = 0; w < src_map_.width();
*5f39d1b3SJooyung Han           w += packed_side_block_->params().l1_width) {
*5f39d1b3SJooyung Han        int ws = std::min<int>(packed_side_block_->params().l1_width,
*5f39d1b3SJooyung Han                               src_map_.width() - w);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        PrefetchL1(w, ws, d, ds);
*5f39d1b3SJooyung Han        PackL1(w, ws, d, ds);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han protected:
*5f39d1b3SJooyung Han  // The intermediate-level loops, between PackL2 and PackRun.
*5f39d1b3SJooyung Han  void PackL1(int start_width, int width, int start_depth, int depth) {
*5f39d1b3SJooyung Han    for (int w = 0; w < width; w += kKernelWidth) {
*5f39d1b3SJooyung Han      int ws = std::min(+kKernelWidth, width - w);
*5f39d1b3SJooyung Han      packed_side_block_->seek_run(start_width + w, start_depth);
*5f39d1b3SJooyung Han      PackRun(start_width + w, ws, start_depth, depth);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Prefetches the data that will be read by PackL1.
*5f39d1b3SJooyung Han  void PrefetchL1(int start_width, int width, int start_depth, int depth) {
*5f39d1b3SJooyung Han    if (SrcMapType::kOrder == SideMapOrder::WidthMajor) {
*5f39d1b3SJooyung Han      for (int d = 0; d < depth; d += kDefaultCacheLineSize) {
*5f39d1b3SJooyung Han        for (int w = 0; w < width; w += 1) {
*5f39d1b3SJooyung Han          Prefetch(src_map_.data(start_width + w, start_depth + d));
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    } else {
*5f39d1b3SJooyung Han      for (int d = 0; d < depth; d++) {
*5f39d1b3SJooyung Han        for (int w = 0; w < width; w += kDefaultCacheLineSize) {
*5f39d1b3SJooyung Han          Prefetch(src_map_.data(start_width + w, start_depth + d));
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // PackRun packs only a run i.e. is the inner loop in the depth dimension.
*5f39d1b3SJooyung Han  void PackRun(int start_width, int width, int start_depth, int depth) {
*5f39d1b3SJooyung Han    PackingRegisterBlockType b;
*5f39d1b3SJooyung Han    if (width == kKernelWidth) {
*5f39d1b3SJooyung Han      const int register_aligned_depth = RoundDown<kRegisterSize>(depth);
*5f39d1b3SJooyung Han      if (register_aligned_depth) {
*5f39d1b3SJooyung Han        for (int d = 0; d < register_aligned_depth; d += kRegisterSize) {
*5f39d1b3SJooyung Han          b.UseCompleteSrcInPlace(src_map_.block(start_width, start_depth + d,
*5f39d1b3SJooyung Han                                                 width, kRegisterSize));
*5f39d1b3SJooyung Han          b.Pack(packed_side_block_, start_width);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      if (register_aligned_depth < depth) {
*5f39d1b3SJooyung Han        b.MakeCompleteSrc(
*5f39d1b3SJooyung Han            src_map_.block(start_width, start_depth + register_aligned_depth,
*5f39d1b3SJooyung Han                           width, depth - register_aligned_depth));
*5f39d1b3SJooyung Han        b.Pack(packed_side_block_, start_width);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    } else {
*5f39d1b3SJooyung Han      assert(width < kKernelWidth);
*5f39d1b3SJooyung Han      for (int d = 0; d < depth; d += kRegisterSize) {
*5f39d1b3SJooyung Han        const int ds = std::min(+kRegisterSize, depth - d);
*5f39d1b3SJooyung Han        b.MakeCompleteSrc(
*5f39d1b3SJooyung Han            src_map_.block(start_width, start_depth + d, width, ds));
*5f39d1b3SJooyung Han        b.Pack(packed_side_block_, start_width);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // The PackedSideBlock being packed, i.e. the 'destination'.
*5f39d1b3SJooyung Han  PackedSideBlock* const packed_side_block_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // A map on the block of the original matrix block being packed,
*5f39d1b3SJooyung Han  // i.e. the 'source'.
*5f39d1b3SJooyung Han  const SrcMapType& src_map_;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Packs a block of the input LHS matrix, into a PackedSideBlock.
*5f39d1b3SJooyung Hantemplate <typename PackedSideBlock, typename MatrixMapType>
*5f39d1b3SJooyung Hanvoid PackLhs(PackedSideBlock* dst, const MatrixMapType& src) {
*5f39d1b3SJooyung Han  ScopedProfilingLabel label("pack LHS");
*5f39d1b3SJooyung Han  static const SideMapOrder kSideMapOrder =
*5f39d1b3SJooyung Han      MatrixMapType::kOrder == MapOrder::RowMajor ? SideMapOrder::WidthMajor
*5f39d1b3SJooyung Han                                                  : SideMapOrder::DepthMajor;
*5f39d1b3SJooyung Han  typedef typename MatrixMapType::Scalar Scalar;
*5f39d1b3SJooyung Han  typedef SideMap<Scalar, kSideMapOrder> SideMapType;
*5f39d1b3SJooyung Han  SideMapType src_side_map(src.data(), src.rows(), src.cols(), src.stride());
*5f39d1b3SJooyung Han  typedef PackSideBlockImpl<SideMapType, PackedSideBlock> ImplType;
*5f39d1b3SJooyung Han  ImplType impl(dst, src_side_map);
*5f39d1b3SJooyung Han  impl.PackL2();
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Packs a block of the input RHS matrix, into a PackedSideBlock.
*5f39d1b3SJooyung Hantemplate <typename PackedSideBlock, typename MatrixMapType>
*5f39d1b3SJooyung Hanvoid PackRhs(PackedSideBlock* dst, const MatrixMapType& src) {
*5f39d1b3SJooyung Han  ScopedProfilingLabel label("pack RHS");
*5f39d1b3SJooyung Han  static const SideMapOrder kSideMapOrder =
*5f39d1b3SJooyung Han      MatrixMapType::kOrder == MapOrder::ColMajor ? SideMapOrder::WidthMajor
*5f39d1b3SJooyung Han                                                  : SideMapOrder::DepthMajor;
*5f39d1b3SJooyung Han  typedef typename MatrixMapType::Scalar Scalar;
*5f39d1b3SJooyung Han  typedef SideMap<Scalar, kSideMapOrder> SideMapType;
*5f39d1b3SJooyung Han  SideMapType src_side_map(src.data(), src.cols(), src.rows(), src.stride());
*5f39d1b3SJooyung Han  typedef PackSideBlockImpl<SideMapType, PackedSideBlock> ImplType;
*5f39d1b3SJooyung Han  ImplType impl(dst, src_side_map);
*5f39d1b3SJooyung Han  impl.PackL2();
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Han#include "pack_neon.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_SSE4)
*5f39d1b3SJooyung Han#include "pack_sse.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_AVX2)
*5f39d1b3SJooyung Han#include "pack_avx.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_MSA)
*5f39d1b3SJooyung Han#include "pack_msa.h"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_INTERNAL_PACK_H_