gemmlowp/test/benchmark.cc

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __APPLE__
*5f39d1b3SJooyung Han#include <sys/time.h>
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <cstdint>
*5f39d1b3SJooyung Han#include <cstdlib>
*5f39d1b3SJooyung Han#include <ctime>
*5f39d1b3SJooyung Han#include <iostream>
*5f39d1b3SJooyung Han#include <map>
*5f39d1b3SJooyung Han#include <vector>
*5f39d1b3SJooyung Han#ifdef __APPLE__
*5f39d1b3SJooyung Han#include <TargetConditionals.h>
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "test.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_TEST_BIT_DEPTH_PARAMS
*5f39d1b3SJooyung Han#define GEMMLOWP_TEST_BIT_DEPTH_PARAMS DefaultL8R8BitDepthParams
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__arm__) && !defined(GEMMLOWP_NEON)
*5f39d1b3SJooyung Han#warning "Building without NEON support on ARM, check your compiler setup!"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__mips) && !defined(GEMMLOWP_MSA)
*5f39d1b3SJooyung Han#warning "Building without MSA support on MIPS, check your compiler setup!"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__AVX2__) && !defined(GEMMLOWP_AVX2)
*5f39d1b3SJooyung Han#warning \
*5f39d1b3SJooyung Han    "Building without AVX2 support on AVX2 enabled machine, check your compiler setup!"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__SSE4_2__) && !defined(GEMMLOWP_AVX2) && !defined(GEMMLOWP_SSE4)
*5f39d1b3SJooyung Han#warning \
*5f39d1b3SJooyung Han    "Building without SSE4.2 support on SSE4.2 enabled machine, check your compiler setup!"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanconst double min_accurate_duration = 1e-1;
*5f39d1b3SJooyung Hanconst std::size_t min_working_set_size = 16 * 1024 * 1024;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstruct gemm_t {
*5f39d1b3SJooyung Han  int rows, depth, cols;
*5f39d1b3SJooyung Han  gemm_t() : rows(0), depth(0), cols(0) {}
*5f39d1b3SJooyung Han  gemm_t(int r, int d, int c) : rows(r), depth(d), cols(c) {}
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanbool operator<(const gemm_t& a, const gemm_t& b) {
*5f39d1b3SJooyung Han  return a.rows < b.rows ||
*5f39d1b3SJooyung Han         (a.rows <= b.rows &&
*5f39d1b3SJooyung Han          (a.depth < b.depth || (a.depth <= b.depth && (a.cols < b.cols))));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename LhsType, typename RhsType, typename ResultType>
*5f39d1b3SJooyung Handouble time_for_gemms(GemmContext* context, const std::vector<gemm_t>& gemms) {
*5f39d1b3SJooyung Han  typedef std::uint8_t Scalar;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // set up the matrix pool
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::size_t combined_gemm_sizes = 0;
*5f39d1b3SJooyung Han  for (auto gemm : gemms) {
*5f39d1b3SJooyung Han    int rows = gemm.rows;
*5f39d1b3SJooyung Han    int depth = gemm.depth;
*5f39d1b3SJooyung Han    int cols = gemm.cols;
*5f39d1b3SJooyung Han    combined_gemm_sizes +=
*5f39d1b3SJooyung Han        sizeof(Scalar) * (rows * depth + depth * cols + rows * cols);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const std::size_t pool_size = 1 + min_working_set_size / combined_gemm_sizes;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<LhsType> lhs(pool_size * gemms.size());
*5f39d1b3SJooyung Han  std::vector<RhsType> rhs(pool_size * gemms.size());
*5f39d1b3SJooyung Han  std::vector<ResultType> result(pool_size * gemms.size());
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  for (std::size_t i = 0; i < pool_size; i++) {
*5f39d1b3SJooyung Han    for (std::size_t j = 0; j < gemms.size(); j++) {
*5f39d1b3SJooyung Han      int k = i * gemms.size() + j;
*5f39d1b3SJooyung Han      lhs[k].Resize(gemms[j].rows, gemms[j].depth);
*5f39d1b3SJooyung Han      MakeConstant(&lhs[k], 0);
*5f39d1b3SJooyung Han      rhs[k].Resize(gemms[j].depth, gemms[j].cols);
*5f39d1b3SJooyung Han      MakeConstant(&rhs[k], 0);
*5f39d1b3SJooyung Han      result[k].Resize(gemms[j].rows, gemms[j].cols);
*5f39d1b3SJooyung Han      MakeConstant(&result[k], 0);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // main benchmark loop
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  int iters_at_a_time = 1;
*5f39d1b3SJooyung Han  float time_per_iter = 0.0f;
*5f39d1b3SJooyung Han  std::size_t pool_index = 0;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  while (true) {
*5f39d1b3SJooyung Han    double starttime = real_time_in_seconds();
*5f39d1b3SJooyung Han    for (int i = 0; i < iters_at_a_time; i++) {
*5f39d1b3SJooyung Han      for (size_t j = 0; j < gemms.size(); j++) {
*5f39d1b3SJooyung Han        size_t k = pool_index * gemms.size() + j;
*5f39d1b3SJooyung Han        Gemm<std::uint8_t, GEMMLOWP_TEST_BIT_DEPTH_PARAMS>(
*5f39d1b3SJooyung Han            context, lhs[k].const_map(), rhs[k].const_map(), &result[k].map(),
*5f39d1b3SJooyung Han            -75, -91, 74980, 123, 20);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      pool_index++;
*5f39d1b3SJooyung Han      if (pool_index == pool_size) {
*5f39d1b3SJooyung Han        pool_index = 0;
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    double endtime = real_time_in_seconds();
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    const float timing = static_cast<float>(endtime - starttime);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    if (timing >= min_accurate_duration) {
*5f39d1b3SJooyung Han      time_per_iter = timing / iters_at_a_time;
*5f39d1b3SJooyung Han      break;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    iters_at_a_time *= 2;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  return time_per_iter;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename LhsType, typename RhsType, typename ResultType>
*5f39d1b3SJooyung Handouble gflops_for_gemms(GemmContext* context,
*5f39d1b3SJooyung Han                        const std::vector<gemm_t>& gemms) {
*5f39d1b3SJooyung Han  const double time_per_iter =
*5f39d1b3SJooyung Han      time_for_gemms<LhsType, RhsType, ResultType>(context, gemms);
*5f39d1b3SJooyung Han  double ops = 0;
*5f39d1b3SJooyung Han  for (auto gemm : gemms) {
*5f39d1b3SJooyung Han    ops += 2.0 * gemm.rows * gemm.depth * gemm.cols;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  return 1e-9 * ops / time_per_iter;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid benchmark(GemmContext* context) {
*5f39d1b3SJooyung Han  std::map<gemm_t, std::vector<double>> benchmark_results;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<gemm_t> benchmark_gemms;
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(10, 10, 10);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(20, 20, 20);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(30, 30, 30);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(40, 40, 40);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(50, 50, 50);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(60, 60, 60);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(64, 256, 147);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(100, 100, 1);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(100, 100, 100);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(100, 1000, 100);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(1000, 1000, 1);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(1000, 1000, 10);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(1000, 1000, 100);
*5f39d1b3SJooyung Han  benchmark_gemms.emplace_back(1000, 1000, 1000);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const int repeat = 2;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef Matrix<std::uint8_t, MapOrder::RowMajor> LhsType;
*5f39d1b3SJooyung Han  typedef Matrix<std::uint8_t, MapOrder::ColMajor> RhsType;
*5f39d1b3SJooyung Han  typedef Matrix<std::uint8_t, MapOrder::ColMajor> ResultType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_TEST_PROFILE
*5f39d1b3SJooyung Han  gemmlowp::RegisterCurrentThreadForProfiling();
*5f39d1b3SJooyung Han  gemmlowp::StartProfiling();
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // We don't record the first repetition, it's just warm-up.
*5f39d1b3SJooyung Han  for (int r = 0; r < repeat + 1; r++) {
*5f39d1b3SJooyung Han    std::cout << "repetition " << r + 1 << "/" << repeat + 1 << "...\r"
*5f39d1b3SJooyung Han              << std::flush;
*5f39d1b3SJooyung Han    for (auto gemm : benchmark_gemms) {
*5f39d1b3SJooyung Han      double gflops = 0;
*5f39d1b3SJooyung Han      std::vector<gemm_t> unique_gemm;
*5f39d1b3SJooyung Han      unique_gemm.push_back(gemm);
*5f39d1b3SJooyung Han      gflops =
*5f39d1b3SJooyung Han          gflops_for_gemms<LhsType, RhsType, ResultType>(context, unique_gemm);
*5f39d1b3SJooyung Han      if (r > 0) {
*5f39d1b3SJooyung Han        benchmark_results[gemm].emplace_back(gflops);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_TEST_PROFILE
*5f39d1b3SJooyung Han  gemmlowp::FinishProfiling();
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::cout << "                                                \r"
*5f39d1b3SJooyung Han            << std::flush;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::cout.precision(4);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  for (auto b : benchmark_results) {
*5f39d1b3SJooyung Han    sort(b.second.begin(), b.second.end());
*5f39d1b3SJooyung Han    std::cout << b.first.rows << "x" << b.first.depth << "x" << b.first.cols
*5f39d1b3SJooyung Han              << " : " << b.second.back() << " GFlops/s" << std::endl;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  std::cout << std::endl;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid benchmark_gemm_sizes(GemmContext* context,
*5f39d1b3SJooyung Han                          const std::vector<gemm_t>& gemms, double mintime) {
*5f39d1b3SJooyung Han  typedef Matrix<std::uint8_t, MapOrder::RowMajor> LhsType;
*5f39d1b3SJooyung Han  typedef Matrix<std::uint8_t, MapOrder::ColMajor> RhsType;
*5f39d1b3SJooyung Han  typedef Matrix<std::uint8_t, MapOrder::ColMajor> ResultType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<float> gemm_times;
*5f39d1b3SJooyung Han  std::cout << "running for " << mintime << " seconds..." << std::endl;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_TEST_PROFILE
*5f39d1b3SJooyung Han  gemmlowp::RegisterCurrentThreadForProfiling();
*5f39d1b3SJooyung Han  gemmlowp::StartProfiling();
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  double starttime = real_time_in_seconds();
*5f39d1b3SJooyung Han  while (real_time_in_seconds() < starttime + mintime) {
*5f39d1b3SJooyung Han    gemm_times.push_back(
*5f39d1b3SJooyung Han        time_for_gemms<LhsType, RhsType, ResultType>(context, gemms));
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_TEST_PROFILE
*5f39d1b3SJooyung Han  gemmlowp::FinishProfiling();
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::sort(gemm_times.begin(), gemm_times.end());
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  double sum_gemm_times = 0;
*5f39d1b3SJooyung Han  double sum_gemm_times_trimmed = 0;
*5f39d1b3SJooyung Han  int count_gemm_times_trimmed = 0;
*5f39d1b3SJooyung Han  const float trim_ratio = 0.25;
*5f39d1b3SJooyung Han  const size_t count_trimmed = gemm_times.size() * trim_ratio;
*5f39d1b3SJooyung Han  double sum_gemm_times_best = 0;
*5f39d1b3SJooyung Han  int count_gemm_times_best = 0;
*5f39d1b3SJooyung Han  const float best_ratio = 0.1;
*5f39d1b3SJooyung Han  const size_t count_best = gemm_times.size() * best_ratio;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  for (size_t i = 0; i < gemm_times.size(); i++) {
*5f39d1b3SJooyung Han    sum_gemm_times += gemm_times[i];
*5f39d1b3SJooyung Han    if (i >= count_trimmed && i < gemm_times.size() - count_trimmed) {
*5f39d1b3SJooyung Han      sum_gemm_times_trimmed += gemm_times[i];
*5f39d1b3SJooyung Han      count_gemm_times_trimmed++;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    if (i < count_best) {
*5f39d1b3SJooyung Han      sum_gemm_times_best += gemm_times[i];
*5f39d1b3SJooyung Han      count_gemm_times_best++;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const double min_latency = gemm_times.front();
*5f39d1b3SJooyung Han  const double max_latency = gemm_times.back();
*5f39d1b3SJooyung Han  const double mean_latency = sum_gemm_times / gemm_times.size();
*5f39d1b3SJooyung Han  const double trimmed_mean_latency =
*5f39d1b3SJooyung Han      sum_gemm_times_trimmed / count_gemm_times_trimmed;
*5f39d1b3SJooyung Han  const double best_mean_latency = sum_gemm_times_best / count_gemm_times_best;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::cout << "Graph latency (over " << gemm_times.size()
*5f39d1b3SJooyung Han            << " iterations):" << std::endl;
*5f39d1b3SJooyung Han  std::cout << "  Best:             " << min_latency << "s" << std::endl;
*5f39d1b3SJooyung Han  std::cout << "  Worst:            " << max_latency << "s" << std::endl;
*5f39d1b3SJooyung Han  std::cout << "  Mean:             " << mean_latency << "s" << std::endl;
*5f39d1b3SJooyung Han  std::cout << "  " << 100 * trim_ratio
*5f39d1b3SJooyung Han            << "% trimmed mean: " << trimmed_mean_latency << "s" << std::endl;
*5f39d1b3SJooyung Han  std::cout << "  Mean of " << 100 * best_ratio
*5f39d1b3SJooyung Han            << "% best: " << best_mean_latency << "s" << std::endl;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid benchmark_googlenet(GemmContext* context) {
*5f39d1b3SJooyung Han  // These are the m, n, k sizes for a typical GoogLeNet.
*5f39d1b3SJooyung Han  const int googlenet_gemm_sizes[] = {
*5f39d1b3SJooyung Han      12544, 64,  147, 3136, 64,   64,   3136, 192,  576,  784, 64,   192,
*5f39d1b3SJooyung Han      784,   96,  192, 784,  128,  864,  784,  16,   192,  784, 32,   400,
*5f39d1b3SJooyung Han      784,   32,  192, 784,  128,  256,  784,  128,  256,  784, 192,  1152,
*5f39d1b3SJooyung Han      784,   32,  256, 784,  96,   800,  784,  64,   256,  196, 192,  480,
*5f39d1b3SJooyung Han      196,   96,  480, 196,  204,  864,  196,  16,   480,  196, 48,   400,
*5f39d1b3SJooyung Han      196,   64,  480, 196,  160,  508,  196,  112,  508,  196, 224,  1008,
*5f39d1b3SJooyung Han      196,   24,  508, 196,  64,   600,  196,  64,   508,  196, 128,  512,
*5f39d1b3SJooyung Han      196,   128, 512, 196,  256,  1152, 196,  24,   512,  196, 64,   600,
*5f39d1b3SJooyung Han      196,   64,  512, 196,  112,  512,  196,  144,  512,  196, 288,  1296,
*5f39d1b3SJooyung Han      196,   32,  512, 196,  64,   800,  196,  64,   512,  196, 256,  528,
*5f39d1b3SJooyung Han      196,   160, 528, 196,  320,  1440, 196,  32,   528,  196, 128,  800,
*5f39d1b3SJooyung Han      196,   128, 528, 49,   256,  832,  49,   160,  832,  49,  320,  1440,
*5f39d1b3SJooyung Han      49,    48,  832, 49,   128,  1200, 49,   128,  832,  49,  384,  832,
*5f39d1b3SJooyung Han      49,    192, 832, 49,   384,  1728, 49,   48,   832,  49,  128,  1200,
*5f39d1b3SJooyung Han      49,    128, 832, 16,   128,  508,  1,    1024, 2048, 1,   1008, 1024,
*5f39d1b3SJooyung Han      16,    128, 528, 1,    1024, 2048, 1,    1008, 1024, 1,   1008, 1024,
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han  assert(sizeof(googlenet_gemm_sizes) % (3 * sizeof(googlenet_gemm_sizes[0])) ==
*5f39d1b3SJooyung Han         0);
*5f39d1b3SJooyung Han  const std::size_t num_googlenet_gemms =
*5f39d1b3SJooyung Han      sizeof(googlenet_gemm_sizes) / (3 * sizeof(googlenet_gemm_sizes[0]));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<gemm_t> googlenet_gemms(num_googlenet_gemms);
*5f39d1b3SJooyung Han  for (std::size_t i = 0; i < num_googlenet_gemms; i++) {
*5f39d1b3SJooyung Han    googlenet_gemms[i].rows = googlenet_gemm_sizes[3 * i + 1];
*5f39d1b3SJooyung Han    googlenet_gemms[i].depth = googlenet_gemm_sizes[3 * i + 2];
*5f39d1b3SJooyung Han    googlenet_gemms[i].cols = googlenet_gemm_sizes[3 * i + 0];
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const double mintime = 20.0;
*5f39d1b3SJooyung Han  benchmark_gemm_sizes(context, googlenet_gemms, mintime);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid benchmark_small_model(GemmContext* context) {
*5f39d1b3SJooyung Han  // These are the m, n, k sizes for a small model with large batches.
*5f39d1b3SJooyung Han  const int small_model_gemm_sizes[] = {
*5f39d1b3SJooyung Han      29232, 16, 25, 7308, 6, 400, 203, 3002, 216,
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han  assert(sizeof(small_model_gemm_sizes) %
*5f39d1b3SJooyung Han             (3 * sizeof(small_model_gemm_sizes[0])) ==
*5f39d1b3SJooyung Han         0);
*5f39d1b3SJooyung Han  const std::size_t num_small_model_gemms =
*5f39d1b3SJooyung Han      sizeof(small_model_gemm_sizes) / (3 * sizeof(small_model_gemm_sizes[0]));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<gemm_t> small_model_gemms(num_small_model_gemms);
*5f39d1b3SJooyung Han  for (std::size_t i = 0; i < num_small_model_gemms; i++) {
*5f39d1b3SJooyung Han    small_model_gemms[i].rows = small_model_gemm_sizes[3 * i + 1];
*5f39d1b3SJooyung Han    small_model_gemms[i].depth = small_model_gemm_sizes[3 * i + 2];
*5f39d1b3SJooyung Han    small_model_gemms[i].cols = small_model_gemm_sizes[3 * i + 0];
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const double mintime = 10.0;
*5f39d1b3SJooyung Han  benchmark_gemm_sizes(context, small_model_gemms, mintime);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid benchmark_all() {
*5f39d1b3SJooyung Han  {
*5f39d1b3SJooyung Han    gemmlowp::GemmContext context;
*5f39d1b3SJooyung Han    std::cout << "Benchmarking small model GEMMs..." << std::endl;
*5f39d1b3SJooyung Han    gemmlowp::benchmark_small_model(&context);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  {
*5f39d1b3SJooyung Han    gemmlowp::GemmContext context;
*5f39d1b3SJooyung Han    std::cout << "Benchmarking typical GoogLeNet GEMMs..." << std::endl;
*5f39d1b3SJooyung Han    gemmlowp::benchmark_googlenet(&context);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  {
*5f39d1b3SJooyung Han    gemmlowp::GemmContext context;
*5f39d1b3SJooyung Han    context.set_max_num_threads(0);
*5f39d1b3SJooyung Han    std::cout << "Benchmarking multi-threaded mode..." << std::endl;
*5f39d1b3SJooyung Han    gemmlowp::benchmark(&context);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  {
*5f39d1b3SJooyung Han    gemmlowp::GemmContext context;
*5f39d1b3SJooyung Han    context.set_max_num_threads(1);
*5f39d1b3SJooyung Han    std::cout << "Benchmarking single-threaded mode..." << std::endl;
*5f39d1b3SJooyung Han    gemmlowp::benchmark(&context);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // end namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For iOS, we need to define our own main(), so skip it here.
*5f39d1b3SJooyung Han#if !(defined(__APPLE__) && (TARGET_OS_IPHONE || TARGET_IPHONE_SIMULATOR))
*5f39d1b3SJooyung Hanint main() { gemmlowp::benchmark_all(); }
*5f39d1b3SJooyung Han#endif