analysis/cpp/fast_em.cc

*2abb3134SXin Li// Copyright 2015 Google Inc. All rights reserved.
*2abb3134SXin Li//
*2abb3134SXin Li// Licensed under the Apache License, Version 2.0 (the "License");
*2abb3134SXin Li// you may not use this file except in compliance with the License.
*2abb3134SXin Li// You may obtain a copy of the License at
*2abb3134SXin Li//
*2abb3134SXin Li//     http://www.apache.org/licenses/LICENSE-2.0
*2abb3134SXin Li//
*2abb3134SXin Li// Unless required by applicable law or agreed to in writing, software
*2abb3134SXin Li// distributed under the License is distributed on an "AS IS" BASIS,
*2abb3134SXin Li// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*2abb3134SXin Li// See the License for the specific language governing permissions and
*2abb3134SXin Li// limitations under the License.
*2abb3134SXin Li
*2abb3134SXin Li#include <assert.h>
*2abb3134SXin Li#include <stdarg.h>  // va_list, etc.
*2abb3134SXin Li#include <stdio.h>  // fread()
*2abb3134SXin Li#include <stdlib.h>  // exit()
*2abb3134SXin Li#include <stdint.h>  // uint16_t
*2abb3134SXin Li#include <string.h>  // strcmp()
*2abb3134SXin Li#include <cmath>  // std::abs operates on doubles
*2abb3134SXin Li#include <cstdlib>  // strtol
*2abb3134SXin Li#include <vector>
*2abb3134SXin Li
*2abb3134SXin Liusing std::vector;
*2abb3134SXin Li
*2abb3134SXin Li// Log messages to stdout.
*2abb3134SXin Livoid log(const char* fmt, ...) {
*2abb3134SXin Li  va_list args;
*2abb3134SXin Li  va_start(args, fmt);
*2abb3134SXin Li  vprintf(fmt, args);
*2abb3134SXin Li  va_end(args);
*2abb3134SXin Li  printf("\n");
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Liconst int kTagLen = 4;  // 4 byte tags in the file format
*2abb3134SXin Li
*2abb3134SXin Libool ExpectTag(FILE* f, const char* tag) {
*2abb3134SXin Li  char buf[kTagLen];
*2abb3134SXin Li
*2abb3134SXin Li  if (fread(buf, sizeof buf[0], kTagLen, f) != kTagLen) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  if (strcmp(buf, tag) != 0) {
*2abb3134SXin Li    log("Error: expected '%s'", tag);
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  return true;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Listatic bool ReadListOfMatrices(
*2abb3134SXin Li    FILE* f, uint32_t* num_entries_out, uint32_t* entry_size_out,
*2abb3134SXin Li    vector<double>* v_out) {
*2abb3134SXin Li  if (!ExpectTag(f, "ne ")) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // R integers are serialized as uint32_t
*2abb3134SXin Li  uint32_t num_entries;
*2abb3134SXin Li  if (fread(&num_entries, sizeof num_entries, 1, f) != 1) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  log("num entries: %d", num_entries);
*2abb3134SXin Li
*2abb3134SXin Li  if (!ExpectTag(f, "es ")) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  uint32_t entry_size;
*2abb3134SXin Li  if (fread(&entry_size, sizeof entry_size, 1, f) != 1) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  log("entry_size: %d", entry_size);
*2abb3134SXin Li
*2abb3134SXin Li  if (!ExpectTag(f, "dat")) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // Now read dynamic data
*2abb3134SXin Li  size_t vec_length = num_entries * entry_size;
*2abb3134SXin Li
*2abb3134SXin Li  vector<double>& v = *v_out;
*2abb3134SXin Li  v.resize(vec_length);
*2abb3134SXin Li
*2abb3134SXin Li  if (fread(&v[0], sizeof v[0], vec_length, f) != vec_length) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // Print out head for sanity
*2abb3134SXin Li  size_t n = 20;
*2abb3134SXin Li  for (size_t i = 0; i < n && i < v.size(); ++i) {
*2abb3134SXin Li    log("%d: %f", i, v[i]);
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  *num_entries_out = num_entries;
*2abb3134SXin Li  *entry_size_out = entry_size;
*2abb3134SXin Li
*2abb3134SXin Li  return true;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Livoid PrintEntryVector(const vector<double>& cond_prob, size_t m,
*2abb3134SXin Li                      size_t entry_size) {
*2abb3134SXin Li  size_t c_base = m * entry_size;
*2abb3134SXin Li  log("cond_prob[m = %d] = ", m);
*2abb3134SXin Li  for (size_t i = 0; i < entry_size; ++i) {
*2abb3134SXin Li    printf("%e ", cond_prob[c_base + i]);
*2abb3134SXin Li  }
*2abb3134SXin Li  printf("\n");
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Livoid PrintPij(const vector<double>& pij) {
*2abb3134SXin Li  double sum = 0.0;
*2abb3134SXin Li  printf("PIJ:\n");
*2abb3134SXin Li  for (size_t i = 0; i < pij.size(); ++i) {
*2abb3134SXin Li    printf("%f ", pij[i]);
*2abb3134SXin Li    sum += pij[i];
*2abb3134SXin Li  }
*2abb3134SXin Li  printf("\n");
*2abb3134SXin Li  printf("SUM: %f\n", sum);  // sum is 1.0 after normalization
*2abb3134SXin Li  printf("\n");
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// EM algorithm to iteratively estimate parameters.
*2abb3134SXin Li
*2abb3134SXin Listatic int ExpectationMaximization(
*2abb3134SXin Li    uint32_t num_entries, uint32_t entry_size, const vector<double>& cond_prob,
*2abb3134SXin Li    int max_em_iters, double epsilon, vector<double>* pij_out) {
*2abb3134SXin Li  // Start out with uniform distribution.
*2abb3134SXin Li  vector<double> pij(entry_size, 0.0);
*2abb3134SXin Li  double init = 1.0 / entry_size;
*2abb3134SXin Li  for (size_t i = 0; i < pij.size(); ++i) {
*2abb3134SXin Li    pij[i] = init;
*2abb3134SXin Li  }
*2abb3134SXin Li  log("Initialized %d entries with %f", pij.size(), init);
*2abb3134SXin Li
*2abb3134SXin Li  vector<double> prev_pij(entry_size, 0.0);  // pij on previous iteration
*2abb3134SXin Li
*2abb3134SXin Li  log("Starting up to %d EM iterations", max_em_iters);
*2abb3134SXin Li
*2abb3134SXin Li  int em_iter = 0;  // visible after loop
*2abb3134SXin Li  for (; em_iter < max_em_iters; ++em_iter) {
*2abb3134SXin Li    //
*2abb3134SXin Li    // lapply() step.
*2abb3134SXin Li    //
*2abb3134SXin Li
*2abb3134SXin Li    // Computed below as a function of old Pij and conditional probability for
*2abb3134SXin Li    // each report.
*2abb3134SXin Li    vector<double> new_pij(entry_size, 0.0);
*2abb3134SXin Li
*2abb3134SXin Li    // m is the matrix index, giving the conditional probability matrix for a
*2abb3134SXin Li    // single report.
*2abb3134SXin Li    for (size_t m = 0; m < num_entries; ++m) {
*2abb3134SXin Li      vector<double> z(entry_size, 0.0);
*2abb3134SXin Li
*2abb3134SXin Li      double sum_z = 0.0;
*2abb3134SXin Li
*2abb3134SXin Li      // base index for the matrix corresponding to a report.
*2abb3134SXin Li      size_t c_base = m * entry_size;
*2abb3134SXin Li
*2abb3134SXin Li      for (size_t i = 0; i < entry_size; ++i) {  // multiply and running sum
*2abb3134SXin Li        size_t c_index = c_base + i;
*2abb3134SXin Li        z[i] = cond_prob[c_index] * pij[i];
*2abb3134SXin Li        sum_z += z[i];
*2abb3134SXin Li      }
*2abb3134SXin Li
*2abb3134SXin Li      // Normalize and Reduce("+", wcp) step.  These two steps are combined for
*2abb3134SXin Li      // memory locality.
*2abb3134SXin Li      for (size_t i = 0; i < entry_size; ++i) {
*2abb3134SXin Li        new_pij[i] += z[i] / sum_z;
*2abb3134SXin Li      }
*2abb3134SXin Li    }
*2abb3134SXin Li
*2abb3134SXin Li    // Divide outside the loop
*2abb3134SXin Li    for (size_t i = 0; i < entry_size; ++i) {
*2abb3134SXin Li      new_pij[i] /= num_entries;
*2abb3134SXin Li    }
*2abb3134SXin Li
*2abb3134SXin Li    //PrintPij(new_pij);
*2abb3134SXin Li
*2abb3134SXin Li    //
*2abb3134SXin Li    // Check for termination
*2abb3134SXin Li    //
*2abb3134SXin Li    double max_dif = 0.0;
*2abb3134SXin Li    for (size_t i = 0; i < entry_size; ++i) {
*2abb3134SXin Li      double dif = std::abs(new_pij[i] - pij[i]);
*2abb3134SXin Li      if (dif > max_dif) {
*2abb3134SXin Li        max_dif = dif;
*2abb3134SXin Li      }
*2abb3134SXin Li    }
*2abb3134SXin Li
*2abb3134SXin Li    pij = new_pij;  // copy
*2abb3134SXin Li
*2abb3134SXin Li    log("fast EM iteration %d, dif = %e", em_iter, max_dif);
*2abb3134SXin Li
*2abb3134SXin Li    if (max_dif < epsilon) {
*2abb3134SXin Li      log("Early EM termination: %e < %e", max_dif, epsilon);
*2abb3134SXin Li      break;
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  *pij_out = pij;
*2abb3134SXin Li  // If we reached iteration index 10, then there were 10 iterations: the last
*2abb3134SXin Li  // one terminated the loop.
*2abb3134SXin Li  return em_iter;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Libool WriteTag(const char* tag, FILE* f_out) {
*2abb3134SXin Li  assert(strlen(tag) == 3);  // write 3 byte tags with NUL byte
*2abb3134SXin Li  return fwrite(tag, 1, 4, f_out) == 4;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Write the probabilities as a flat list of doubles.  The caller knows what
*2abb3134SXin Li// the dimensions are.
*2abb3134SXin Libool WriteResult(const vector<double>& pij, uint32_t num_em_iters,
*2abb3134SXin Li                 FILE* f_out) {
*2abb3134SXin Li  if (!WriteTag("emi", f_out)) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  if (fwrite(&num_em_iters, sizeof num_em_iters, 1, f_out) != 1) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  if (!WriteTag("pij", f_out)) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  size_t n = pij.size();
*2abb3134SXin Li  if (fwrite(&pij[0], sizeof pij[0], n, f_out) != n) {
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  return true;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Like atoi, but with basic (not exhaustive) error checking.
*2abb3134SXin Libool StringToInt(const char* s, int* result) {
*2abb3134SXin Li  bool ok = true;
*2abb3134SXin Li  char* end;  // mutated by strtol
*2abb3134SXin Li
*2abb3134SXin Li  *result = strtol(s, &end, 10);  // base 10
*2abb3134SXin Li  // If strol didn't consume any characters, it failed.
*2abb3134SXin Li  if (end == s) {
*2abb3134SXin Li    ok = false;
*2abb3134SXin Li  }
*2abb3134SXin Li  return ok;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Liint main(int argc, char **argv) {
*2abb3134SXin Li  if (argc < 4) {
*2abb3134SXin Li    log("Usage: read_numeric INPUT OUTPUT max_em_iters");
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  char* in_filename = argv[1];
*2abb3134SXin Li  char* out_filename = argv[2];
*2abb3134SXin Li
*2abb3134SXin Li  int max_em_iters;
*2abb3134SXin Li  if (!StringToInt(argv[3], &max_em_iters)) {
*2abb3134SXin Li    log("Error parsing max_em_iters");
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  FILE* f = fopen(in_filename, "rb");
*2abb3134SXin Li  if (f == NULL) {
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // Try opening first so we don't do a long computation and then fail.
*2abb3134SXin Li  FILE* f_out = fopen(out_filename, "wb");
*2abb3134SXin Li  if (f_out == NULL) {
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  uint32_t num_entries;
*2abb3134SXin Li  uint32_t entry_size;
*2abb3134SXin Li  vector<double> cond_prob;
*2abb3134SXin Li  if (!ReadListOfMatrices(f, &num_entries, &entry_size, &cond_prob)) {
*2abb3134SXin Li    log("Error reading list of matrices");
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  fclose(f);
*2abb3134SXin Li
*2abb3134SXin Li  // Sanity check
*2abb3134SXin Li  double debug_sum = 0.0;
*2abb3134SXin Li  for (size_t m = 0; m < num_entries; ++m) {
*2abb3134SXin Li    // base index for the matrix corresponding to a report.
*2abb3134SXin Li    size_t c_base = m * entry_size;
*2abb3134SXin Li    for (size_t i = 0; i < entry_size; ++i) {  // multiply and running sum
*2abb3134SXin Li      debug_sum += cond_prob[c_base + i];
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li  log("Debug sum: %f", debug_sum);
*2abb3134SXin Li
*2abb3134SXin Li  double epsilon = 1e-6;
*2abb3134SXin Li  log("epsilon: %f", epsilon);
*2abb3134SXin Li
*2abb3134SXin Li  vector<double> pij(entry_size);
*2abb3134SXin Li  int num_em_iters = ExpectationMaximization(
*2abb3134SXin Li      num_entries, entry_size, cond_prob, max_em_iters, epsilon, &pij);
*2abb3134SXin Li
*2abb3134SXin Li  if (!WriteResult(pij, num_em_iters, f_out)) {
*2abb3134SXin Li    log("Error writing result matrix");
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li  fclose(f_out);
*2abb3134SXin Li
*2abb3134SXin Li  log("fast EM done");
*2abb3134SXin Li  return 0;
*2abb3134SXin Li}