analysis/cpp/find_cliques.cc

*2abb3134SXin Li// Copyright 2014 Google Inc. All rights reserved.
*2abb3134SXin Li//
*2abb3134SXin Li// Licensed under the Apache License, Version 2.0 (the "License");
*2abb3134SXin Li// you may not use this file except in compliance with the License.
*2abb3134SXin Li// You may obtain a copy of the License at
*2abb3134SXin Li//
*2abb3134SXin Li//     http://www.apache.org/licenses/LICENSE-2.0
*2abb3134SXin Li//
*2abb3134SXin Li// Unless required by applicable law or agreed to in writing, software
*2abb3134SXin Li// distributed under the License is distributed on an "AS IS" BASIS,
*2abb3134SXin Li// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*2abb3134SXin Li// See the License for the specific language governing permissions and
*2abb3134SXin Li// limitations under the License.
*2abb3134SXin Li
*2abb3134SXin Li#include <assert.h>
*2abb3134SXin Li#include <stdarg.h>  // va_list, etc.
*2abb3134SXin Li#include <stdio.h>
*2abb3134SXin Li#include <stdint.h>  // uint16_t
*2abb3134SXin Li#include <string>
*2abb3134SXin Li// Using unordered_{set,map} and not the older set,map since they only require
*2abb3134SXin Li// implementing equality, not comparison.  They require a C++ 11 compiler.
*2abb3134SXin Li#include <unordered_map>
*2abb3134SXin Li#include <unordered_set>
*2abb3134SXin Li#include <vector>
*2abb3134SXin Li
*2abb3134SXin Li// find_cliques.cc: Find k-cliques in a k-partite graph.  This is part of the
*2abb3134SXin Li// RAPPOR analysis for unknown dictionaries.
*2abb3134SXin Li//
*2abb3134SXin Li// A clique is a complete subgraph; it has (|N| choose 2) edges.
*2abb3134SXin Li//
*2abb3134SXin Li// This does the same computation as FindFeasibleStrings in
*2abb3134SXin Li// analysis/R/decode_ngrams.R.
*2abb3134SXin Li
*2abb3134SXin Li// Graph format:
*2abb3134SXin Li//
*2abb3134SXin Li// num_partitions 3
*2abb3134SXin Li// 0.ab 1.bc
*2abb3134SXin Li// 0.ab 2.de
*2abb3134SXin Li//
*2abb3134SXin Li// See WriteKPartiteGraph in analysis/R/decode_ngrams.R for details.
*2abb3134SXin Li//
*2abb3134SXin Li// PERFORMANCE
*2abb3134SXin Li//
*2abb3134SXin Li// The code is optimized in terms of memory locality.  Nodes are 4 bytes; Edges
*2abb3134SXin Li// are 8 bytes; PathArray is a contiguous block of memory.
*2abb3134SXin Li
*2abb3134SXin Liusing std::unordered_map;
*2abb3134SXin Liusing std::unordered_set;
*2abb3134SXin Liusing std::string;
*2abb3134SXin Liusing std::vector;
*2abb3134SXin Li
*2abb3134SXin Li// TODO: log to stderr.  Add VERBOSE logging.
*2abb3134SXin Livoid log(const char* fmt, ...) {
*2abb3134SXin Li  va_list args;
*2abb3134SXin Li  va_start(args, fmt);
*2abb3134SXin Li  vprintf(fmt, args);
*2abb3134SXin Li  va_end(args);
*2abb3134SXin Li  printf("\n");
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Nodes and Edges are value types.  A node is 4 bytes.  2^16 = 65536
*2abb3134SXin Li// partitions is plenty.
*2abb3134SXin Listruct Node {
*2abb3134SXin Li  uint16_t partition;
*2abb3134SXin Li  // Right now we support bigrams.  We may want to support trigrams or
*2abb3134SXin Li  // arbitrary n-grams, although there will be a performance hit.
*2abb3134SXin Li  char ngram[2];
*2abb3134SXin Li
*2abb3134SXin Li  // for debugging only
*2abb3134SXin Li  string ToString() const {
*2abb3134SXin Li    char buf[100];
*2abb3134SXin Li    snprintf(buf, sizeof(buf), "%d.%c%c", partition, ngram[0], ngram[1]);
*2abb3134SXin Li    return string(buf);  // copies buf
*2abb3134SXin Li  }
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Li// Implement hash and equality functors for unordered_set.
*2abb3134SXin Listruct NodeHash {
*2abb3134SXin Li  int operator() (const Node& node) const {
*2abb3134SXin Li    // DJB hash: http://floodyberry.com/noncryptohashzoo/DJB.html
*2abb3134SXin Li    int h = 5381;
*2abb3134SXin Li    h = (h << 5) + h + node.partition;
*2abb3134SXin Li    h = (h << 5) + h + node.ngram[0];
*2abb3134SXin Li    h = (h << 5) + h + node.ngram[1];
*2abb3134SXin Li    // log("hash %s = %d", node.ToString().c_str(), h);
*2abb3134SXin Li    return h;
*2abb3134SXin Li  }
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Listruct NodeEq {
*2abb3134SXin Li  bool operator() (const Node& x, const Node& y) const {
*2abb3134SXin Li    // TODO: optimize to 4 byte comparison with memcmp(&x, &y, sizeof(Node))?
*2abb3134SXin Li    // NOTE: x.ngram == y.ngram is wrong; it compares pointers!
*2abb3134SXin Li    return x.partition == y.partition &&
*2abb3134SXin Li           x.ngram[0] == y.ngram[0] &&
*2abb3134SXin Li           x.ngram[1] == y.ngram[1];
*2abb3134SXin Li  }
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Li// This is an undirected edge, but we still call them "left" and "right"
*2abb3134SXin Li// because the partition of "left" must be less than that of "right".
*2abb3134SXin Li//
*2abb3134SXin Li// NOTE: To reduce the size further, we could have a NodePool, and then typedef
*2abb3134SXin Li// uint16_t NodeId.  Edge and Path can both use a 2 byte NodeId instead of a 4
*2abb3134SXin Li// byte Node.  ToString() can take the NodePool for pretty printing.
*2abb3134SXin Li//
*2abb3134SXin Li// This will be better for the EnumeratePaths stage, but it will be
*2abb3134SXin Li// worse for the CheckForCliques stage (doing the lookups may reduce memory
*2abb3134SXin Li// locality).
*2abb3134SXin Li
*2abb3134SXin Listruct Edge {
*2abb3134SXin Li  Node left;
*2abb3134SXin Li  Node right;
*2abb3134SXin Li
*2abb3134SXin Li  // for debugging only
*2abb3134SXin Li  string ToString() const {
*2abb3134SXin Li    return left.ToString() + " - " + right.ToString();
*2abb3134SXin Li  }
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Li// Implement hash and equality functors for unordered_set.
*2abb3134SXin Listruct EdgeHash {
*2abb3134SXin Li  int operator() (const Edge& edge) const {
*2abb3134SXin Li    // DJB hash
*2abb3134SXin Li    int h = 5381;
*2abb3134SXin Li    h = (h << 5) + h + NodeHash()(edge.left);
*2abb3134SXin Li    h = (h << 5) + h + NodeHash()(edge.right);
*2abb3134SXin Li    return h;
*2abb3134SXin Li  }
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Listruct EdgeEq {
*2abb3134SXin Li  bool operator() (const Edge& x, const Edge& y) const {
*2abb3134SXin Li    // TODO: optimize to 8 byte comparison with memcmp(&x, &y, sizeof(Edge))?
*2abb3134SXin Li    // This is in the inner loop for removing cadidates.
*2abb3134SXin Li    return NodeEq()(x.left, y.left) && NodeEq()(x.right, y.right);
*2abb3134SXin Li  }
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Litypedef unordered_set<Edge, EdgeHash, EdgeEq> EdgeSet;
*2abb3134SXin Li
*2abb3134SXin Li// The full graph.  It is k-partite, which can be seen by the node naming
*2abb3134SXin Li// convention.
*2abb3134SXin Listruct Graph {
*2abb3134SXin Li  int num_partitions;
*2abb3134SXin Li  vector<Edge> edges;
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Li// Given a Node, look up Nodes in the adjacent partition that it is connected
*2abb3134SXin Li// to.
*2abb3134SXin Litypedef unordered_map<Node, vector<Node>, NodeHash, NodeEq> Adjacency;
*2abb3134SXin Li
*2abb3134SXin Li// for debugging only
*2abb3134SXin Listring AdjacencyToString(const Adjacency& a) {
*2abb3134SXin Li  string s;
*2abb3134SXin Li  for (auto& kv : a) {
*2abb3134SXin Li    s += kv.first.ToString();
*2abb3134SXin Li    s += " : <";
*2abb3134SXin Li    for (auto& node : kv.second) {
*2abb3134SXin Li      s += node.ToString();
*2abb3134SXin Li      s += " ";
*2abb3134SXin Li    }
*2abb3134SXin Li    s += ">  ";
*2abb3134SXin Li  }
*2abb3134SXin Li  return s;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Subgraph where only edges between adjacent partitions are included.
*2abb3134SXin Li//
*2abb3134SXin Li// We have k partitions, numbered 0 to k-1.  This means we have k-1 "columns",
*2abb3134SXin Li// numbered 0 to k-2.
*2abb3134SXin Li//
*2abb3134SXin Li// A column is subgraph containing edges between adjacent partitions of the
*2abb3134SXin Li// k-partite graph.
*2abb3134SXin Li//
*2abb3134SXin Li// The ColumnSubgraph class represents ALL columns (and is itself a subgraph).
*2abb3134SXin Li
*2abb3134SXin Liclass ColumnSubgraph {
*2abb3134SXin Li public:
*2abb3134SXin Li  explicit ColumnSubgraph(int num_columns)
*2abb3134SXin Li      : num_columns_(num_columns),
*2abb3134SXin Li        adj_list_(new Adjacency[num_columns]) {
*2abb3134SXin Li  }
*2abb3134SXin Li  ~ColumnSubgraph() {
*2abb3134SXin Li    delete[] adj_list_;
*2abb3134SXin Li  }
*2abb3134SXin Li  void AddEdge(Edge e) {
*2abb3134SXin Li    int part = e.left.partition;
*2abb3134SXin Li    assert(part < num_columns_);
*2abb3134SXin Li
*2abb3134SXin Li    adj_list_[part][e.left].push_back(e.right);
*2abb3134SXin Li  }
*2abb3134SXin Li  void GetColumn(int part, vector<Edge>* out) const {
*2abb3134SXin Li    const Adjacency& a = adj_list_[part];
*2abb3134SXin Li    for (auto& kv : a) {
*2abb3134SXin Li      for (auto& right : kv.second) {
*2abb3134SXin Li        Edge e;
*2abb3134SXin Li        e.left = kv.first;
*2abb3134SXin Li        e.right = right;
*2abb3134SXin Li        out->push_back(e);
*2abb3134SXin Li      }
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li  // Get the nodes in the next partition adjacent to node N
*2abb3134SXin Li  void GetAdjacentNodes(Node n, vector<Node>* out) const {
*2abb3134SXin Li    int part = n.partition;
*2abb3134SXin Li    const Adjacency& a = adj_list_[part];
*2abb3134SXin Li
*2abb3134SXin Li    // log("GetAdjacentNodes %s, part %d", n.ToString().c_str(), part);
*2abb3134SXin Li
*2abb3134SXin Li    auto it = a.find(n);
*2abb3134SXin Li    if (it == a.end()) {
*2abb3134SXin Li      return;
*2abb3134SXin Li    }
*2abb3134SXin Li    // TODO: it would be better not to copy these.
*2abb3134SXin Li    for (auto node : it->second) {
*2abb3134SXin Li      out->push_back(node);
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // accessor
*2abb3134SXin Li  int num_columns() const { return num_columns_; }
*2abb3134SXin Li
*2abb3134SXin Li  // for debugging only
*2abb3134SXin Li  string ToString() const {
*2abb3134SXin Li    string s("[\n");
*2abb3134SXin Li    char buf[100];
*2abb3134SXin Li    for (int i = 0; i < num_columns_; ++i) {
*2abb3134SXin Li      const Adjacency& a = adj_list_[i];
*2abb3134SXin Li      snprintf(buf, sizeof(buf), "%d (%zu) ", i, a.size());
*2abb3134SXin Li      s += string(buf);
*2abb3134SXin Li      s += AdjacencyToString(a);
*2abb3134SXin Li      s += "\n";
*2abb3134SXin Li    }
*2abb3134SXin Li    s += " ]";
*2abb3134SXin Li    return s;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li private:
*2abb3134SXin Li  int num_columns_;
*2abb3134SXin Li  // Adjacency list.  An array of k-1 maps.
*2abb3134SXin Li  // Lookup goes from nodes in partition i to nodes in partition i+1.
*2abb3134SXin Li  Adjacency* adj_list_;
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Livoid BuildColumnSubgraph(const Graph& g, ColumnSubgraph* a) {
*2abb3134SXin Li  for (const auto& e : g.edges) {
*2abb3134SXin Li    if (e.left.partition + 1 == e.right.partition) {
*2abb3134SXin Li      a->AddEdge(e);
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// A 2D array of paths.  It's an array because all paths are the same length.
*2abb3134SXin Li// We use a single vector<> to represent it, to reduce memory allocation.
*2abb3134SXin Liclass PathArray {
*2abb3134SXin Li public:
*2abb3134SXin Li  explicit PathArray(int path_length)
*2abb3134SXin Li     : path_length_(path_length),
*2abb3134SXin Li       num_paths_(0) {
*2abb3134SXin Li  }
*2abb3134SXin Li  void AddEdgeAsPath(Edge e) {
*2abb3134SXin Li    // Can only initialize PathArray with edges when path length is 2
*2abb3134SXin Li    assert(path_length_ == 2);
*2abb3134SXin Li
*2abb3134SXin Li    nodes_.push_back(e.left);
*2abb3134SXin Li    nodes_.push_back(e.right);
*2abb3134SXin Li    num_paths_++;
*2abb3134SXin Li  }
*2abb3134SXin Li  Node LastNodeInPath(int index) const {
*2abb3134SXin Li    int start = index * path_length_;
*2abb3134SXin Li    return nodes_[start + path_length_ -1];
*2abb3134SXin Li  }
*2abb3134SXin Li  // Pretty print a single path in this array.  For debugging only.
*2abb3134SXin Li  string PathDebugString(int index) const {
*2abb3134SXin Li    string s("[ ");
*2abb3134SXin Li    for (int i = index * path_length_; i < (index + 1) * path_length_; ++i) {
*2abb3134SXin Li      s += nodes_[i].ToString();
*2abb3134SXin Li      s += " - ";
*2abb3134SXin Li    }
*2abb3134SXin Li    s += " ]";
*2abb3134SXin Li    return s;
*2abb3134SXin Li  }
*2abb3134SXin Li  // Print the word implied by the path.
*2abb3134SXin Li  string PathAsString(int index) const {
*2abb3134SXin Li    string s;
*2abb3134SXin Li    for (int i = index * path_length_; i < (index + 1) * path_length_; ++i) {
*2abb3134SXin Li      s += nodes_[i].ngram[0];
*2abb3134SXin Li      s += nodes_[i].ngram[1];
*2abb3134SXin Li    }
*2abb3134SXin Li    return s;
*2abb3134SXin Li  }
*2abb3134SXin Li  const Node* GetPathStart(int index) const {
*2abb3134SXin Li    return &nodes_[index * path_length_];
*2abb3134SXin Li  }
*2abb3134SXin Li  void AddPath(const Node* start, int prefix_length, Node right) {
*2abb3134SXin Li    // Make sure it is one less
*2abb3134SXin Li    assert(prefix_length == path_length_-1);
*2abb3134SXin Li
*2abb3134SXin Li    // TODO: replace with memcpy?  Is it faster?
*2abb3134SXin Li    for (int i = 0; i < prefix_length; ++i) {
*2abb3134SXin Li      nodes_.push_back(start[i]);
*2abb3134SXin Li    }
*2abb3134SXin Li    nodes_.push_back(right);
*2abb3134SXin Li    num_paths_++;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // accessors
*2abb3134SXin Li  int num_paths() const { return num_paths_; }
*2abb3134SXin Li  int path_length() const { return path_length_; }
*2abb3134SXin Li
*2abb3134SXin Li private:
*2abb3134SXin Li  int path_length_;
*2abb3134SXin Li  int num_paths_;
*2abb3134SXin Li  vector<Node> nodes_;
*2abb3134SXin Li};
*2abb3134SXin Li
*2abb3134SXin Li// Given a PathArray of length i, produce one of length i+1.
*2abb3134SXin Li//
*2abb3134SXin Li// NOTE: It would be more efficient to filter 'right_nodes' here, and only add
*2abb3134SXin Li// a new path if it forms a "partial clique" (at step i+1).  This amounts to
*2abb3134SXin Li// doing the membership tests in edge_set for each "column", instead of waiting
*2abb3134SXin Li// until the end.
*2abb3134SXin Li//
*2abb3134SXin Li// This will reduce the exponential blowup of EnumeratePaths (although it
*2abb3134SXin Li// doesn't change the worst case).
*2abb3134SXin Li
*2abb3134SXin Livoid EnumerateStep(
*2abb3134SXin Li    const ColumnSubgraph& subgraph, const PathArray& in, PathArray* out) {
*2abb3134SXin Li
*2abb3134SXin Li  int prefix_length = in.path_length();
*2abb3134SXin Li
*2abb3134SXin Li  for (int i = 0; i < in.num_paths(); ++i) {
*2abb3134SXin Li    // log("col %d, path %d", col, i);
*2abb3134SXin Li
*2abb3134SXin Li    // last node in every path
*2abb3134SXin Li    Node last_node = in.LastNodeInPath(i);
*2abb3134SXin Li
*2abb3134SXin Li    // TODO: avoid copying of nodes?
*2abb3134SXin Li    vector<Node> right_nodes;
*2abb3134SXin Li    subgraph.GetAdjacentNodes(last_node, &right_nodes);
*2abb3134SXin Li
*2abb3134SXin Li    // Get a pointer to the start of the path
*2abb3134SXin Li    const Node* start = in.GetPathStart(i);
*2abb3134SXin Li
*2abb3134SXin Li    for (Node right : right_nodes) {
*2abb3134SXin Li      out->AddPath(start, prefix_length, right);
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Given a the column subgraph, produce an array of all possible paths of
*2abb3134SXin Li// length k.  These will be subsequently checked to see if they are cliques.
*2abb3134SXin Livoid EnumeratePaths(
*2abb3134SXin Li    const ColumnSubgraph& subgraph, PathArray* candidates) {
*2abb3134SXin Li  // edges between partitions 0 and 1, a "column" of edges
*2abb3134SXin Li  vector<Edge> edges0;
*2abb3134SXin Li  subgraph.GetColumn(0, &edges0);
*2abb3134SXin Li
*2abb3134SXin Li  int num_columns = subgraph.num_columns();
*2abb3134SXin Li  PathArray** arrays = new PathArray*[num_columns];
*2abb3134SXin Li
*2abb3134SXin Li  // Initialize using column 0.
*2abb3134SXin Li  int path_length = 2;
*2abb3134SXin Li  arrays[0] = new PathArray(path_length);
*2abb3134SXin Li  for (auto& e : edges0) {
*2abb3134SXin Li    arrays[0]->AddEdgeAsPath(e);
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // Iterate over columns 1 to k-1.
*2abb3134SXin Li  for (int i = 1; i < num_columns; ++i) {
*2abb3134SXin Li    log("--- Column %d", i);
*2abb3134SXin Li
*2abb3134SXin Li    path_length++;
*2abb3134SXin Li    if (i == num_columns - 1) {
*2abb3134SXin Li      arrays[i] = candidates;  // final result, from output argument!
*2abb3134SXin Li    } else {
*2abb3134SXin Li      arrays[i] = new PathArray(path_length);  // intermediate result
*2abb3134SXin Li    }
*2abb3134SXin Li    PathArray* in = arrays[i - 1];
*2abb3134SXin Li    PathArray* out = arrays[i];
*2abb3134SXin Li
*2abb3134SXin Li    EnumerateStep(subgraph, *in, out);
*2abb3134SXin Li
*2abb3134SXin Li    log("in num paths: %d", in->num_paths());
*2abb3134SXin Li    log("out num paths: %d", out->num_paths());
*2abb3134SXin Li
*2abb3134SXin Li    // We create an destroy a PathArray on every iteration.  On each
*2abb3134SXin Li    // iteration, the PathArray grows both rows and columns, so it's hard to
*2abb3134SXin Li    // avoid this.
*2abb3134SXin Li    delete in;
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Inserts the path number 'p' in incomplete if the path is not a complete
*2abb3134SXin Li// subgraph.
*2abb3134SXin Libool IsClique(const Node* path, int k, const EdgeSet& edge_set) {
*2abb3134SXin Li  // We need to ensure that (k choose 2) edges are all in edge_set.
*2abb3134SXin Li  // We already know that k-1 of them are present, so we need to check (k
*2abb3134SXin Li  // choose 2) - (k-1).
*2abb3134SXin Li  for (int i = 0; i < k; ++i) {
*2abb3134SXin Li    for (int j = i + 1; j < k; ++j) {
*2abb3134SXin Li      if (i + 1 == j) {
*2abb3134SXin Li        // Already know this edge exists.  NOTE: does this even speed things
*2abb3134SXin Li        // up?  It's a branch in the middle of an inner loop.
*2abb3134SXin Li        continue;
*2abb3134SXin Li      }
*2abb3134SXin Li      Edge e;
*2abb3134SXin Li      e.left = path[i];
*2abb3134SXin Li      e.right = path[j];
*2abb3134SXin Li      if (edge_set.find(e) == edge_set.end()) {
*2abb3134SXin Li        log("Didn't find edge %s", e.ToString().c_str());
*2abb3134SXin Li        return false;
*2abb3134SXin Li      }
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li  return true;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Livoid CheckForCliques(const PathArray& candidates,
*2abb3134SXin Li                     const EdgeSet& edge_set,
*2abb3134SXin Li                     unordered_set<int>* incomplete) {
*2abb3134SXin Li  int k = candidates.path_length();
*2abb3134SXin Li  for (int p = 0; p < candidates.num_paths(); ++p) {
*2abb3134SXin Li    const Node* path = candidates.GetPathStart(p);
*2abb3134SXin Li    // NOTE: We could run many IsClique invocations in parallel.  It reads from
*2abb3134SXin Li    // edge_set.  The different 'incomplete' sets can be merged.
*2abb3134SXin Li    if (!IsClique(path, k, edge_set)) {
*2abb3134SXin Li      incomplete->insert(p);
*2abb3134SXin Li      return;  // IMPORTANT: early return
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li// Parse text on stdin into a graph, and do some validation.
*2abb3134SXin Libool ParseGraph(Graph* g, EdgeSet* edge_set) {
*2abb3134SXin Li  // NOTE: It's possible that there NO k-cliques.
*2abb3134SXin Li
*2abb3134SXin Li  int ret = fscanf(stdin, "num_partitions %d\n", &(g->num_partitions));
*2abb3134SXin Li  if (ret != 1) {
*2abb3134SXin Li    log("ERROR: Expected 'num_partitions <integer>'\n");
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  log("num_partitions = %d", g->num_partitions);
*2abb3134SXin Li
*2abb3134SXin Li  int ngram_size;
*2abb3134SXin Li  ret = fscanf(stdin, "ngram_size %d\n", &ngram_size);
*2abb3134SXin Li  if (ret != 1) {
*2abb3134SXin Li    log("ERROR: Expected 'ngram_size <integer>'\n");
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li  if (ngram_size != 2) {
*2abb3134SXin Li    log("ERROR: Only bigrams are currently supported (got n = %d)\n", ngram_size);
*2abb3134SXin Li    return false;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  int num_edges = 0;
*2abb3134SXin Li  while (true) {
*2abb3134SXin Li    int part1, part2;
*2abb3134SXin Li    char c1, c2, c3, c4;
*2abb3134SXin Li    int ret = fscanf(stdin, "edge %d.%c%c %d.%c%c\n",
*2abb3134SXin Li                     &part1, &c1, &c2, &part2, &c3, &c4);
*2abb3134SXin Li    if (ret == EOF) {
*2abb3134SXin Li      log("Read %d edges", num_edges);
*2abb3134SXin Li      break;
*2abb3134SXin Li    }
*2abb3134SXin Li    if (ret != 6) {
*2abb3134SXin Li      log("ERROR: Expected 6 values for edge, got %d", ret);
*2abb3134SXin Li      return false;
*2abb3134SXin Li    }
*2abb3134SXin Li    // log("%d -> %d", part1, part2);
*2abb3134SXin Li    if (part1 >= part2) {
*2abb3134SXin Li      log("ERROR: edge in wrong order (%d >= %d)", part1, part2);
*2abb3134SXin Li      return false;
*2abb3134SXin Li    }
*2abb3134SXin Li
*2abb3134SXin Li    Edge e;
*2abb3134SXin Li    e.left.partition = part1;
*2abb3134SXin Li    e.left.ngram[0] = c1;
*2abb3134SXin Li    e.left.ngram[1] = c2;
*2abb3134SXin Li
*2abb3134SXin Li    e.right.partition = part2;
*2abb3134SXin Li    e.right.ngram[0] = c3;
*2abb3134SXin Li    e.right.ngram[1] = c4;
*2abb3134SXin Li
*2abb3134SXin Li    g->edges.push_back(e);
*2abb3134SXin Li
*2abb3134SXin Li    // For lookup in CheckForCliques
*2abb3134SXin Li    edge_set->insert(e);
*2abb3134SXin Li
*2abb3134SXin Li    num_edges++;
*2abb3134SXin Li  }
*2abb3134SXin Li  return true;
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Liint main() {
*2abb3134SXin Li  log("sizeof(Node) = %zu", sizeof(Node));
*2abb3134SXin Li  log("sizeof(Edge) = %zu", sizeof(Edge));
*2abb3134SXin Li  // This should be true no matter what platform we use, e.g. since we use
*2abb3134SXin Li  // uint16_t.
*2abb3134SXin Li  assert(sizeof(Node) == 4);
*2abb3134SXin Li  assert(sizeof(Edge) == 8);
*2abb3134SXin Li
*2abb3134SXin Li  Graph g;
*2abb3134SXin Li  EdgeSet edge_set;
*2abb3134SXin Li
*2abb3134SXin Li  log("ParseGraph");
*2abb3134SXin Li  if (!ParseGraph(&g, &edge_set)) {
*2abb3134SXin Li    log("Fatal error parsing graph.");
*2abb3134SXin Li    return 1;
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // If there are k partitions, there are k-1 edge "columns".
*2abb3134SXin Li  ColumnSubgraph subgraph(g.num_partitions - 1);
*2abb3134SXin Li  log("BuildColumnSubgraph");
*2abb3134SXin Li  BuildColumnSubgraph(g, &subgraph);
*2abb3134SXin Li  log("%s", subgraph.ToString().c_str());
*2abb3134SXin Li
*2abb3134SXin Li  // PathArray candidates(num_partitions);
*2abb3134SXin Li  log("EnumeratePaths");
*2abb3134SXin Li  PathArray candidates(g.num_partitions);
*2abb3134SXin Li  EnumeratePaths(subgraph, &candidates);
*2abb3134SXin Li
*2abb3134SXin Li  log("EnumeratePaths produced %d candidates", candidates.num_paths());
*2abb3134SXin Li  for (int i = 0; i < candidates.num_paths(); ++i) {
*2abb3134SXin Li    log("%d %s", i, candidates.PathDebugString(i).c_str());
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  // array of indices of incomplete paths, i.e. paths that are not complete
*2abb3134SXin Li  // subgraphs
*2abb3134SXin Li  log("CheckForCliques");
*2abb3134SXin Li  unordered_set<int> incomplete;
*2abb3134SXin Li  CheckForCliques(candidates, edge_set, &incomplete);
*2abb3134SXin Li  for (auto p : incomplete) {
*2abb3134SXin Li    log("Path %d is incomplete", p);
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  log("Found the following cliques/words:");
*2abb3134SXin Li  // Now print all the complete ones to stdout
*2abb3134SXin Li  for (int i = 0; i < candidates.num_paths(); i++) {
*2abb3134SXin Li    if (incomplete.find(i) == incomplete.end()) {
*2abb3134SXin Li      log("%d %s", i, candidates.PathAsString(i).c_str());
*2abb3134SXin Li    }
*2abb3134SXin Li  }
*2abb3134SXin Li  log("Done");
*2abb3134SXin Li}