rappor/pipeline/combine_results.py

*2abb3134SXin Li#!/usr/bin/python
*2abb3134SXin Li"""Combines results from multiple days of a single metric.
*2abb3134SXin Li
*2abb3134SXin LiFeed it the STATUS.txt files on stdin.  It then finds the corresponding
*2abb3134SXin Liresults.csv, and takes the top N items.
*2abb3134SXin Li
*2abb3134SXin LiExample:
*2abb3134SXin Li
*2abb3134SXin LiDate,      "google.com,", yahoo.com
*2abb3134SXin Li2015-03-01,          0.0,       0.9
*2abb3134SXin Li2015-03-02,          0.1,       0.8
*2abb3134SXin Li
*2abb3134SXin LiDygraphs can load this CSV file directly.
*2abb3134SXin Li
*2abb3134SXin LiTODO: Use different dygraph API?
*2abb3134SXin Li
*2abb3134SXin LiAlso we need error bars.
*2abb3134SXin Li
*2abb3134SXin Li  new Dygraph(document.getElementById("graphdiv2"),
*2abb3134SXin Li              [
*2abb3134SXin Li                [1,10,100],
*2abb3134SXin Li                [2,20,80],
*2abb3134SXin Li                [3,50,60],
*2abb3134SXin Li                [4,70,80]
*2abb3134SXin Li              ],
*2abb3134SXin Li              {
*2abb3134SXin Li                labels: [ "Date", "failure", "timeout", "google.com" ]
*2abb3134SXin Li              });
*2abb3134SXin Li"""
*2abb3134SXin Li
*2abb3134SXin Liimport collections
*2abb3134SXin Liimport csv
*2abb3134SXin Liimport json
*2abb3134SXin Liimport os
*2abb3134SXin Liimport sys
*2abb3134SXin Li
*2abb3134SXin Liimport util
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef CombineDistResults(stdin, c_out, num_top):
*2abb3134SXin Li  dates = []
*2abb3134SXin Li  var_cols = collections.defaultdict(dict)  # {name: {date: value}}
*2abb3134SXin Li
*2abb3134SXin Li  seen_dates = set()
*2abb3134SXin Li
*2abb3134SXin Li  for line in stdin:
*2abb3134SXin Li    status_path = line.strip()
*2abb3134SXin Li
*2abb3134SXin Li    # Assume it looks like .../2015-03-01/STATUS.txt
*2abb3134SXin Li    task_dir = os.path.dirname(status_path)
*2abb3134SXin Li    date = os.path.basename(task_dir)
*2abb3134SXin Li
*2abb3134SXin Li    # Get rid of duplicate dates.  These could be caused by retries.
*2abb3134SXin Li    if date in seen_dates:
*2abb3134SXin Li      continue
*2abb3134SXin Li
*2abb3134SXin Li    seen_dates.add(date)
*2abb3134SXin Li
*2abb3134SXin Li    with open(status_path) as f:
*2abb3134SXin Li      status = f.readline().split()[0]  # OK, FAIL, TIMEOUT, SKIPPED
*2abb3134SXin Li
*2abb3134SXin Li    dates.append(date)
*2abb3134SXin Li
*2abb3134SXin Li    if status != 'OK':
*2abb3134SXin Li      continue  # won't have results.csv
*2abb3134SXin Li
*2abb3134SXin Li    results_path = os.path.join(task_dir, 'results.csv')
*2abb3134SXin Li    with open(results_path) as f:
*2abb3134SXin Li      c = csv.reader(f)
*2abb3134SXin Li      unused_header = c.next()  # header row
*2abb3134SXin Li
*2abb3134SXin Li      # they are sorted by decreasing "estimate", which is what we want
*2abb3134SXin Li      for i in xrange(0, num_top):
*2abb3134SXin Li        try:
*2abb3134SXin Li          row = c.next()
*2abb3134SXin Li        except StopIteration:
*2abb3134SXin Li          # It's OK if it doesn't have enough
*2abb3134SXin Li          util.log('Stopping early. Fewer than %d results to render.', num_top)
*2abb3134SXin Li          break
*2abb3134SXin Li
*2abb3134SXin Li        string, _, _, proportion, _, prop_low, prop_high = row
*2abb3134SXin Li
*2abb3134SXin Li        # dygraphs has a weird format with semicolons:
*2abb3134SXin Li        # value;lower;upper,value;lower;upper.
*2abb3134SXin Li
*2abb3134SXin Li        # http://dygraphs.com/data.html#csv
*2abb3134SXin Li
*2abb3134SXin Li        # Arbitrarily use 4 digits after decimal point (for dygraphs, not
*2abb3134SXin Li        # directly displayed)
*2abb3134SXin Li        dygraph_triple = '%.4f;%.4f;%.4f' % (
*2abb3134SXin Li            float(prop_low), float(proportion), float(prop_high))
*2abb3134SXin Li
*2abb3134SXin Li        var_cols[string][date] = dygraph_triple
*2abb3134SXin Li
*2abb3134SXin Li  # Now print CSV on stdout.
*2abb3134SXin Li  cols = sorted(var_cols.keys())  # sort columns alphabetically
*2abb3134SXin Li  c_out.writerow(['date'] + cols)
*2abb3134SXin Li
*2abb3134SXin Li  dates.sort()
*2abb3134SXin Li
*2abb3134SXin Li  for date in dates:
*2abb3134SXin Li    row = [date]
*2abb3134SXin Li    for col in cols:
*2abb3134SXin Li      cell = var_cols[col].get(date)  # None mean sthere is no row
*2abb3134SXin Li      row.append(cell)
*2abb3134SXin Li    c_out.writerow(row)
*2abb3134SXin Li
*2abb3134SXin Li  #util.log("Number of dynamic cols: %d", len(var_cols))
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef CombineAssocResults(stdin, c_out, num_top):
*2abb3134SXin Li  header = ('dummy',)
*2abb3134SXin Li  c_out.writerow(header)
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef main(argv):
*2abb3134SXin Li  action = argv[1]
*2abb3134SXin Li
*2abb3134SXin Li  if action == 'dist':
*2abb3134SXin Li    num_top = int(argv[2])  # number of values to keep
*2abb3134SXin Li    c_out = csv.writer(sys.stdout)
*2abb3134SXin Li    CombineDistResults(sys.stdin, c_out, num_top)
*2abb3134SXin Li
*2abb3134SXin Li  elif action == 'assoc':
*2abb3134SXin Li    num_top = int(argv[2])  # number of values to keep
*2abb3134SXin Li    c_out = csv.writer(sys.stdout)
*2abb3134SXin Li    CombineAssocResults(sys.stdin, c_out, num_top)
*2abb3134SXin Li
*2abb3134SXin Li  else:
*2abb3134SXin Li    raise RuntimeError('Invalid action %r' % action)
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Liif __name__ == '__main__':
*2abb3134SXin Li  try:
*2abb3134SXin Li    main(sys.argv)
*2abb3134SXin Li  except RuntimeError, e:
*2abb3134SXin Li    print >>sys.stderr, 'FATAL: %s' % e
*2abb3134SXin Li    sys.exit(1)