cros/audio/audio_analysis.py

*9c5db199SXin Li# Lint as: python2, python3
*9c5db199SXin Li# Copyright 2015 The Chromium OS Authors. All rights reserved.
*9c5db199SXin Li# Use of this source code is governed by a BSD-style license that can be
*9c5db199SXin Li# found in the LICENSE file.
*9c5db199SXin Li
*9c5db199SXin Li"""This module provides utilities to do audio data analysis."""
*9c5db199SXin Li
*9c5db199SXin Lifrom __future__ import absolute_import
*9c5db199SXin Lifrom __future__ import division
*9c5db199SXin Lifrom __future__ import print_function
*9c5db199SXin Liimport logging
*9c5db199SXin Liimport numpy
*9c5db199SXin Liimport operator
*9c5db199SXin Lifrom six.moves import range
*9c5db199SXin Li
*9c5db199SXin Li# Only peaks with coefficient greater than 0.01 of the first peak should be
*9c5db199SXin Li# considered. Note that this correspond to -40dB in the spectrum.
*9c5db199SXin LiDEFAULT_MIN_PEAK_RATIO = 0.01
*9c5db199SXin Li
*9c5db199SXin LiPEAK_WINDOW_SIZE_HZ = 20 # Window size for peak detection.
*9c5db199SXin Li
*9c5db199SXin Li# The minimum RMS value of meaningful audio data.
*9c5db199SXin LiMEANINGFUL_RMS_THRESHOLD = 0.001
*9c5db199SXin Li
*9c5db199SXin Liclass RMSTooSmallError(Exception):
*9c5db199SXin Li    """Error when signal RMS is too small."""
*9c5db199SXin Li    pass
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Liclass EmptyDataError(Exception):
*9c5db199SXin Li    """Error when signal is empty."""
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Lidef normalize_signal(signal, saturate_value):
*9c5db199SXin Li    """Normalizes the signal with respect to the saturate value.
*9c5db199SXin Li
*9c5db199SXin Li    @param signal: A list for one-channel PCM data.
*9c5db199SXin Li    @param saturate_value: The maximum value that the PCM data might be.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: A numpy array containing normalized signal. The normalized signal
*9c5db199SXin Li              has value -1 and 1 when it saturates.
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    signal = numpy.array(signal)
*9c5db199SXin Li    return signal / float(saturate_value)
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Lidef spectral_analysis(signal, rate, min_peak_ratio=DEFAULT_MIN_PEAK_RATIO,
*9c5db199SXin Li                      peak_window_size_hz=PEAK_WINDOW_SIZE_HZ):
*9c5db199SXin Li    """Gets the dominant frequencies by spectral analysis.
*9c5db199SXin Li
*9c5db199SXin Li    @param signal: A list of numbers for one-channel PCM data. This should be
*9c5db199SXin Li                   normalized to [-1, 1] so the function can check if signal RMS
*9c5db199SXin Li                   is too small to be meaningful.
*9c5db199SXin Li    @param rate: Sampling rate.
*9c5db199SXin Li    @param min_peak_ratio: The minimum peak_0/peak_i ratio such that the
*9c5db199SXin Li                           peaks other than the greatest one should be
*9c5db199SXin Li                           considered.
*9c5db199SXin Li                           This is to ignore peaks that are too small compared
*9c5db199SXin Li                           to the first peak peak_0.
*9c5db199SXin Li    @param peak_window_size_hz: The window size in Hz to find the peaks.
*9c5db199SXin Li                                The minimum differences between found peaks will
*9c5db199SXin Li                                be half of this value.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: A list of tuples:
*9c5db199SXin Li              [(peak_frequency_0, peak_coefficient_0),
*9c5db199SXin Li               (peak_frequency_1, peak_coefficient_1),
*9c5db199SXin Li               (peak_frequency_2, peak_coefficient_2), ...]
*9c5db199SXin Li              where the tuples are sorted by coefficients.
*9c5db199SXin Li              The last peak_coefficient will be no less than
*9c5db199SXin Li              peak_coefficient * min_peak_ratio.
*9c5db199SXin Li              If RMS is less than MEANINGFUL_RMS_THRESHOLD, returns [(0, 0)].
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    # Checks the signal is meaningful.
*9c5db199SXin Li    if len(signal) == 0:
*9c5db199SXin Li        raise EmptyDataError('Signal data is empty')
*9c5db199SXin Li
*9c5db199SXin Li    signal_rms = numpy.linalg.norm(signal) / numpy.sqrt(len(signal))
*9c5db199SXin Li    logging.debug('signal RMS = %s', signal_rms)
*9c5db199SXin Li
*9c5db199SXin Li    # If RMS is too small, set dominant frequency and coefficient to 0.
*9c5db199SXin Li    if signal_rms < MEANINGFUL_RMS_THRESHOLD:
*9c5db199SXin Li        logging.warning(
*9c5db199SXin Li                'RMS %s is too small to be meaningful. Set frequency to 0.',
*9c5db199SXin Li                signal_rms)
*9c5db199SXin Li        return [(0, 0)]
*9c5db199SXin Li
*9c5db199SXin Li    logging.debug('Doing spectral analysis ...')
*9c5db199SXin Li
*9c5db199SXin Li    # First, pass signal through a window function to mitigate spectral leakage.
*9c5db199SXin Li    y_conv_w = signal * numpy.hanning(len(signal))
*9c5db199SXin Li
*9c5db199SXin Li    length = len(y_conv_w)
*9c5db199SXin Li
*9c5db199SXin Li    # x_f is the frequency in Hz, y_f is the transformed coefficient.
*9c5db199SXin Li    x_f = _rfft_freq(length, rate)
*9c5db199SXin Li    y_f = 2.0 / length * numpy.fft.rfft(y_conv_w)
*9c5db199SXin Li
*9c5db199SXin Li    # y_f is complex so consider its absolute value for magnitude.
*9c5db199SXin Li    abs_y_f = numpy.abs(y_f)
*9c5db199SXin Li    threshold = max(abs_y_f) * min_peak_ratio
*9c5db199SXin Li
*9c5db199SXin Li    # Suppresses all coefficients that are below threshold.
*9c5db199SXin Li    for i in range(len(abs_y_f)):
*9c5db199SXin Li        if abs_y_f[i] < threshold:
*9c5db199SXin Li            abs_y_f[i] = 0
*9c5db199SXin Li
*9c5db199SXin Li    # Gets the peak detection window size in indice.
*9c5db199SXin Li    # x_f[1] is the frequency difference per index.
*9c5db199SXin Li    peak_window_size = int(peak_window_size_hz / x_f[1])
*9c5db199SXin Li
*9c5db199SXin Li    # Detects peaks.
*9c5db199SXin Li    peaks = peak_detection(abs_y_f, peak_window_size)
*9c5db199SXin Li
*9c5db199SXin Li    # Transform back the peak location from index to frequency.
*9c5db199SXin Li    results = []
*9c5db199SXin Li    for index, value in peaks:
*9c5db199SXin Li        results.append((x_f[index], value))
*9c5db199SXin Li    return results
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Lidef _rfft_freq(length, rate):
*9c5db199SXin Li    """Gets the frequency at each index of real FFT.
*9c5db199SXin Li
*9c5db199SXin Li    @param length: The window length of FFT.
*9c5db199SXin Li    @param rate: Sampling rate.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: A numpy array containing frequency corresponding to
*9c5db199SXin Li              numpy.fft.rfft result at each index.
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    # The difference in Hz between each index.
*9c5db199SXin Li    val = rate / float(length)
*9c5db199SXin Li    # Only care half of frequencies for FFT on real signal.
*9c5db199SXin Li    result_length = length // 2 + 1
*9c5db199SXin Li    return numpy.linspace(0, (result_length - 1) * val, result_length)
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Lidef peak_detection(array, window_size):
*9c5db199SXin Li    """Detects peaks in an array.
*9c5db199SXin Li
*9c5db199SXin Li    A point (i, array[i]) is a peak if array[i] is the maximum among
*9c5db199SXin Li    array[i - half_window_size] to array[i + half_window_size].
*9c5db199SXin Li    If array[i - half_window_size] to array[i + half_window_size] are all equal,
*9c5db199SXin Li    then there is no peak in this window.
*9c5db199SXin Li    Note that we only consider peak with value greater than 0.
*9c5db199SXin Li
*9c5db199SXin Li    @param window_size: The window to detect peaks.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: A list of tuples:
*9c5db199SXin Li              [(peak_index_1, peak_value_1), (peak_index_2, peak_value_2), ...]
*9c5db199SXin Li              where the tuples are sorted by peak values.
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    half_window_size = window_size // 2
*9c5db199SXin Li    length = len(array)
*9c5db199SXin Li
*9c5db199SXin Li    def mid_is_peak(array, mid, left, right):
*9c5db199SXin Li        """Checks if value at mid is the largest among left to right in array.
*9c5db199SXin Li
*9c5db199SXin Li        @param array: A list of numbers.
*9c5db199SXin Li        @param mid: The mid index.
*9c5db199SXin Li        @param left: The left index.
*9c5db199SXin Li        @param rigth: The right index.
*9c5db199SXin Li
*9c5db199SXin Li        @returns: A tuple (is_peak, next_candidate)
*9c5db199SXin Li                  is_peak is True if array[index] is the maximum among numbers
*9c5db199SXin Li                  in array between index [left, right] inclusively.
*9c5db199SXin Li                  next_candidate is the index of next candidate for peak if
*9c5db199SXin Li                  is_peak is False. It is the index of maximum value in
*9c5db199SXin Li                  [mid + 1, right]. If is_peak is True, next_candidate is
*9c5db199SXin Li                  right + 1.
*9c5db199SXin Li
*9c5db199SXin Li        """
*9c5db199SXin Li        value_mid = array[mid]
*9c5db199SXin Li        is_peak = True
*9c5db199SXin Li        next_peak_candidate_index = None
*9c5db199SXin Li
*9c5db199SXin Li        # Check the left half window.
*9c5db199SXin Li        for index in range(left, mid):
*9c5db199SXin Li            if array[index] >= value_mid:
*9c5db199SXin Li                is_peak = False
*9c5db199SXin Li                break
*9c5db199SXin Li
*9c5db199SXin Li        # Mid is at the end of array.
*9c5db199SXin Li        if mid == right:
*9c5db199SXin Li            return is_peak, right + 1
*9c5db199SXin Li
*9c5db199SXin Li        # Check the right half window and also record next candidate.
*9c5db199SXin Li        # Favor the larger index for next_peak_candidate_index.
*9c5db199SXin Li        for index in range(right, mid, -1):
*9c5db199SXin Li            if (next_peak_candidate_index is None or
*9c5db199SXin Li                array[index] > array[next_peak_candidate_index]):
*9c5db199SXin Li                next_peak_candidate_index = index
*9c5db199SXin Li
*9c5db199SXin Li        if array[next_peak_candidate_index] >= value_mid:
*9c5db199SXin Li            is_peak = False
*9c5db199SXin Li
*9c5db199SXin Li        if is_peak:
*9c5db199SXin Li            next_peak_candidate_index = right + 1
*9c5db199SXin Li
*9c5db199SXin Li        return is_peak, next_peak_candidate_index
*9c5db199SXin Li
*9c5db199SXin Li    results = []
*9c5db199SXin Li    mid = 0
*9c5db199SXin Li    next_candidate_idx = None
*9c5db199SXin Li    while mid < length:
*9c5db199SXin Li        left = max(0, mid - half_window_size)
*9c5db199SXin Li        right = min(length - 1, mid + half_window_size)
*9c5db199SXin Li
*9c5db199SXin Li        # Only consider value greater than 0.
*9c5db199SXin Li        if array[mid] == 0:
*9c5db199SXin Li            mid = mid + 1
*9c5db199SXin Li            continue;
*9c5db199SXin Li
*9c5db199SXin Li        is_peak, next_candidate_idx = mid_is_peak(array, mid, left, right)
*9c5db199SXin Li
*9c5db199SXin Li        if is_peak:
*9c5db199SXin Li            results.append((mid, array[mid]))
*9c5db199SXin Li
*9c5db199SXin Li        # Use the next candidate found in [mid + 1, right], or right + 1.
*9c5db199SXin Li        mid = next_candidate_idx
*9c5db199SXin Li
*9c5db199SXin Li    # Sort the peaks by values.
*9c5db199SXin Li    return sorted(results, key=lambda x: x[1], reverse=True)
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Li# The default pattern mathing threshold. By experiment, this threshold
*9c5db199SXin Li# can tolerate normal noise of 0.3 amplitude when sine wave signal
*9c5db199SXin Li# amplitude is 1.
*9c5db199SXin LiPATTERN_MATCHING_THRESHOLD = 0.85
*9c5db199SXin Li
*9c5db199SXin Li# The default block size of pattern matching.
*9c5db199SXin LiANOMALY_DETECTION_BLOCK_SIZE = 120
*9c5db199SXin Li
*9c5db199SXin Lidef anomaly_detection(signal, rate, freq,
*9c5db199SXin Li                      block_size=ANOMALY_DETECTION_BLOCK_SIZE,
*9c5db199SXin Li                      threshold=PATTERN_MATCHING_THRESHOLD):
*9c5db199SXin Li    """Detects anomaly in a sine wave signal.
*9c5db199SXin Li
*9c5db199SXin Li    This method detects anomaly in a sine wave signal by matching
*9c5db199SXin Li    patterns of each block.
*9c5db199SXin Li    For each moving window of block in the test signal, checks if there
*9c5db199SXin Li    is any block in golden signal that is similar to this block of test signal.
*9c5db199SXin Li    If there is such a block in golden signal, then this block of test
*9c5db199SXin Li    signal is matched and there is no anomaly in this block of test signal.
*9c5db199SXin Li    If there is any block in test signal that is not matched, then this block
*9c5db199SXin Li    covers an anomaly.
*9c5db199SXin Li    The block of test signal starts from index 0, and proceeds in steps of
*9c5db199SXin Li    half block size. The overlapping of test signal blocks makes sure there must
*9c5db199SXin Li    be at least one block covering the transition from sine wave to anomaly.
*9c5db199SXin Li
*9c5db199SXin Li    @param signal: A 1-D array-like object for 1-channel PCM data.
*9c5db199SXin Li    @param rate: The sampling rate.
*9c5db199SXin Li    @param freq: The expected frequency of signal.
*9c5db199SXin Li    @param block_size: The block size in samples to detect anomaly.
*9c5db199SXin Li    @param threshold: The threshold of correlation index to be judge as matched.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: A list containing detected anomaly time in seconds.
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    if len(signal) == 0:
*9c5db199SXin Li        raise EmptyDataError('Signal data is empty')
*9c5db199SXin Li
*9c5db199SXin Li    golden_y = _generate_golden_pattern(rate, freq, block_size)
*9c5db199SXin Li
*9c5db199SXin Li    results = []
*9c5db199SXin Li
*9c5db199SXin Li    for start in range(0, len(signal), block_size // 2):
*9c5db199SXin Li        end = start + block_size
*9c5db199SXin Li        test_signal = signal[start:end]
*9c5db199SXin Li        matched = _moving_pattern_matching(golden_y, test_signal, threshold)
*9c5db199SXin Li        if not matched:
*9c5db199SXin Li            results.append(start)
*9c5db199SXin Li
*9c5db199SXin Li    results = [float(x) / rate for x in results]
*9c5db199SXin Li
*9c5db199SXin Li    return results
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Lidef _generate_golden_pattern(rate, freq, block_size):
*9c5db199SXin Li    """Generates a golden pattern of certain frequency.
*9c5db199SXin Li
*9c5db199SXin Li    The golden pattern must cover all the possibilities of waveforms in a
*9c5db199SXin Li    block. So, we need a golden pattern covering 1 period + 1 block size,
*9c5db199SXin Li    such that the test block can start anywhere in a period, and extends
*9c5db199SXin Li    a block size.
*9c5db199SXin Li
*9c5db199SXin Li    |period |1 bk|
*9c5db199SXin Li    |       |    |
*9c5db199SXin Li     . .     . .
*9c5db199SXin Li    .   .   .   .
*9c5db199SXin Li         . .     .
*9c5db199SXin Li
*9c5db199SXin Li    @param rate: The sampling rate.
*9c5db199SXin Li    @param freq: The frequency of golden pattern.
*9c5db199SXin Li    @param block_size: The block size in samples to detect anomaly.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: A 1-D array for golden pattern.
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    samples_in_a_period = int(rate / freq) + 1
*9c5db199SXin Li    samples_in_golden_pattern = samples_in_a_period + block_size
*9c5db199SXin Li    golden_x = numpy.linspace(
*9c5db199SXin Li            0.0, (samples_in_golden_pattern - 1) * 1.0 / rate,
*9c5db199SXin Li            samples_in_golden_pattern)
*9c5db199SXin Li    golden_y = numpy.sin(freq * 2.0 * numpy.pi * golden_x)
*9c5db199SXin Li    return golden_y
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Lidef _moving_pattern_matching(golden_signal, test_signal, threshold):
*9c5db199SXin Li    """Checks if test_signal is similar to any block of golden_signal.
*9c5db199SXin Li
*9c5db199SXin Li    Compares test signal with each block of golden signal by correlation
*9c5db199SXin Li    index. If there is any block of golden signal that is similar to
*9c5db199SXin Li    test signal, then it is matched.
*9c5db199SXin Li
*9c5db199SXin Li    @param golden_signal: A 1-D array for golden signal.
*9c5db199SXin Li    @param test_signal: A 1-D array for test signal.
*9c5db199SXin Li    @param threshold: The threshold of correlation index to be judge as matched.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: True if there is a match. False otherwise.
*9c5db199SXin Li
*9c5db199SXin Li    @raises: ValueError: if test signal is longer than golden signal.
*9c5db199SXin Li
*9c5db199SXin Li    """
*9c5db199SXin Li    if len(golden_signal) < len(test_signal):
*9c5db199SXin Li        raise ValueError('Test signal is longer than golden signal')
*9c5db199SXin Li
*9c5db199SXin Li    block_length = len(test_signal)
*9c5db199SXin Li    number_of_movings = len(golden_signal) - block_length + 1
*9c5db199SXin Li    correlation_indices = []
*9c5db199SXin Li    for moving_index in range(number_of_movings):
*9c5db199SXin Li        # Cuts one block of golden signal from start index.
*9c5db199SXin Li        # The block length is the same as test signal.
*9c5db199SXin Li        start = moving_index
*9c5db199SXin Li        end = start + block_length
*9c5db199SXin Li        golden_signal_block = golden_signal[start:end]
*9c5db199SXin Li        try:
*9c5db199SXin Li            correlation_index = _get_correlation_index(
*9c5db199SXin Li                    golden_signal_block, test_signal)
*9c5db199SXin Li        except TestSignalNormTooSmallError:
*9c5db199SXin Li            logging.info('Caught one block of test signal that has no meaningful norm')
*9c5db199SXin Li            return False
*9c5db199SXin Li        correlation_indices.append(correlation_index)
*9c5db199SXin Li
*9c5db199SXin Li    # Checks if the maximum correlation index is high enough.
*9c5db199SXin Li    max_corr = max(correlation_indices)
*9c5db199SXin Li    if max_corr < threshold:
*9c5db199SXin Li        logging.debug('Got one unmatched block with max_corr: %s', max_corr)
*9c5db199SXin Li        return False
*9c5db199SXin Li    return True
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Liclass GoldenSignalNormTooSmallError(Exception):
*9c5db199SXin Li    """Exception when golden signal norm is too small."""
*9c5db199SXin Li    pass
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Liclass TestSignalNormTooSmallError(Exception):
*9c5db199SXin Li    """Exception when test signal norm is too small."""
*9c5db199SXin Li    pass
*9c5db199SXin Li
*9c5db199SXin Li
*9c5db199SXin Li_MINIMUM_SIGNAL_NORM = 0.001
*9c5db199SXin Li
*9c5db199SXin Lidef _get_correlation_index(golden_signal, test_signal):
*9c5db199SXin Li    """Computes correlation index of two signal of same length.
*9c5db199SXin Li
*9c5db199SXin Li    @param golden_signal: An 1-D array-like object.
*9c5db199SXin Li    @param test_signal: An 1-D array-like object.
*9c5db199SXin Li
*9c5db199SXin Li    @raises: ValueError: if two signal have different lengths.
*9c5db199SXin Li    @raises: GoldenSignalNormTooSmallError: if golden signal norm is too small
*9c5db199SXin Li    @raises: TestSignalNormTooSmallError: if test signal norm is too small.
*9c5db199SXin Li
*9c5db199SXin Li    @returns: The correlation index.
*9c5db199SXin Li    """
*9c5db199SXin Li    if len(golden_signal) != len(test_signal):
*9c5db199SXin Li        raise ValueError(
*9c5db199SXin Li                'Only accepts signal of same length: %s, %s' % (
*9c5db199SXin Li                        len(golden_signal), len(test_signal)))
*9c5db199SXin Li
*9c5db199SXin Li    norm_golden = numpy.linalg.norm(golden_signal)
*9c5db199SXin Li    norm_test = numpy.linalg.norm(test_signal)
*9c5db199SXin Li    if norm_golden <= _MINIMUM_SIGNAL_NORM:
*9c5db199SXin Li        raise GoldenSignalNormTooSmallError(
*9c5db199SXin Li                'No meaningful data as norm is too small.')
*9c5db199SXin Li    if norm_test <= _MINIMUM_SIGNAL_NORM:
*9c5db199SXin Li        raise TestSignalNormTooSmallError(
*9c5db199SXin Li                'No meaningful data as norm is too small.')
*9c5db199SXin Li
*9c5db199SXin Li    # The 'valid' cross correlation result of two signals of same length will
*9c5db199SXin Li    # contain only one number.
*9c5db199SXin Li    correlation = numpy.correlate(golden_signal, test_signal, 'valid')[0]
*9c5db199SXin Li    return correlation / (norm_golden * norm_test)