mediatek/quantizer/qconfig.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) 2024 MediaTek Inc.
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# Licensed under the BSD License (the "License"); you may not use this file
*523fa7a6SAndroid Build Coastguard Worker# except in compliance with the License. See the license file in the root
*523fa7a6SAndroid Build Coastguard Worker# directory of this source tree for more details.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport copy
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom enum import IntEnum, unique
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.fake_quantize import FakeQuantize
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.observer import MinMaxObserver, PerChannelMinMaxObserver
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.quantizer import QuantizationSpec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker@unique
*523fa7a6SAndroid Build Coastguard Workerclass Precision(IntEnum):
*523fa7a6SAndroid Build Coastguard Worker    A16W16 = 0
*523fa7a6SAndroid Build Coastguard Worker    A16W8 = 1
*523fa7a6SAndroid Build Coastguard Worker    A16W4 = 2
*523fa7a6SAndroid Build Coastguard Worker    A8W8 = 3
*523fa7a6SAndroid Build Coastguard Worker    A8W4 = 4
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def __init__(
*523fa7a6SAndroid Build Coastguard Worker        self, activation_spec: QuantizationSpec, weight_spec: QuantizationSpec
*523fa7a6SAndroid Build Coastguard Worker    ):
*523fa7a6SAndroid Build Coastguard Worker        self._activation_spec = activation_spec
*523fa7a6SAndroid Build Coastguard Worker        self._weight_spec = weight_spec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    @property
*523fa7a6SAndroid Build Coastguard Worker    def activation(self):
*523fa7a6SAndroid Build Coastguard Worker        return copy.deepcopy(self._activation_spec)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    @property
*523fa7a6SAndroid Build Coastguard Worker    def weight(self):
*523fa7a6SAndroid Build Coastguard Worker        return copy.deepcopy(self._weight_spec)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_quant_config(
*523fa7a6SAndroid Build Coastguard Worker    precision: Precision,
*523fa7a6SAndroid Build Coastguard Worker    is_per_channel: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    is_qat: bool = False,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    precision_mappings = {
*523fa7a6SAndroid Build Coastguard Worker        Precision.A16W16: get_a16w16_quant_config,
*523fa7a6SAndroid Build Coastguard Worker        Precision.A16W8: get_a16w8_quant_config,
*523fa7a6SAndroid Build Coastguard Worker        Precision.A16W4: get_a16w4_quant_config,
*523fa7a6SAndroid Build Coastguard Worker        Precision.A8W8: get_a8w8_quant_config,
*523fa7a6SAndroid Build Coastguard Worker        Precision.A8W4: get_a8w4_quant_config,
*523fa7a6SAndroid Build Coastguard Worker    }
*523fa7a6SAndroid Build Coastguard Worker    if precision not in precision_mappings:
*523fa7a6SAndroid Build Coastguard Worker        raise RuntimeError("Unrecognized precision setting.")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    qconfig_fn = precision_mappings[precision]
*523fa7a6SAndroid Build Coastguard Worker    return qconfig_fn(is_per_channel, is_qat)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _get_activation_qspec(
*523fa7a6SAndroid Build Coastguard Worker    dtype,
*523fa7a6SAndroid Build Coastguard Worker    is_symmetric,
*523fa7a6SAndroid Build Coastguard Worker    is_qat,
*523fa7a6SAndroid Build Coastguard Worker    observer_cls=MinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    quant_min=None,
*523fa7a6SAndroid Build Coastguard Worker    quant_max=None,
*523fa7a6SAndroid Build Coastguard Worker):
*523fa7a6SAndroid Build Coastguard Worker    if quant_max is None:
*523fa7a6SAndroid Build Coastguard Worker        quant_max = torch.iinfo(dtype).max
*523fa7a6SAndroid Build Coastguard Worker    if quant_min is None:
*523fa7a6SAndroid Build Coastguard Worker        # quant_min = torch.iinfo(dtype).min + 1 if is_symmetric else torch.iinfo(dtype).min
*523fa7a6SAndroid Build Coastguard Worker        quant_min = torch.iinfo(dtype).min
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    qscheme = torch.per_tensor_symmetric if is_symmetric else torch.per_tensor_affine
*523fa7a6SAndroid Build Coastguard Worker    if is_qat:
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant = FakeQuantize.with_args(observer=observer_cls, eps=1e-6)
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant = observer_cls.with_args(eps=1e-6)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=quant_min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=quant_max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=qscheme,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=observer_or_fake_quant,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _get_weight_qspec(
*523fa7a6SAndroid Build Coastguard Worker    dtype, is_symmetric, is_per_channel, is_qat, quant_min=None, quant_max=None
*523fa7a6SAndroid Build Coastguard Worker):
*523fa7a6SAndroid Build Coastguard Worker    if not is_per_channel:
*523fa7a6SAndroid Build Coastguard Worker        return _get_activation_qspec(
*523fa7a6SAndroid Build Coastguard Worker            dtype, is_symmetric, is_qat, observer_cls=MinMaxObserver
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if quant_max is None:
*523fa7a6SAndroid Build Coastguard Worker        quant_max = torch.iinfo(dtype).max
*523fa7a6SAndroid Build Coastguard Worker    if quant_min is None:
*523fa7a6SAndroid Build Coastguard Worker        # quant_min = torch.iinfo(dtype).min + 1 if is_symmetric else torch.iinfo(dtype).min
*523fa7a6SAndroid Build Coastguard Worker        quant_min = torch.iinfo(dtype).min
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    qscheme = torch.per_channel_symmetric if is_symmetric else torch.per_channel_affine
*523fa7a6SAndroid Build Coastguard Worker    if is_qat:
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant = FakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker            observer=PerChannelMinMaxObserver, eps=1e-6
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant = PerChannelMinMaxObserver.with_args(eps=1e-6)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=quant_min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=quant_max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=qscheme,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=observer_or_fake_quant,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_a16w16_quant_config(is_per_channel, is_qat) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = _get_activation_qspec(torch.int16, True, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    wgt_quantization_spec = _get_weight_qspec(torch.int16, True, is_per_channel, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        act_quantization_spec, wgt_quantization_spec
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_a16w8_quant_config(is_per_channel, is_qat) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = _get_activation_qspec(torch.int16, True, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    wgt_quantization_spec = _get_weight_qspec(torch.int8, True, is_per_channel, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        act_quantization_spec, wgt_quantization_spec
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_a16w4_quant_config(is_per_channel, is_qat) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = _get_activation_qspec(torch.int16, True, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    wgt_quantization_spec = _get_weight_qspec(
*523fa7a6SAndroid Build Coastguard Worker        torch.int8, False, is_per_channel, is_qat, quant_min=-8, quant_max=7
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        act_quantization_spec, wgt_quantization_spec
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_a8w8_quant_config(is_per_channel, is_qat) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = _get_activation_qspec(torch.int8, False, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    wgt_quantization_spec = _get_weight_qspec(torch.int8, False, is_per_channel, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        act_quantization_spec, wgt_quantization_spec
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_a8w4_quant_config(is_per_channel, is_qat) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = _get_activation_qspec(torch.int8, False, is_qat)
*523fa7a6SAndroid Build Coastguard Worker    wgt_quantization_spec = _get_weight_qspec(
*523fa7a6SAndroid Build Coastguard Worker        torch.int8, False, is_per_channel, is_qat, quant_min=-8, quant_max=7
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        act_quantization_spec, wgt_quantization_spec
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config