qualcomm/quantizer/qconfig.py

*523fa7a6SAndroid Build Coastguard Workerfrom dataclasses import dataclass
*523fa7a6SAndroid Build Coastguard Workerfrom typing import Any, Callable, Dict, List, Optional, Tuple
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Workerfrom torch import Tensor
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.fake_quantize import (
*523fa7a6SAndroid Build Coastguard Worker    FakeQuantize,
*523fa7a6SAndroid Build Coastguard Worker    FusedMovingAvgObsFakeQuantize,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.observer import (
*523fa7a6SAndroid Build Coastguard Worker    MinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    MovingAveragePerChannelMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    PerChannelMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom torch.ao.quantization.quantizer import DerivedQuantizationSpec, QuantizationSpec
*523fa7a6SAndroid Build Coastguard Workerfrom torch.fx import Node
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker@dataclass(eq=True, frozen=True)
*523fa7a6SAndroid Build Coastguard Workerclass QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    input_activation: Optional[QuantizationSpec]
*523fa7a6SAndroid Build Coastguard Worker    output_activation: Optional[QuantizationSpec]
*523fa7a6SAndroid Build Coastguard Worker    weight: Optional[QuantizationSpec]
*523fa7a6SAndroid Build Coastguard Worker    bias: Optional[QuantizationSpec | Callable]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _derived_bias_quant_spec(node: Node) -> DerivedQuantizationSpec:
*523fa7a6SAndroid Build Coastguard Worker    def _derive_bias_qparams_fn(
*523fa7a6SAndroid Build Coastguard Worker        obs_or_fqs: List,
*523fa7a6SAndroid Build Coastguard Worker    ) -> Tuple[Tensor, Tensor]:
*523fa7a6SAndroid Build Coastguard Worker        assert (
*523fa7a6SAndroid Build Coastguard Worker            len(obs_or_fqs) == 2
*523fa7a6SAndroid Build Coastguard Worker        ), f"Expecting two obs/fqs, one for activation and one for weight, got: {len(obs_or_fqs)}"
*523fa7a6SAndroid Build Coastguard Worker        act_obs_or_fq = obs_or_fqs[0]
*523fa7a6SAndroid Build Coastguard Worker        weight_obs_or_fq = obs_or_fqs[1]
*523fa7a6SAndroid Build Coastguard Worker        weight_scale, weight_zp = weight_obs_or_fq.calculate_qparams()
*523fa7a6SAndroid Build Coastguard Worker        act_scale, act_zp = act_obs_or_fq.calculate_qparams()
*523fa7a6SAndroid Build Coastguard Worker        (broadcast_act_scale, broadcast_weight_scale) = torch.broadcast_tensors(
*523fa7a6SAndroid Build Coastguard Worker            act_scale, weight_scale
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        derived_scale = (broadcast_act_scale * broadcast_weight_scale).to(torch.float32)
*523fa7a6SAndroid Build Coastguard Worker        derived_zero = torch.zeros(derived_scale.size()).to(torch.int32)
*523fa7a6SAndroid Build Coastguard Worker        return (derived_scale, derived_zero)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    input_act = node.args[0]
*523fa7a6SAndroid Build Coastguard Worker    assert isinstance(input_act, Node)
*523fa7a6SAndroid Build Coastguard Worker    weight = node.args[1]
*523fa7a6SAndroid Build Coastguard Worker    assert isinstance(weight, Node)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return DerivedQuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        derived_from=[(input_act, node), (weight, node)],
*523fa7a6SAndroid Build Coastguard Worker        derive_qparams_fn=_derive_bias_qparams_fn,
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_channel_symmetric,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_8a8w_qnn_ptq_config(
*523fa7a6SAndroid Build Coastguard Worker    act_symmetric: bool = False, act_observer=MovingAverageMinMaxObserver
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    extra_args: Dict[str, Any] = {"eps": 2**-12}
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=(
*523fa7a6SAndroid Build Coastguard Worker            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
*523fa7a6SAndroid Build Coastguard Worker        ),
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int8).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int8).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# 4 bits quantization only supports specific ops.
*523fa7a6SAndroid Build Coastguard Workerdef get_16a4w_qnn_ptq_config(
*523fa7a6SAndroid Build Coastguard Worker    act_observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    extra_args: Dict[str, Any] = {"eps": 2**-20}
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.uint16).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.uint16).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=-7,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=7,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_16a8w_qnn_ptq_config(
*523fa7a6SAndroid Build Coastguard Worker    act_observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    extra_args: Dict[str, Any] = {"eps": 2**-20}
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.uint16).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.uint16).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_16a16w_qnn_ptq_config(
*523fa7a6SAndroid Build Coastguard Worker    act_observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    extra_args: Dict[str, Any] = {"eps": 2**-20}
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.uint16).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.uint16).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int16,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int16).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int16).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # torch does not support uint16 quantization, use int32 to bypass
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=MinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_ptq_per_channel_quant_config(
*523fa7a6SAndroid Build Coastguard Worker    act_dtype=torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker    weight_dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker    act_observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    extra_args: Dict[str, Any] = {"eps": 2**-12}
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    supported_act_types = {
*523fa7a6SAndroid Build Coastguard Worker        torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker        torch.uint16,
*523fa7a6SAndroid Build Coastguard Worker        torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        torch.int16,
*523fa7a6SAndroid Build Coastguard Worker    }
*523fa7a6SAndroid Build Coastguard Worker    # TODO accept "int4" temporally. Remove "int4" when torch support torch.int4 dtype
*523fa7a6SAndroid Build Coastguard Worker    supported_weight_dtypes = {"int4", torch.int8, torch.int16}
*523fa7a6SAndroid Build Coastguard Worker    assert (
*523fa7a6SAndroid Build Coastguard Worker        act_dtype in supported_act_types
*523fa7a6SAndroid Build Coastguard Worker    ), f"act_dtype, {act_dtype} is not one of supported types, {supported_act_types}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    assert (
*523fa7a6SAndroid Build Coastguard Worker        weight_dtype in supported_weight_dtypes
*523fa7a6SAndroid Build Coastguard Worker    ), f"weight_dtype, {weight_dtype} is not one of supported types, {supported_weight_dtypes}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # torch do not support uint16 quantization, use int32 to bypass
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32 if act_dtype == torch.uint16 else act_dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(act_dtype).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(act_dtype).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8 if weight_dtype == "int4" else weight_dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=-7 if weight_dtype == "int4" else torch.iinfo(weight_dtype).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=7 if weight_dtype == "int4" else torch.iinfo(weight_dtype).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_channel_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=PerChannelMinMaxObserver.with_args(**extra_args),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = _derived_bias_quant_spec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# TODO merge qat and ptq to a fucntion, and use a bool flag to control it
*523fa7a6SAndroid Build Coastguard Workerdef get_8a8w_qnn_qat_config(
*523fa7a6SAndroid Build Coastguard Worker    act_symmetric: bool = False, act_observer=MovingAverageMinMaxObserver
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_fake_quant_ctr = FakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=(
*523fa7a6SAndroid Build Coastguard Worker            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
*523fa7a6SAndroid Build Coastguard Worker        ),
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=act_observer,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=(
*523fa7a6SAndroid Build Coastguard Worker            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
*523fa7a6SAndroid Build Coastguard Worker        ),
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_fake_quant_ctr = FusedMovingAvgObsFakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int8).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int8).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int8).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int8).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=weight_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_fake_quant_ctr = FakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=bias_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_16a4w_qnn_qat_config(
*523fa7a6SAndroid Build Coastguard Worker    act_observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    act_fake_quant_ctr = FakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.uint16).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.uint16).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=act_observer,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.uint16).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.uint16).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_fake_quant_ctr = FusedMovingAvgObsFakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=-7,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=7,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=-7,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=7,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=weight_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_fake_quant_ctr = FakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(torch.int32).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(torch.int32).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=bias_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_qat_per_channel_quant_config(
*523fa7a6SAndroid Build Coastguard Worker    act_dtype=torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker    weight_dtype=torch.int8,
*523fa7a6SAndroid Build Coastguard Worker    act_observer=MovingAverageMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker) -> QuantizationConfig:
*523fa7a6SAndroid Build Coastguard Worker    supported_act_types = {
*523fa7a6SAndroid Build Coastguard Worker        torch.uint8,
*523fa7a6SAndroid Build Coastguard Worker        torch.uint16,
*523fa7a6SAndroid Build Coastguard Worker        torch.int8,
*523fa7a6SAndroid Build Coastguard Worker        torch.int16,
*523fa7a6SAndroid Build Coastguard Worker    }
*523fa7a6SAndroid Build Coastguard Worker    # TODO accept "int4" temporally. Remove "int4" when torch support torch.int4 dtype
*523fa7a6SAndroid Build Coastguard Worker    supported_weight_dtypes = {"int4", torch.int8, torch.int16}
*523fa7a6SAndroid Build Coastguard Worker    assert (
*523fa7a6SAndroid Build Coastguard Worker        act_dtype in supported_act_types
*523fa7a6SAndroid Build Coastguard Worker    ), f"act_dtype, {act_dtype} is not one of supported types, {supported_act_types}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    assert (
*523fa7a6SAndroid Build Coastguard Worker        weight_dtype in supported_weight_dtypes
*523fa7a6SAndroid Build Coastguard Worker    ), f"weight_dtype, {weight_dtype} is not one of supported types, {supported_weight_dtypes}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # torch do not support uint16 quantization, use int32 to bypass
*523fa7a6SAndroid Build Coastguard Worker    act_fake_quant_ctr = FakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32 if act_dtype == torch.uint16 else act_dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(act_dtype).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(act_dtype).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        reduce_range=True,
*523fa7a6SAndroid Build Coastguard Worker        observer=act_observer,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    act_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int32 if act_dtype == torch.uint16 else act_dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=torch.iinfo(act_dtype).min,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=torch.iinfo(act_dtype).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_tensor_affine,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=act_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    weight_fake_quant_ctr = FusedMovingAvgObsFakeQuantize.with_args(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8 if weight_dtype == "int4" else weight_dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=-7 if weight_dtype == "int4" else torch.iinfo(weight_dtype).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=7 if weight_dtype == "int4" else torch.iinfo(weight_dtype).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_channel_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer=MovingAveragePerChannelMinMaxObserver,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    weight_quantization_spec = QuantizationSpec(
*523fa7a6SAndroid Build Coastguard Worker        dtype=torch.int8 if weight_dtype == "int4" else weight_dtype,
*523fa7a6SAndroid Build Coastguard Worker        quant_min=-7 if weight_dtype == "int4" else torch.iinfo(weight_dtype).min + 1,
*523fa7a6SAndroid Build Coastguard Worker        quant_max=7 if weight_dtype == "int4" else torch.iinfo(weight_dtype).max,
*523fa7a6SAndroid Build Coastguard Worker        qscheme=torch.per_channel_symmetric,
*523fa7a6SAndroid Build Coastguard Worker        ch_axis=0,
*523fa7a6SAndroid Build Coastguard Worker        observer_or_fake_quant_ctr=weight_fake_quant_ctr,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bias_quantization_spec = _derived_bias_quant_spec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    quantization_config = QuantizationConfig(
*523fa7a6SAndroid Build Coastguard Worker        input_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        output_activation=act_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        weight=weight_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker        bias=bias_quantization_spec,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return quantization_config