executorch/exir/memory_planning.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) Meta Platforms, Inc. and affiliates.
*523fa7a6SAndroid Build Coastguard Worker# All rights reserved.
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# This source code is licensed under the BSD-style license found in the
*523fa7a6SAndroid Build Coastguard Worker# LICENSE file in the root directory of this source tree.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# pyre-strict
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport itertools
*523fa7a6SAndroid Build Coastguard Workerimport logging
*523fa7a6SAndroid Build Coastguard Workerimport operator
*523fa7a6SAndroid Build Coastguard Workerimport typing
*523fa7a6SAndroid Build Coastguard Workerfrom collections import defaultdict
*523fa7a6SAndroid Build Coastguard Workerfrom dataclasses import dataclass
*523fa7a6SAndroid Build Coastguard Workerfrom typing import Any, Callable, Dict, Iterable, List, Optional, Set, Tuple, Union
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir import memory
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.control_flow import while_loop as exir_while
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.delegate import executorch_call_delegate
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.error import internal_assert, InternalError
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.operator.convert import is_inplace_variant, is_out_variant
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.schema import TensorShapeDynamism
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.tensor import TensorSpec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom torch import fx
*523fa7a6SAndroid Build Coastguard Workerfrom torch.export.exported_program import ExportGraphSignature
*523fa7a6SAndroid Build Coastguard Workerfrom torch.fx import Node
*523fa7a6SAndroid Build Coastguard Workerfrom torch.utils._pytree import tree_flatten
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard WorkerREGISTERED_ALGOS: Dict[str, Callable[..., List[int]]] = {}
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass Verifier:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Verify if the outcome of a memory planning algorithm makes sense.
*523fa7a6SAndroid Build Coastguard Worker    E.g., make sure tensors having overlapping lifetime does not have overlapping
*523fa7a6SAndroid Build Coastguard Worker    storage/buffer.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def __init__(
*523fa7a6SAndroid Build Coastguard Worker        self,
*523fa7a6SAndroid Build Coastguard Worker        graph_module: torch.fx.GraphModule,
*523fa7a6SAndroid Build Coastguard Worker        alloc_graph_input: bool,
*523fa7a6SAndroid Build Coastguard Worker        alloc_graph_output: bool,
*523fa7a6SAndroid Build Coastguard Worker        graph_signature: Optional[ExportGraphSignature] = None,
*523fa7a6SAndroid Build Coastguard Worker    ) -> None:
*523fa7a6SAndroid Build Coastguard Worker        self.graph_module = graph_module
*523fa7a6SAndroid Build Coastguard Worker        self.graph_signature = graph_signature
*523fa7a6SAndroid Build Coastguard Worker        self.alloc_graph_input = alloc_graph_input
*523fa7a6SAndroid Build Coastguard Worker        self.alloc_graph_output = alloc_graph_output
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    @classmethod
*523fa7a6SAndroid Build Coastguard Worker    def mem_obj_id_match(
*523fa7a6SAndroid Build Coastguard Worker        cls, lhs_spec: TensorSpec, rhs_spec: TensorSpec, accept_both_none: bool = True
*523fa7a6SAndroid Build Coastguard Worker    ) -> bool:
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        Given two `TensorSpec`, return if their `mem_obj_id` are the same. Note that if
*523fa7a6SAndroid Build Coastguard Worker        both are None, this function will return True if `accept_both_none` is True and
*523fa7a6SAndroid Build Coastguard Worker        False otherwise.
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        if lhs_spec.mem_id != rhs_spec.mem_id:
*523fa7a6SAndroid Build Coastguard Worker            return False
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # both are None
*523fa7a6SAndroid Build Coastguard Worker        if lhs_spec.mem_obj_id is None and rhs_spec.mem_obj_id is None:
*523fa7a6SAndroid Build Coastguard Worker            return accept_both_none
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return lhs_spec.mem_obj_id == rhs_spec.mem_obj_id
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    @classmethod
*523fa7a6SAndroid Build Coastguard Worker    def has_overlap(cls, lhs_ivl: List[int], rhs_ivl: List[int]) -> bool:
*523fa7a6SAndroid Build Coastguard Worker        r"""
*523fa7a6SAndroid Build Coastguard Worker        The passed in intervals are inclusive in both sides. Return if they have
*523fa7a6SAndroid Build Coastguard Worker        overlapping.
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        # empty interval
*523fa7a6SAndroid Build Coastguard Worker        if lhs_ivl[0] > lhs_ivl[1] or rhs_ivl[0] > rhs_ivl[1]:
*523fa7a6SAndroid Build Coastguard Worker            return False
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return (lhs_ivl[0] >= rhs_ivl[0] and lhs_ivl[0] <= rhs_ivl[1]) or (
*523fa7a6SAndroid Build Coastguard Worker            rhs_ivl[0] >= lhs_ivl[0] and rhs_ivl[0] <= lhs_ivl[1]
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    @classmethod
*523fa7a6SAndroid Build Coastguard Worker    def lifetime_overlap(cls, lhs_spec: TensorSpec, rhs_spec: TensorSpec) -> bool:
*523fa7a6SAndroid Build Coastguard Worker        lhs_lifetime = lhs_spec.lifetime
*523fa7a6SAndroid Build Coastguard Worker        rhs_lifetime = rhs_spec.lifetime
*523fa7a6SAndroid Build Coastguard Worker        internal_assert(
*523fa7a6SAndroid Build Coastguard Worker            lhs_lifetime[0] is not None and lhs_lifetime[1] is not None,
*523fa7a6SAndroid Build Coastguard Worker            f"{lhs_spec} should have valid start and end",
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        internal_assert(
*523fa7a6SAndroid Build Coastguard Worker            rhs_lifetime[0] is not None and rhs_lifetime[1] is not None,
*523fa7a6SAndroid Build Coastguard Worker            f"{rhs_spec} should have valid start and end",
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        return cls.has_overlap(lhs_lifetime, rhs_lifetime)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    @classmethod
*523fa7a6SAndroid Build Coastguard Worker    def storage_overlap(cls, lhs_spec: TensorSpec, rhs_spec: TensorSpec) -> bool:
*523fa7a6SAndroid Build Coastguard Worker        intervals = []
*523fa7a6SAndroid Build Coastguard Worker        if lhs_spec.mem_id != rhs_spec.mem_id:
*523fa7a6SAndroid Build Coastguard Worker            return False
*523fa7a6SAndroid Build Coastguard Worker        for spec in [lhs_spec, rhs_spec]:
*523fa7a6SAndroid Build Coastguard Worker            internal_assert(
*523fa7a6SAndroid Build Coastguard Worker                spec.allocated_memory >= 0,
*523fa7a6SAndroid Build Coastguard Worker                f"{spec} should have non-zero allocated memory",
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            internal_assert(
*523fa7a6SAndroid Build Coastguard Worker                isinstance(spec.mem_offset, int) and spec.mem_offset >= 0,
*523fa7a6SAndroid Build Coastguard Worker                f"{spec} should have specified memory offset",
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            intervals.append(
*523fa7a6SAndroid Build Coastguard Worker                [spec.mem_offset, spec.mem_offset + spec.allocated_memory - 1]
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        has_overlap = cls.has_overlap(*intervals)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return has_overlap
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def verify_storage_reuse(
*523fa7a6SAndroid Build Coastguard Worker        self, allow_lifetime_and_storage_overlap: bool = False
*523fa7a6SAndroid Build Coastguard Worker    ) -> int:
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        'allow_lifetime_and_storage_overlap' allows tensors to overlap in both
*523fa7a6SAndroid Build Coastguard Worker        lifetime and storage. If is it False, and two tensors have both overlapping
*523fa7a6SAndroid Build Coastguard Worker        lifetime and storage, throw an exception.
*523fa7a6SAndroid Build Coastguard Worker        Returns:
*523fa7a6SAndroid Build Coastguard Worker            Number of pairs of tenors that have overlapping storage.
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        num_reuse_pairs = 0
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # unique tensors specs
*523fa7a6SAndroid Build Coastguard Worker        all_specs = list(
*523fa7a6SAndroid Build Coastguard Worker            collect_specs_from_nodes(
*523fa7a6SAndroid Build Coastguard Worker                self.graph_module.graph.nodes,
*523fa7a6SAndroid Build Coastguard Worker                self.graph_signature,
*523fa7a6SAndroid Build Coastguard Worker                ignore_const=True,
*523fa7a6SAndroid Build Coastguard Worker                ignore_graph_input=not self.alloc_graph_input,
*523fa7a6SAndroid Build Coastguard Worker                ignore_graph_output=not self.alloc_graph_output,
*523fa7a6SAndroid Build Coastguard Worker                do_assertion=False,
*523fa7a6SAndroid Build Coastguard Worker                ignore_out_var_node=False,
*523fa7a6SAndroid Build Coastguard Worker                dedup=True,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for lhs_spec_idx, lhs_spec in enumerate(all_specs):
*523fa7a6SAndroid Build Coastguard Worker            for rhs_spec in all_specs[lhs_spec_idx + 1 :]:
*523fa7a6SAndroid Build Coastguard Worker                # Check that both specs are consistent about whether mem_obj_id is defined
*523fa7a6SAndroid Build Coastguard Worker                if (lhs_spec.mem_obj_id is None) != (rhs_spec.mem_obj_id is None):
*523fa7a6SAndroid Build Coastguard Worker                    raise InternalError(
*523fa7a6SAndroid Build Coastguard Worker                        "Specs do not agree on whether mem_obj_id is defined."
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker                has_storage_overlap = Verifier.storage_overlap(lhs_spec, rhs_spec)
*523fa7a6SAndroid Build Coastguard Worker                if not has_storage_overlap:
*523fa7a6SAndroid Build Coastguard Worker                    continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker                if not allow_lifetime_and_storage_overlap and self.lifetime_overlap(
*523fa7a6SAndroid Build Coastguard Worker                    lhs_spec, rhs_spec
*523fa7a6SAndroid Build Coastguard Worker                ):
*523fa7a6SAndroid Build Coastguard Worker                    raise InternalError(
*523fa7a6SAndroid Build Coastguard Worker                        f"Unexpected storage overlap: lhs {lhs_spec}, rhs {rhs_spec}"
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker                # Check that each mem_obj_id is consistent with whether the tensors have
*523fa7a6SAndroid Build Coastguard Worker                # storage overlap
*523fa7a6SAndroid Build Coastguard Worker                if not Verifier.mem_obj_id_match(lhs_spec, rhs_spec):
*523fa7a6SAndroid Build Coastguard Worker                    raise InternalError(
*523fa7a6SAndroid Build Coastguard Worker                        f"Unexpected mem_obj_id mismatch: lhs {lhs_spec}, rhs {rhs_spec}"
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker                num_reuse_pairs += 1
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return num_reuse_pairs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def verify_graph_input_output(self) -> None:
*523fa7a6SAndroid Build Coastguard Worker        r"""
*523fa7a6SAndroid Build Coastguard Worker        alloc_graph_input / alloc_graph_output indicas if memory for graph
*523fa7a6SAndroid Build Coastguard Worker        input/output is allocated by the compiler. If not, the runtime will
*523fa7a6SAndroid Build Coastguard Worker        set them using buffers provided by users.
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        graph_module = self.graph_module
*523fa7a6SAndroid Build Coastguard Worker        # There is one tricky case here. If the graph input and graph output
*523fa7a6SAndroid Build Coastguard Worker        # tensors have overlap, but alloc_graph_input != alloc_graph_output,
*523fa7a6SAndroid Build Coastguard Worker        # then the overlapped tensor will cause assertion failure below.
*523fa7a6SAndroid Build Coastguard Worker        # The current behavior is if either alloc_graph_input or alloc_graph_output
*523fa7a6SAndroid Build Coastguard Worker        # is false, those overlapped tensor will not have memory allocated.
*523fa7a6SAndroid Build Coastguard Worker        #
*523fa7a6SAndroid Build Coastguard Worker        # Ignore the check in this case for now.
*523fa7a6SAndroid Build Coastguard Worker        overlap = get_graph_input_tensors(
*523fa7a6SAndroid Build Coastguard Worker            graph_module.graph.nodes, self.graph_signature
*523fa7a6SAndroid Build Coastguard Worker        ) & get_graph_output_tensors(graph_module.graph.nodes)
*523fa7a6SAndroid Build Coastguard Worker        if overlap and (self.alloc_graph_input != self.alloc_graph_output):
*523fa7a6SAndroid Build Coastguard Worker            logging.debug(
*523fa7a6SAndroid Build Coastguard Worker                "Having overlapping graph input/output tensors while the allocation decision for graph input/output mismatch."
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            return
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        graph_input_allocated = None
*523fa7a6SAndroid Build Coastguard Worker        graph_output_allocated = None
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        has_dynamic_unbound_input = False
*523fa7a6SAndroid Build Coastguard Worker        has_dynamic_unbound_output = False
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        check_list = {"placeholder", "output"} & {
*523fa7a6SAndroid Build Coastguard Worker            node.op for node in graph_module.graph.nodes
*523fa7a6SAndroid Build Coastguard Worker        }
*523fa7a6SAndroid Build Coastguard Worker        assert "output" in check_list, f"graph module has no output: {graph_module}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for nd in graph_module.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker            if nd.op in check_list:
*523fa7a6SAndroid Build Coastguard Worker                if not (specs := get_node_tensor_specs(nd)):
*523fa7a6SAndroid Build Coastguard Worker                    continue
*523fa7a6SAndroid Build Coastguard Worker                if _is_mutable_buffer(nd, self.graph_signature):
*523fa7a6SAndroid Build Coastguard Worker                    continue
*523fa7a6SAndroid Build Coastguard Worker                assert len(specs) > 0, "Expect tensor specs"
*523fa7a6SAndroid Build Coastguard Worker                specs = list(filter(lambda spec: not spec.const, specs))
*523fa7a6SAndroid Build Coastguard Worker                if len(specs) == 0:
*523fa7a6SAndroid Build Coastguard Worker                    continue
*523fa7a6SAndroid Build Coastguard Worker                allocated = any(
*523fa7a6SAndroid Build Coastguard Worker                    spec is None or spec.mem_offset is not None for spec in specs
*523fa7a6SAndroid Build Coastguard Worker                )
*523fa7a6SAndroid Build Coastguard Worker                has_dynamic_unbound_tensor = any(
*523fa7a6SAndroid Build Coastguard Worker                    spec is None
*523fa7a6SAndroid Build Coastguard Worker                    or spec.shape_dynamism == TensorShapeDynamism.DYNAMIC_UNBOUND
*523fa7a6SAndroid Build Coastguard Worker                    for spec in specs
*523fa7a6SAndroid Build Coastguard Worker                )
*523fa7a6SAndroid Build Coastguard Worker                assert (
*523fa7a6SAndroid Build Coastguard Worker                    all(spec is None or spec.mem_offset is not None for spec in specs)
*523fa7a6SAndroid Build Coastguard Worker                    == allocated
*523fa7a6SAndroid Build Coastguard Worker                ), "Either all or non of the tensors should be allocated memory"
*523fa7a6SAndroid Build Coastguard Worker                if nd.op == "placeholder":
*523fa7a6SAndroid Build Coastguard Worker                    graph_input_allocated = allocated
*523fa7a6SAndroid Build Coastguard Worker                    has_dynamic_unbound_input |= has_dynamic_unbound_tensor
*523fa7a6SAndroid Build Coastguard Worker                else:
*523fa7a6SAndroid Build Coastguard Worker                    graph_output_allocated = allocated
*523fa7a6SAndroid Build Coastguard Worker                    has_dynamic_unbound_output |= has_dynamic_unbound_tensor
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if "placeholder" in check_list:
*523fa7a6SAndroid Build Coastguard Worker            assert graph_input_allocated is not None, "graph_input_allocated not set"
*523fa7a6SAndroid Build Coastguard Worker            if not has_dynamic_unbound_input:
*523fa7a6SAndroid Build Coastguard Worker                assert (
*523fa7a6SAndroid Build Coastguard Worker                    graph_input_allocated == self.alloc_graph_input
*523fa7a6SAndroid Build Coastguard Worker                ), f"Misallocate graph input: {graph_input_allocated} v.s. {self.alloc_graph_input}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        assert graph_output_allocated is not None, "graph_output_allocated not set"
*523fa7a6SAndroid Build Coastguard Worker        if not has_dynamic_unbound_output:
*523fa7a6SAndroid Build Coastguard Worker            assert (
*523fa7a6SAndroid Build Coastguard Worker                graph_output_allocated == self.alloc_graph_output
*523fa7a6SAndroid Build Coastguard Worker            ), f"Misallocate graph output {graph_output_allocated} v.s. {self.alloc_graph_output}"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _is_out_var_node(node: torch.fx.Node) -> bool:
*523fa7a6SAndroid Build Coastguard Worker    return (
*523fa7a6SAndroid Build Coastguard Worker        node.op == "call_function"
*523fa7a6SAndroid Build Coastguard Worker        and isinstance(node.target, torch._ops.OpOverload)
*523fa7a6SAndroid Build Coastguard Worker        and is_out_variant(node.target._schema.name, node.target._schema.overload_name)
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _is_inplace_node(node: torch.fx.Node) -> bool:
*523fa7a6SAndroid Build Coastguard Worker    return (
*523fa7a6SAndroid Build Coastguard Worker        node.op == "call_function"
*523fa7a6SAndroid Build Coastguard Worker        and isinstance(node.target, torch._ops.OpOverload)
*523fa7a6SAndroid Build Coastguard Worker        and is_inplace_variant(
*523fa7a6SAndroid Build Coastguard Worker            node.target._schema.name, node.target._schema.overload_name
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef update_tensor_lifetime(spec: TensorSpec, node_idx: int) -> None:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Update the lifetime of the tensor to cover node_idx. A tensor's lifetime
*523fa7a6SAndroid Build Coastguard Worker    are represented by the index of the first and last node referring
*523fa7a6SAndroid Build Coastguard Worker    that tensor in its inputs/outputs.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Arguments:
*523fa7a6SAndroid Build Coastguard Worker        spec: the TensorSpec for the tensor
*523fa7a6SAndroid Build Coastguard Worker        node_idx: extend the tensor's lifetime to cover node_idx
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    start, end = spec.lifetime
*523fa7a6SAndroid Build Coastguard Worker    start = node_idx if start is None or start > node_idx else start
*523fa7a6SAndroid Build Coastguard Worker    end = node_idx if end is None or end < node_idx else end
*523fa7a6SAndroid Build Coastguard Worker    spec.lifetime = [start, end]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# pyre-ignore
*523fa7a6SAndroid Build Coastguard Workerdef filter_nodes(inputs: Iterable[Any]) -> Iterable[Node]:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    This method need return Node object embedded inside List/Dict as well.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    return [nd for nd in tree_flatten(list(inputs))[0] if isinstance(nd, Node)]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _is_mutable_buffer(
*523fa7a6SAndroid Build Coastguard Worker    node: Node, graph_signature: Optional[ExportGraphSignature] = None
*523fa7a6SAndroid Build Coastguard Worker) -> bool:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Check if the node is mutable buffer according to the provided graph signature.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    # graph signature is None for memory planning passes not called from EdgeProgramManager, these paths are deprecated so mutable buffers are not supported on them.
*523fa7a6SAndroid Build Coastguard Worker    if graph_signature is None:
*523fa7a6SAndroid Build Coastguard Worker        return False
*523fa7a6SAndroid Build Coastguard Worker    if node.op == "placeholder":
*523fa7a6SAndroid Build Coastguard Worker        if isinstance(node.target, str):
*523fa7a6SAndroid Build Coastguard Worker            if node.target in graph_signature.inputs_to_buffers:
*523fa7a6SAndroid Build Coastguard Worker                fqn = graph_signature.inputs_to_buffers[node.target]
*523fa7a6SAndroid Build Coastguard Worker                # if the buffer is mutated then record that
*523fa7a6SAndroid Build Coastguard Worker                if fqn in graph_signature.buffers_to_mutate.values():
*523fa7a6SAndroid Build Coastguard Worker                    return True
*523fa7a6SAndroid Build Coastguard Worker    return False
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_graph_input_tensors(
*523fa7a6SAndroid Build Coastguard Worker    nodes: Iterable[Node], graph_signature: Optional[ExportGraphSignature] = None
*523fa7a6SAndroid Build Coastguard Worker) -> Set[TensorSpec]:
*523fa7a6SAndroid Build Coastguard Worker    graph_input_tensors = set()
*523fa7a6SAndroid Build Coastguard Worker    for node in nodes:
*523fa7a6SAndroid Build Coastguard Worker        if node.op == "placeholder" and not _is_mutable_buffer(node, graph_signature):
*523fa7a6SAndroid Build Coastguard Worker            for spec in get_node_tensor_specs(node):
*523fa7a6SAndroid Build Coastguard Worker                graph_input_tensors.add(spec)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return graph_input_tensors
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_graph_output_tensors(nodes: Iterable[Node]) -> Set[TensorSpec]:
*523fa7a6SAndroid Build Coastguard Worker    graph_output_tensors = set()
*523fa7a6SAndroid Build Coastguard Worker    for node in nodes:
*523fa7a6SAndroid Build Coastguard Worker        if node.op == "output":
*523fa7a6SAndroid Build Coastguard Worker            for spec in get_node_tensor_specs(node):
*523fa7a6SAndroid Build Coastguard Worker                graph_output_tensors.add(spec)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return graph_output_tensors
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef collect_specs_from_nodes(  # noqa: C901
*523fa7a6SAndroid Build Coastguard Worker    nodes: Iterable[Node],
*523fa7a6SAndroid Build Coastguard Worker    graph_signature: Optional[ExportGraphSignature] = None,
*523fa7a6SAndroid Build Coastguard Worker    ignore_graph_input: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    ignore_graph_output: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    ignore_const: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    ignore_out_var_node: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    dedup: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    do_assertion: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    ignore_dynamic_unbound_tensor: bool = True,
*523fa7a6SAndroid Build Coastguard Worker) -> Iterable[TensorSpec]:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Collect specs from the passed in nodes. Do filtering as controlled by
*523fa7a6SAndroid Build Coastguard Worker    arguments.
*523fa7a6SAndroid Build Coastguard Worker    Arguments:
*523fa7a6SAndroid Build Coastguard Worker        ignore_graph_input: ignore graph input tensors from placeholder nodes
*523fa7a6SAndroid Build Coastguard Worker        ignore_const: whether to ignore the const
*523fa7a6SAndroid Build Coastguard Worker        ignore_out_var_node: whether to ignore out variant node
*523fa7a6SAndroid Build Coastguard Worker        dedup: whether do dedup
*523fa7a6SAndroid Build Coastguard Worker        do_assertion: whether to assert the filtered nodes belong to a resticted set like alloc, getitem
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    unique_spec = set()
*523fa7a6SAndroid Build Coastguard Worker    graph_input_tensors: Set[TensorSpec] = (
*523fa7a6SAndroid Build Coastguard Worker        get_graph_input_tensors(nodes, graph_signature) if ignore_graph_input else set()
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    graph_output_tensors: Set[TensorSpec] = (
*523fa7a6SAndroid Build Coastguard Worker        get_graph_output_tensors(nodes) if ignore_graph_output else set()
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    for node in nodes:
*523fa7a6SAndroid Build Coastguard Worker        # ignore the specs from unrelevant Fx ops for now.
*523fa7a6SAndroid Build Coastguard Worker        if node.op in ["get_attr"]:
*523fa7a6SAndroid Build Coastguard Worker            continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # don't reallocate memory for out-variant op's output tensors,
*523fa7a6SAndroid Build Coastguard Worker        # since they are just input tenors.
*523fa7a6SAndroid Build Coastguard Worker        if ignore_out_var_node and _is_out_var_node(node):
*523fa7a6SAndroid Build Coastguard Worker            continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if not (specs := get_node_tensor_specs(node)):
*523fa7a6SAndroid Build Coastguard Worker            continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if _is_inplace_node(node):
*523fa7a6SAndroid Build Coastguard Worker            continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if do_assertion:
*523fa7a6SAndroid Build Coastguard Worker            internal_assert(
*523fa7a6SAndroid Build Coastguard Worker                node.op in ("placeholder", "output")
*523fa7a6SAndroid Build Coastguard Worker                or node.target
*523fa7a6SAndroid Build Coastguard Worker                in [
*523fa7a6SAndroid Build Coastguard Worker                    memory.alloc,
*523fa7a6SAndroid Build Coastguard Worker                    memory.view,
*523fa7a6SAndroid Build Coastguard Worker                    operator.getitem,
*523fa7a6SAndroid Build Coastguard Worker                    torch.ops.higher_order.cond,
*523fa7a6SAndroid Build Coastguard Worker                    exir_while,
*523fa7a6SAndroid Build Coastguard Worker                    torch.ops.higher_order.map_impl,
*523fa7a6SAndroid Build Coastguard Worker                    executorch_call_delegate,
*523fa7a6SAndroid Build Coastguard Worker                ],
*523fa7a6SAndroid Build Coastguard Worker                f"Unexpected op {node.op}, target {node.target}",
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        for spec in specs:
*523fa7a6SAndroid Build Coastguard Worker            if spec is None:
*523fa7a6SAndroid Build Coastguard Worker                continue
*523fa7a6SAndroid Build Coastguard Worker            # Dynamic unbound tensors' memory will be allocated by the runtime.
*523fa7a6SAndroid Build Coastguard Worker            # Memory planning should ignore them.
*523fa7a6SAndroid Build Coastguard Worker            if (
*523fa7a6SAndroid Build Coastguard Worker                ignore_dynamic_unbound_tensor
*523fa7a6SAndroid Build Coastguard Worker                and spec.shape_dynamism == TensorShapeDynamism.DYNAMIC_UNBOUND
*523fa7a6SAndroid Build Coastguard Worker            ):
*523fa7a6SAndroid Build Coastguard Worker                continue
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            # Note: graph input may be the output of other ops (e.g. the return op)
*523fa7a6SAndroid Build Coastguard Worker            # If ignore_graph_input is true, we should ignore those Tensor so
*523fa7a6SAndroid Build Coastguard Worker            # we skip planning memory for graph input.
*523fa7a6SAndroid Build Coastguard Worker            if ignore_graph_input and spec in graph_input_tensors:
*523fa7a6SAndroid Build Coastguard Worker                continue
*523fa7a6SAndroid Build Coastguard Worker            if ignore_graph_output and spec in graph_output_tensors:
*523fa7a6SAndroid Build Coastguard Worker                continue
*523fa7a6SAndroid Build Coastguard Worker            if (
*523fa7a6SAndroid Build Coastguard Worker                ignore_const
*523fa7a6SAndroid Build Coastguard Worker                and spec.const
*523fa7a6SAndroid Build Coastguard Worker                and not node.meta.get("weight_has_gradient", False)
*523fa7a6SAndroid Build Coastguard Worker            ):
*523fa7a6SAndroid Build Coastguard Worker                continue
*523fa7a6SAndroid Build Coastguard Worker            if dedup:
*523fa7a6SAndroid Build Coastguard Worker                if spec in unique_spec:
*523fa7a6SAndroid Build Coastguard Worker                    continue
*523fa7a6SAndroid Build Coastguard Worker                else:
*523fa7a6SAndroid Build Coastguard Worker                    unique_spec.add(spec)
*523fa7a6SAndroid Build Coastguard Worker            yield spec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef update_all_tensors_lifetime(
*523fa7a6SAndroid Build Coastguard Worker    graph_module: torch.fx.GraphModule,
*523fa7a6SAndroid Build Coastguard Worker    graph_signature: Optional[ExportGraphSignature] = None,
*523fa7a6SAndroid Build Coastguard Worker) -> Set[TensorSpec]:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Set the lifetime for all the tensors encountered in the Fx graph.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    specs = set()
*523fa7a6SAndroid Build Coastguard Worker    for node_idx, node in enumerate(graph_module.graph.nodes):
*523fa7a6SAndroid Build Coastguard Worker        for spec in collect_specs_from_nodes(
*523fa7a6SAndroid Build Coastguard Worker            filter_nodes(itertools.chain([node], node.args, node.kwargs.values())),
*523fa7a6SAndroid Build Coastguard Worker            graph_signature,
*523fa7a6SAndroid Build Coastguard Worker            ignore_graph_input=False,
*523fa7a6SAndroid Build Coastguard Worker            ignore_const=False,
*523fa7a6SAndroid Build Coastguard Worker            ignore_out_var_node=False,
*523fa7a6SAndroid Build Coastguard Worker            dedup=False,
*523fa7a6SAndroid Build Coastguard Worker            do_assertion=False,
*523fa7a6SAndroid Build Coastguard Worker            ignore_dynamic_unbound_tensor=False,
*523fa7a6SAndroid Build Coastguard Worker        ):
*523fa7a6SAndroid Build Coastguard Worker            update_tensor_lifetime(spec, node_idx)
*523fa7a6SAndroid Build Coastguard Worker            specs.add(spec)
*523fa7a6SAndroid Build Coastguard Worker    return specs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker@dataclass
*523fa7a6SAndroid Build Coastguard Workerclass SharedObject:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    We define the concept of shared object, which represents a segment
*523fa7a6SAndroid Build Coastguard Worker    in the memory buffer that can be shared by multiple tensors. In order to
*523fa7a6SAndroid Build Coastguard Worker    check if a shared object is available for a tensor, we maintain the
*523fa7a6SAndroid Build Coastguard Worker    last_used_index attribute. The shared object will be available for nodes
*523fa7a6SAndroid Build Coastguard Worker    with index greater than last_used_index.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # index of the shared object in the list of shared objects, used as a unique id
*523fa7a6SAndroid Build Coastguard Worker    idx: int
*523fa7a6SAndroid Build Coastguard Worker    # offset in the memory buffer
*523fa7a6SAndroid Build Coastguard Worker    offset: int
*523fa7a6SAndroid Build Coastguard Worker    # size of this shared object in bytes
*523fa7a6SAndroid Build Coastguard Worker    size: int
*523fa7a6SAndroid Build Coastguard Worker    # the object will be available for index (last_used_index + 1)
*523fa7a6SAndroid Build Coastguard Worker    last_used_index: int
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef materialize_buffer(
*523fa7a6SAndroid Build Coastguard Worker    shared_objects: List[SharedObject], input_total_size: int = 0
*523fa7a6SAndroid Build Coastguard Worker) -> int:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Assign concrete location in the buffer for each SharedObject.offset.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Assuming all the passed in shared objects belong to the same memory buffer.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    total_size = input_total_size
*523fa7a6SAndroid Build Coastguard Worker    for sobj in shared_objects:
*523fa7a6SAndroid Build Coastguard Worker        sobj.offset = total_size
*523fa7a6SAndroid Build Coastguard Worker        total_size += sobj.size
*523fa7a6SAndroid Build Coastguard Worker    return total_size
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _size_abs_dif(sobj: SharedObject, spec: TensorSpec) -> int:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Calculate the absolute different between the size of a shared object and
*523fa7a6SAndroid Build Coastguard Worker    a tensor.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    return abs(sobj.size - spec.allocated_memory)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef pick_shared_obj(
*523fa7a6SAndroid Build Coastguard Worker    shared_objects: List[SharedObject], spec: TensorSpec
*523fa7a6SAndroid Build Coastguard Worker) -> SharedObject:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Pick the available shared object with closest size to the tensor.
*523fa7a6SAndroid Build Coastguard Worker    If there are no available shared object left, create a new one.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    # TODO: do better than linear scan
*523fa7a6SAndroid Build Coastguard Worker    picked = None
*523fa7a6SAndroid Build Coastguard Worker    for sobj in shared_objects:
*523fa7a6SAndroid Build Coastguard Worker        if spec.lifetime[0] > sobj.last_used_index:
*523fa7a6SAndroid Build Coastguard Worker            if picked is None or _size_abs_dif(sobj, spec) < _size_abs_dif(
*523fa7a6SAndroid Build Coastguard Worker                picked, spec
*523fa7a6SAndroid Build Coastguard Worker            ):
*523fa7a6SAndroid Build Coastguard Worker                picked = sobj
*523fa7a6SAndroid Build Coastguard Worker                sobj.last_used_index = spec.lifetime[1]
*523fa7a6SAndroid Build Coastguard Worker                sobj.size = max(sobj.size, spec.allocated_memory)
*523fa7a6SAndroid Build Coastguard Worker    if picked is None:
*523fa7a6SAndroid Build Coastguard Worker        picked = SharedObject(
*523fa7a6SAndroid Build Coastguard Worker            len(shared_objects), -1, spec.allocated_memory, spec.lifetime[1]
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        shared_objects.append(picked)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return picked
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_node_tensor_specs(
*523fa7a6SAndroid Build Coastguard Worker    node: torch.fx.Node,
*523fa7a6SAndroid Build Coastguard Worker) -> Union[List[TensorSpec], Tuple[TensorSpec]]:
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Return the list of the tensor specs for the node or empty list if the node
*523fa7a6SAndroid Build Coastguard Worker    has no tensor specs.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    # get tensor specs
*523fa7a6SAndroid Build Coastguard Worker    if node.target == memory.view:
*523fa7a6SAndroid Build Coastguard Worker        base = node.args[0]
*523fa7a6SAndroid Build Coastguard Worker        assert isinstance(base, torch.fx.Node)
*523fa7a6SAndroid Build Coastguard Worker        specs = base.meta.get("spec")
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        specs = node.meta.get("spec")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if isinstance(specs, TensorSpec):
*523fa7a6SAndroid Build Coastguard Worker        specs = [specs]
*523fa7a6SAndroid Build Coastguard Worker    if not isinstance(specs, (list, tuple)):
*523fa7a6SAndroid Build Coastguard Worker        return []
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        return [
*523fa7a6SAndroid Build Coastguard Worker            spec
*523fa7a6SAndroid Build Coastguard Worker            for spec in specs
*523fa7a6SAndroid Build Coastguard Worker            if not isinstance(spec, (int, float, bool, str, type(None)))
*523fa7a6SAndroid Build Coastguard Worker        ]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef greedy(
*523fa7a6SAndroid Build Coastguard Worker    graph_module: torch.fx.GraphModule,
*523fa7a6SAndroid Build Coastguard Worker    alignment: int,
*523fa7a6SAndroid Build Coastguard Worker    graph_signature: Optional[ExportGraphSignature] = None,
*523fa7a6SAndroid Build Coastguard Worker    alloc_graph_input: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    alloc_graph_output: bool = True,
*523fa7a6SAndroid Build Coastguard Worker) -> List[int]:
*523fa7a6SAndroid Build Coastguard Worker    spec2obj = {}
*523fa7a6SAndroid Build Coastguard Worker    shared_objects = defaultdict(list)
*523fa7a6SAndroid Build Coastguard Worker    # Don't do assertion in collect_specs_from_nodes if we have already encountered
*523fa7a6SAndroid Build Coastguard Worker    # and ignored some to_out_variant errors.
*523fa7a6SAndroid Build Coastguard Worker    do_assertion = not getattr(graph_module, "encounter_to_out_var_failure", False)
*523fa7a6SAndroid Build Coastguard Worker    # For each tensor, pick the available shared object with closest size to
*523fa7a6SAndroid Build Coastguard Worker    # the tensor. If there are no available shared object left, create a new
*523fa7a6SAndroid Build Coastguard Worker    # one.
*523fa7a6SAndroid Build Coastguard Worker    for spec in collect_specs_from_nodes(
*523fa7a6SAndroid Build Coastguard Worker        graph_module.graph.nodes,
*523fa7a6SAndroid Build Coastguard Worker        graph_signature,
*523fa7a6SAndroid Build Coastguard Worker        do_assertion=do_assertion,
*523fa7a6SAndroid Build Coastguard Worker        ignore_graph_input=not alloc_graph_input,
*523fa7a6SAndroid Build Coastguard Worker        ignore_graph_output=not alloc_graph_output,
*523fa7a6SAndroid Build Coastguard Worker    ):
*523fa7a6SAndroid Build Coastguard Worker        if spec.mem_id is None:
*523fa7a6SAndroid Build Coastguard Worker            spec.mem_id = 1
*523fa7a6SAndroid Build Coastguard Worker        spec.realign(alignment)
*523fa7a6SAndroid Build Coastguard Worker        spec2obj[spec] = pick_shared_obj(shared_objects[spec.mem_id], spec)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if len(shared_objects) == 0:
*523fa7a6SAndroid Build Coastguard Worker        # Cannot find any tensor in the graph that needs to be allocated.
*523fa7a6SAndroid Build Coastguard Worker        # Return [0, 0] to be consistent with default behavior of naive.
*523fa7a6SAndroid Build Coastguard Worker        total_sizes = [0, 0]
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        total_sizes = [0] * (max(shared_objects.keys()) + 1)
*523fa7a6SAndroid Build Coastguard Worker        for mem_id in shared_objects:
*523fa7a6SAndroid Build Coastguard Worker            input_total_size = 0
*523fa7a6SAndroid Build Coastguard Worker            if bufsizes := getattr(graph_module, "input_mem_buffer_sizes", None):
*523fa7a6SAndroid Build Coastguard Worker                # pyre-fixme[6]: For 1st argument expected
*523fa7a6SAndroid Build Coastguard Worker                #  `pyre_extensions.ReadOnly[Sized]` but got `Union[Tensor, Module]`.
*523fa7a6SAndroid Build Coastguard Worker                if len(bufsizes) > mem_id:
*523fa7a6SAndroid Build Coastguard Worker                    # pyre-fixme[29]: `Union[BoundMethod[typing.Callable(torch._C.Ten...
*523fa7a6SAndroid Build Coastguard Worker                    input_total_size = bufsizes[mem_id]
*523fa7a6SAndroid Build Coastguard Worker            total_sizes[mem_id] = materialize_buffer(
*523fa7a6SAndroid Build Coastguard Worker                shared_objects[mem_id], input_total_size
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Since we now know the number of shared objects we need and the size of
*523fa7a6SAndroid Build Coastguard Worker        # each shared object, we can assign offset in the memory buffer for each
*523fa7a6SAndroid Build Coastguard Worker        # shared object.
*523fa7a6SAndroid Build Coastguard Worker        for spec, sobj in spec2obj.items():
*523fa7a6SAndroid Build Coastguard Worker            spec.mem_obj_id = sobj.idx
*523fa7a6SAndroid Build Coastguard Worker            spec.mem_offset = sobj.offset
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    logging.debug(f"greedy algorithm returns bufsizes: {total_sizes}")
*523fa7a6SAndroid Build Coastguard Worker    return total_sizes
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef naive(
*523fa7a6SAndroid Build Coastguard Worker    graph_module: torch.fx.GraphModule,
*523fa7a6SAndroid Build Coastguard Worker    alignment: int,
*523fa7a6SAndroid Build Coastguard Worker    graph_signature: Optional[ExportGraphSignature] = None,
*523fa7a6SAndroid Build Coastguard Worker    alloc_graph_input: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    alloc_graph_output: bool = True,
*523fa7a6SAndroid Build Coastguard Worker) -> List[int]:
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # allocate 'allocated' bytes from buffer with id mem_id.
*523fa7a6SAndroid Build Coastguard Worker    # return the starting offset of the allocated buffer.
*523fa7a6SAndroid Build Coastguard Worker    def _allocate_buf(bufsizes: List[int], mem_id: int, allocated: int) -> int:
*523fa7a6SAndroid Build Coastguard Worker        if mem_id >= len(bufsizes):
*523fa7a6SAndroid Build Coastguard Worker            bufsizes.extend([0] * (mem_id - len(bufsizes) + 1))
*523fa7a6SAndroid Build Coastguard Worker        ret = bufsizes[mem_id]
*523fa7a6SAndroid Build Coastguard Worker        bufsizes[mem_id] += allocated
*523fa7a6SAndroid Build Coastguard Worker        return ret
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bufsizes = getattr(graph_module, "input_mem_buffer_sizes", None)
*523fa7a6SAndroid Build Coastguard Worker    if bufsizes is None:
*523fa7a6SAndroid Build Coastguard Worker        bufsizes = [0, 0]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bufsizes = typing.cast(List[int], bufsizes)
*523fa7a6SAndroid Build Coastguard Worker    for spec in collect_specs_from_nodes(
*523fa7a6SAndroid Build Coastguard Worker        graph_module.graph.nodes,
*523fa7a6SAndroid Build Coastguard Worker        graph_signature,
*523fa7a6SAndroid Build Coastguard Worker        ignore_graph_input=not alloc_graph_input,
*523fa7a6SAndroid Build Coastguard Worker        ignore_graph_output=not alloc_graph_output,
*523fa7a6SAndroid Build Coastguard Worker    ):
*523fa7a6SAndroid Build Coastguard Worker        # assume a single memory layer which has mem_id 1
*523fa7a6SAndroid Build Coastguard Worker        if spec.mem_id is None:
*523fa7a6SAndroid Build Coastguard Worker            spec.mem_id = 1
*523fa7a6SAndroid Build Coastguard Worker        # allocate spec.allocated_memory bytes in the buffer
*523fa7a6SAndroid Build Coastguard Worker        # with the corresponding mem_id
*523fa7a6SAndroid Build Coastguard Worker        spec.realign(alignment)
*523fa7a6SAndroid Build Coastguard Worker        spec.mem_offset = _allocate_buf(bufsizes, spec.mem_id, spec.allocated_memory)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    logging.debug(f"naive algorithm returns bufsizes: {bufsizes}")
*523fa7a6SAndroid Build Coastguard Worker    return bufsizes
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_cond_nodes(graph_module: torch.fx.GraphModule) -> Iterable[Node]:
*523fa7a6SAndroid Build Coastguard Worker    for nd in graph_module.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if nd.target is torch.ops.higher_order.cond:
*523fa7a6SAndroid Build Coastguard Worker            yield nd
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_while_nodes(graph_module: torch.fx.GraphModule) -> Iterable[Node]:
*523fa7a6SAndroid Build Coastguard Worker    for nd in graph_module.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if nd.target is exir_while:
*523fa7a6SAndroid Build Coastguard Worker            yield nd
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_map_nodes(graph_module: torch.fx.GraphModule) -> Iterable[Node]:
*523fa7a6SAndroid Build Coastguard Worker    for nd in graph_module.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if nd.target is torch.ops.higher_order.map_impl:
*523fa7a6SAndroid Build Coastguard Worker            yield nd
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_return_specs(graph_module: fx.GraphModule) -> Set[TensorSpec]:
*523fa7a6SAndroid Build Coastguard Worker    return_specs = set()
*523fa7a6SAndroid Build Coastguard Worker    nodes = graph_module.graph.nodes
*523fa7a6SAndroid Build Coastguard Worker    if len(nodes) > 0:
*523fa7a6SAndroid Build Coastguard Worker        last_node = next(iter(reversed(nodes)))
*523fa7a6SAndroid Build Coastguard Worker        for spec in tree_flatten(last_node.meta["spec"])[0]:
*523fa7a6SAndroid Build Coastguard Worker            return_specs.add(spec)
*523fa7a6SAndroid Build Coastguard Worker    return return_specs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_input_specs(graph_module: fx.GraphModule) -> Set[TensorSpec]:
*523fa7a6SAndroid Build Coastguard Worker    input_specs = set()
*523fa7a6SAndroid Build Coastguard Worker    nodes = graph_module.graph.nodes
*523fa7a6SAndroid Build Coastguard Worker    for node in nodes:
*523fa7a6SAndroid Build Coastguard Worker        if node.op == "placeholder":
*523fa7a6SAndroid Build Coastguard Worker            for spec in tree_flatten(node.meta["spec"])[0]:
*523fa7a6SAndroid Build Coastguard Worker                input_specs.add(spec)
*523fa7a6SAndroid Build Coastguard Worker    return input_specs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef insert_calls_to_free(
*523fa7a6SAndroid Build Coastguard Worker    graph_module: fx.GraphModule, allspecs: Set[TensorSpec]
*523fa7a6SAndroid Build Coastguard Worker) -> None:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Insert calls to free for dynamic unbound tensors that goes out of lifetime.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Only handle the module itself. Submodule is handles in separate calls of
*523fa7a6SAndroid Build Coastguard Worker    this function.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    NOTE: this method will invalidate lifetime recorded in TensorSpec because
*523fa7a6SAndroid Build Coastguard Worker    of extra free node added to the graph.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    # Note: we should never free a output tensor
*523fa7a6SAndroid Build Coastguard Worker    return_specs = get_return_specs(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    # Note: we should never free a input tensor since buffer for input tensor
*523fa7a6SAndroid Build Coastguard Worker    # may be passed in from user.
*523fa7a6SAndroid Build Coastguard Worker    input_specs = get_input_specs(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    idx_to_dead_specs = defaultdict(list)
*523fa7a6SAndroid Build Coastguard Worker    for spec in allspecs:
*523fa7a6SAndroid Build Coastguard Worker        if (
*523fa7a6SAndroid Build Coastguard Worker            spec.shape_dynamism == TensorShapeDynamism.DYNAMIC_UNBOUND
*523fa7a6SAndroid Build Coastguard Worker            and spec not in return_specs
*523fa7a6SAndroid Build Coastguard Worker            and spec not in input_specs
*523fa7a6SAndroid Build Coastguard Worker        ):
*523fa7a6SAndroid Build Coastguard Worker            idx_to_dead_specs[spec.lifetime[1]].append(spec)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    num_nodes = len(graph_module.graph.nodes)
*523fa7a6SAndroid Build Coastguard Worker    # iterate in reverse order so inserted node does not disturbe node
*523fa7a6SAndroid Build Coastguard Worker    # numbering.
*523fa7a6SAndroid Build Coastguard Worker    for node, node_idx in zip(
*523fa7a6SAndroid Build Coastguard Worker        reversed(graph_module.graph.nodes), range(num_nodes - 1, -1, -1)
*523fa7a6SAndroid Build Coastguard Worker    ):
*523fa7a6SAndroid Build Coastguard Worker        dead_specs = idx_to_dead_specs.get(node_idx, [])
*523fa7a6SAndroid Build Coastguard Worker        if not dead_specs:
*523fa7a6SAndroid Build Coastguard Worker            continue
*523fa7a6SAndroid Build Coastguard Worker        with graph_module.graph.inserting_after(node):
*523fa7a6SAndroid Build Coastguard Worker            for spec in dead_specs:
*523fa7a6SAndroid Build Coastguard Worker                graph_module.graph.call_function(memory.free, (spec,))
*523fa7a6SAndroid Build Coastguard Worker    graph_module.recompile()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef apply_algo(
*523fa7a6SAndroid Build Coastguard Worker    algo: Callable[
*523fa7a6SAndroid Build Coastguard Worker        [torch.fx.GraphModule, int, Optional[ExportGraphSignature], bool, bool],
*523fa7a6SAndroid Build Coastguard Worker        List[int],
*523fa7a6SAndroid Build Coastguard Worker    ],
*523fa7a6SAndroid Build Coastguard Worker    graph_module: torch.fx.GraphModule,
*523fa7a6SAndroid Build Coastguard Worker    alignment: int,
*523fa7a6SAndroid Build Coastguard Worker    graph_signature: Optional[ExportGraphSignature] = None,
*523fa7a6SAndroid Build Coastguard Worker    alloc_graph_input: bool = True,
*523fa7a6SAndroid Build Coastguard Worker    alloc_graph_output: bool = True,
*523fa7a6SAndroid Build Coastguard Worker) -> List[int]:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Recursively apply algo to graph_module and its submodules for control flow.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Quite naively right now since it does not take the following optimizations
*523fa7a6SAndroid Build Coastguard Worker    into considerating:
*523fa7a6SAndroid Build Coastguard Worker    1. for conditional structure, true branch and false true does not overlap
*523fa7a6SAndroid Build Coastguard Worker       in lifetime and can share tensor storage
*523fa7a6SAndroid Build Coastguard Worker    2. tensors inside a submodule (e.g. true branch) has opportunities to share
*523fa7a6SAndroid Build Coastguard Worker       storage with tensors in the outer module.
*523fa7a6SAndroid Build Coastguard Worker    TODO: make these optimizations once we have some baseline working.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    specs = update_all_tensors_lifetime(graph_module, graph_signature)
*523fa7a6SAndroid Build Coastguard Worker    bufsizes: List[int] = algo(
*523fa7a6SAndroid Build Coastguard Worker        graph_module, alignment, graph_signature, alloc_graph_input, alloc_graph_output
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    insert_calls_to_free(graph_module, specs)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def handle_submodule(
*523fa7a6SAndroid Build Coastguard Worker        submodule_nd: torch.fx.Node, alloc_graph_input: bool = False
*523fa7a6SAndroid Build Coastguard Worker    ) -> None:
*523fa7a6SAndroid Build Coastguard Worker        nonlocal bufsizes
*523fa7a6SAndroid Build Coastguard Worker        assert submodule_nd.op == "get_attr"
*523fa7a6SAndroid Build Coastguard Worker        submodule = getattr(graph_module, submodule_nd.target)
*523fa7a6SAndroid Build Coastguard Worker        # memory planning for submodule need to be aware of the amount of
*523fa7a6SAndroid Build Coastguard Worker        # buffer already allocated.
*523fa7a6SAndroid Build Coastguard Worker        submodule.input_mem_buffer_sizes = bufsizes
*523fa7a6SAndroid Build Coastguard Worker        bufsizes = apply_algo(
*523fa7a6SAndroid Build Coastguard Worker            algo,
*523fa7a6SAndroid Build Coastguard Worker            submodule,
*523fa7a6SAndroid Build Coastguard Worker            alignment,
*523fa7a6SAndroid Build Coastguard Worker            graph_signature,
*523fa7a6SAndroid Build Coastguard Worker            alloc_graph_input=alloc_graph_input,
*523fa7a6SAndroid Build Coastguard Worker            alloc_graph_output=True,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        submodule.meta.update({"non_const_buffer_sizes": bufsizes})
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    for cond_node in get_cond_nodes(graph_module):
*523fa7a6SAndroid Build Coastguard Worker        handle_submodule(typing.cast(torch.fx.Node, cond_node.args[1]))
*523fa7a6SAndroid Build Coastguard Worker        handle_submodule(typing.cast(torch.fx.Node, cond_node.args[2]))
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    for while_node in get_while_nodes(graph_module):
*523fa7a6SAndroid Build Coastguard Worker        handle_submodule(typing.cast(torch.fx.Node, while_node.args[0]))
*523fa7a6SAndroid Build Coastguard Worker        handle_submodule(typing.cast(torch.fx.Node, while_node.args[1]))
*523fa7a6SAndroid Build Coastguard Worker    # TODO: Add test coverage for map operator once dynamo tracing is
*523fa7a6SAndroid Build Coastguard Worker    # fully supported for this. T142287208
*523fa7a6SAndroid Build Coastguard Worker    for map_node in get_map_nodes(graph_module):
*523fa7a6SAndroid Build Coastguard Worker        handle_submodule(
*523fa7a6SAndroid Build Coastguard Worker            typing.cast(torch.fx.Node, map_node.args[0]), alloc_graph_input=True
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    graph_module.meta.update({"non_const_buffer_sizes": bufsizes})
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return bufsizes