llm/tokenizer/tokenizer.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) Meta Platforms, Inc. and affiliates.
*523fa7a6SAndroid Build Coastguard Worker# All rights reserved.
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# This source code is licensed under the BSD-style license found in the
*523fa7a6SAndroid Build Coastguard Worker# LICENSE file in the root directory of this source tree.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# Script to rewrite tokenizer model given by sentencepiece, with lightweight
*523fa7a6SAndroid Build Coastguard Worker# postprocessing logic.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport argparse
*523fa7a6SAndroid Build Coastguard Workerimport logging
*523fa7a6SAndroid Build Coastguard Workerimport os
*523fa7a6SAndroid Build Coastguard Workerimport struct
*523fa7a6SAndroid Build Coastguard Workerfrom typing import List
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom sentencepiece import SentencePieceProcessor as SentencePieceProcessor
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass Tokenizer:
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self, model_path: str):
*523fa7a6SAndroid Build Coastguard Worker        assert os.path.isfile(
*523fa7a6SAndroid Build Coastguard Worker            model_path
*523fa7a6SAndroid Build Coastguard Worker        ), f"Need a valid tokenizer model path but got {model_path}"
*523fa7a6SAndroid Build Coastguard Worker        # pyre-fixme[28]: Unexpected keyword argument `model_file` to call `SentencePieceProcessor.__init__`.
*523fa7a6SAndroid Build Coastguard Worker        self.sp_model = SentencePieceProcessor(model_file=model_path)
*523fa7a6SAndroid Build Coastguard Worker        self.model_path = model_path
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # BOS / EOS token IDs
*523fa7a6SAndroid Build Coastguard Worker        self.n_words: int = self.sp_model.vocab_size()
*523fa7a6SAndroid Build Coastguard Worker        self.bos_id: int = self.sp_model.bos_id()
*523fa7a6SAndroid Build Coastguard Worker        self.eos_id: int = self.sp_model.eos_id()
*523fa7a6SAndroid Build Coastguard Worker        logging.info(
*523fa7a6SAndroid Build Coastguard Worker            f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        # pyre-fixme[16]: `SentencePieceProcessor` has no attribute `get_piece_size`.
*523fa7a6SAndroid Build Coastguard Worker        assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def encode(self, s: str, bos: bool, eos: bool) -> List[int]:
*523fa7a6SAndroid Build Coastguard Worker        assert type(s) is str
*523fa7a6SAndroid Build Coastguard Worker        # pyre-fixme[16]: `SentencePieceProcessor` has no attribute `encode`.
*523fa7a6SAndroid Build Coastguard Worker        t = self.sp_model.encode(s)
*523fa7a6SAndroid Build Coastguard Worker        if bos:
*523fa7a6SAndroid Build Coastguard Worker            t = [self.bos_id] + t
*523fa7a6SAndroid Build Coastguard Worker        if eos:
*523fa7a6SAndroid Build Coastguard Worker            t = t + [self.eos_id]
*523fa7a6SAndroid Build Coastguard Worker        return t
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def decode(self, t: List[int]) -> str:
*523fa7a6SAndroid Build Coastguard Worker        # pyre-fixme[16]: `SentencePieceProcessor` has no attribute `encode`.
*523fa7a6SAndroid Build Coastguard Worker        return self.sp_model.decode(t)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def decode_token(self, t: int) -> str:
*523fa7a6SAndroid Build Coastguard Worker        # pyre-fixme[16]: `SentencePieceProcessor` has no attribute `encode`.
*523fa7a6SAndroid Build Coastguard Worker        return self.sp_model.decode(t)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def export(self, output_path: str, *, prepend_padding: bool = False) -> None:
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker        Export tokenizer.model to another serialization format. Here we did some lightweight
*523fa7a6SAndroid Build Coastguard Worker        processing such as supporting prepend padding token, prepend max token length and
*523fa7a6SAndroid Build Coastguard Worker        replace '_' back to empty space.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        The binary format is:
*523fa7a6SAndroid Build Coastguard Worker        1. vocab size: int32
*523fa7a6SAndroid Build Coastguard Worker        2. bos token id: int32
*523fa7a6SAndroid Build Coastguard Worker        3. eos token id: int32
*523fa7a6SAndroid Build Coastguard Worker        4. max token length: int32
*523fa7a6SAndroid Build Coastguard Worker        5. score: float32, len of bytes: int32, token bytes: [byte] for each token
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        :param output_path: output path of the new binary.
*523fa7a6SAndroid Build Coastguard Worker        :param prepend_padding: a boolean to control if we want to prepend a padding token.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        :return: None
*523fa7a6SAndroid Build Coastguard Worker        """
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # get all the tokens (postprocessed) and their scores as floats
*523fa7a6SAndroid Build Coastguard Worker        tokens, scores = [], []
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if prepend_padding:
*523fa7a6SAndroid Build Coastguard Worker            # Here we use the default padding token and its score.
*523fa7a6SAndroid Build Coastguard Worker            tokens.append("<pad>".encode("utf-8"))
*523fa7a6SAndroid Build Coastguard Worker            scores.append(-1)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for i in range(self.n_words):
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            # decode the token and light postprocessing
*523fa7a6SAndroid Build Coastguard Worker            # pyre-fixme[16]: `SentencePieceProcessor` has no attribute `id_to_piece`.
*523fa7a6SAndroid Build Coastguard Worker            t = self.sp_model.id_to_piece(i)
*523fa7a6SAndroid Build Coastguard Worker            # pyre-fixme[16]: `SentencePieceProcessor` has no attribute `get_score`.
*523fa7a6SAndroid Build Coastguard Worker            s = self.sp_model.get_score(i)
*523fa7a6SAndroid Build Coastguard Worker            # sentencepiece use '<s>' as BOS and '</s>' for EOS
*523fa7a6SAndroid Build Coastguard Worker            if i == self.bos_id:
*523fa7a6SAndroid Build Coastguard Worker                t = "<s>"
*523fa7a6SAndroid Build Coastguard Worker            elif i == self.eos_id:
*523fa7a6SAndroid Build Coastguard Worker                t = "</s>"
*523fa7a6SAndroid Build Coastguard Worker            t = t.replace("▁", " ")  # sentencepiece uses this character as whitespace
*523fa7a6SAndroid Build Coastguard Worker            b = t.encode("utf-8")  # bytes of this token, utf-8 encoded
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            tokens.append(b)
*523fa7a6SAndroid Build Coastguard Worker            scores.append(s)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # record the max token length
*523fa7a6SAndroid Build Coastguard Worker        max_token_length = 0 if not tokens else max(len(t) for t in tokens)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # write to a binary file
*523fa7a6SAndroid Build Coastguard Worker        with open(output_path, "wb") as f:
*523fa7a6SAndroid Build Coastguard Worker            # write the vocab size, bos/eos ids and max token length
*523fa7a6SAndroid Build Coastguard Worker            f.write(
*523fa7a6SAndroid Build Coastguard Worker                struct.pack(
*523fa7a6SAndroid Build Coastguard Worker                    "IIII", self.n_words, self.bos_id, self.eos_id, max_token_length
*523fa7a6SAndroid Build Coastguard Worker                )
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            for bytes, score in zip(tokens, scores):
*523fa7a6SAndroid Build Coastguard Worker                f.write(struct.pack("fI", score, len(bytes)))
*523fa7a6SAndroid Build Coastguard Worker                f.write(bytes)
*523fa7a6SAndroid Build Coastguard Worker        logging.info(f"Wrote tokenizer to {output_path}")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerif __name__ == "__main__":
*523fa7a6SAndroid Build Coastguard Worker    parser = argparse.ArgumentParser()
*523fa7a6SAndroid Build Coastguard Worker    parser.add_argument(
*523fa7a6SAndroid Build Coastguard Worker        "-t",
*523fa7a6SAndroid Build Coastguard Worker        "--tokenizer-model",
*523fa7a6SAndroid Build Coastguard Worker        type=str,
*523fa7a6SAndroid Build Coastguard Worker        default="tokenizer.model",
*523fa7a6SAndroid Build Coastguard Worker        help="path to tokenizer model, given by sentencepiece",
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    parser.add_argument(
*523fa7a6SAndroid Build Coastguard Worker        "-o",
*523fa7a6SAndroid Build Coastguard Worker        "--output-path",
*523fa7a6SAndroid Build Coastguard Worker        type=str,
*523fa7a6SAndroid Build Coastguard Worker        default=None,
*523fa7a6SAndroid Build Coastguard Worker        help="output path of postprocessed tokenizer model",
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    parser.add_argument(
*523fa7a6SAndroid Build Coastguard Worker        "-p",
*523fa7a6SAndroid Build Coastguard Worker        "--prepend-padding",
*523fa7a6SAndroid Build Coastguard Worker        action="store_true",
*523fa7a6SAndroid Build Coastguard Worker        help="whether to prepend a padding token to the beginning of the tokenizer",
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    args = parser.parse_args()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    t = Tokenizer(args.tokenizer_model)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    output_path = (
*523fa7a6SAndroid Build Coastguard Worker        args.output_path
*523fa7a6SAndroid Build Coastguard Worker        if args.output_path
*523fa7a6SAndroid Build Coastguard Worker        else args.tokenizer_model.replace(".model", ".bin")
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    t.export(output_path, prepend_padding=args.prepend_padding)