native/lang_id/custom-tokenizer.cc

*993b0882SAndroid Build Coastguard Worker/*
*993b0882SAndroid Build Coastguard Worker * Copyright (C) 2018 The Android Open Source Project
*993b0882SAndroid Build Coastguard Worker *
*993b0882SAndroid Build Coastguard Worker * Licensed under the Apache License, Version 2.0 (the "License");
*993b0882SAndroid Build Coastguard Worker * you may not use this file except in compliance with the License.
*993b0882SAndroid Build Coastguard Worker * You may obtain a copy of the License at
*993b0882SAndroid Build Coastguard Worker *
*993b0882SAndroid Build Coastguard Worker *      http://www.apache.org/licenses/LICENSE-2.0
*993b0882SAndroid Build Coastguard Worker *
*993b0882SAndroid Build Coastguard Worker * Unless required by applicable law or agreed to in writing, software
*993b0882SAndroid Build Coastguard Worker * distributed under the License is distributed on an "AS IS" BASIS,
*993b0882SAndroid Build Coastguard Worker * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*993b0882SAndroid Build Coastguard Worker * See the License for the specific language governing permissions and
*993b0882SAndroid Build Coastguard Worker * limitations under the License.
*993b0882SAndroid Build Coastguard Worker */
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker#include "lang_id/custom-tokenizer.h"
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker#include <ctype.h>
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker#include <string>
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker#include "lang_id/common/lite_base/attributes.h"
*993b0882SAndroid Build Coastguard Worker#include "lang_id/common/lite_base/logging.h"
*993b0882SAndroid Build Coastguard Worker#include "lang_id/common/utf8.h"
*993b0882SAndroid Build Coastguard Worker#include "utf.h"
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Workernamespace libtextclassifier3 {
*993b0882SAndroid Build Coastguard Workernamespace mobile {
*993b0882SAndroid Build Coastguard Workernamespace lang_id {
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Workernamespace {
*993b0882SAndroid Build Coastguard Workerinline bool IsTokenSeparator(int num_bytes, const char *curr) {
*993b0882SAndroid Build Coastguard Worker  if (num_bytes != 1) {
*993b0882SAndroid Build Coastguard Worker    return false;
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  return !isalpha(*curr);
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker// Appends to *word the UTF8 encoding for the lowercase version of the UTF8
*993b0882SAndroid Build Coastguard Worker// character that starts at |curr| and has |num_bytes| bytes.
*993b0882SAndroid Build Coastguard Worker//
*993b0882SAndroid Build Coastguard Worker// NOTE: if the current UTF8 character does not have a lowercase version, then
*993b0882SAndroid Build Coastguard Worker// we append the original UTF8 character.
*993b0882SAndroid Build Coastguard Workerinline SAFTM_ATTRIBUTE_ALWAYS_INLINE void AppendLowerCase(const char *curr,
*993b0882SAndroid Build Coastguard Worker                                                          int num_bytes,
*993b0882SAndroid Build Coastguard Worker                                                          std::string *word) {
*993b0882SAndroid Build Coastguard Worker  if (num_bytes == 1) {
*993b0882SAndroid Build Coastguard Worker    // Optimize the ASCII case.
*993b0882SAndroid Build Coastguard Worker    word->push_back(tolower(*curr));
*993b0882SAndroid Build Coastguard Worker    return;
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  // Harder, general case.
*993b0882SAndroid Build Coastguard Worker  //
*993b0882SAndroid Build Coastguard Worker  // NOTE: for lowercasing, we use the utils from utf.h:
*993b0882SAndroid Build Coastguard Worker  // charntorune + tolowerrune + runetochar.  Unfortunately, that library does
*993b0882SAndroid Build Coastguard Worker  // not contain any fast util for determining the number of bytes for the UTF8
*993b0882SAndroid Build Coastguard Worker  // character that starts at a given address *without* converting to a full
*993b0882SAndroid Build Coastguard Worker  // codepoint (like our utils::OneCharLen, which is used intensively by the
*993b0882SAndroid Build Coastguard Worker  // rest of our code, including by the performance-critical char ngram
*993b0882SAndroid Build Coastguard Worker  // feature).  Hence, the rest of our code continues to use utils::OneCharLen,
*993b0882SAndroid Build Coastguard Worker  // and here, when we append the bytes to *word, we make sure that's consistent
*993b0882SAndroid Build Coastguard Worker  // with utils::OneCharLen.
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  // charntorune() below reads the UTF8 character that starts at curr (using at
*993b0882SAndroid Build Coastguard Worker  // most num_bytes bytes) and stores the corresponding codepoint into rune.
*993b0882SAndroid Build Coastguard Worker  Rune rune;
*993b0882SAndroid Build Coastguard Worker  charntorune(&rune, curr, num_bytes);
*993b0882SAndroid Build Coastguard Worker  if (rune != Runeerror) {
*993b0882SAndroid Build Coastguard Worker    Rune lower = tolowerrune(rune);
*993b0882SAndroid Build Coastguard Worker    char lower_buf[UTFmax];
*993b0882SAndroid Build Coastguard Worker    runetochar(lower_buf, &lower);
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker    // When appending the UTF8 bytes to word, we do not use the number of bytes
*993b0882SAndroid Build Coastguard Worker    // returned by runetochar(); instead, we use utils::OneCharLen(), the same
*993b0882SAndroid Build Coastguard Worker    // method used by the char ngram feature.  We expect them to be equal, but
*993b0882SAndroid Build Coastguard Worker    // just in case.
*993b0882SAndroid Build Coastguard Worker    int lower_num_bytes = utils::OneCharLen(lower_buf);
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker    // Using lower_num_bytes below is safe, because, by definition of UTFmax,
*993b0882SAndroid Build Coastguard Worker    SAFTM_DCHECK_GE(UTFmax, 4);
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker    // And, by implementation of utils::OneCharLen():
*993b0882SAndroid Build Coastguard Worker    SAFTM_DCHECK_GT(lower_num_bytes, 0);
*993b0882SAndroid Build Coastguard Worker    SAFTM_DCHECK_LE(lower_num_bytes, 4);
*993b0882SAndroid Build Coastguard Worker    word->append(lower_buf, lower_num_bytes);
*993b0882SAndroid Build Coastguard Worker  } else {
*993b0882SAndroid Build Coastguard Worker    // There are sequences of bytes that charntorune() can't convert into a
*993b0882SAndroid Build Coastguard Worker    // valid Rune (a special case is [0xEF, 0xBF, 0xBD], the UTF8 encoding for
*993b0882SAndroid Build Coastguard Worker    // the U+FFFD special Unicode character, which is also the value of
*993b0882SAndroid Build Coastguard Worker    // Runeerror).  We keep those bytes unchanged.
*993b0882SAndroid Build Coastguard Worker    word->append(curr, num_bytes);
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker}  // namespace
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Workervoid TokenizerForLangId::Setup(TaskContext *context) {
*993b0882SAndroid Build Coastguard Worker  lowercase_input_ = context->Get("lang_id_lowercase_input", false);
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Workervoid TokenizerForLangId::Tokenize(StringPiece text,
*993b0882SAndroid Build Coastguard Worker                                  LightSentence *sentence) const {
*993b0882SAndroid Build Coastguard Worker  const char *const start = text.data();
*993b0882SAndroid Build Coastguard Worker  const char *curr = start;
*993b0882SAndroid Build Coastguard Worker  const char *end = utils::GetSafeEndOfUtf8String(start, text.size());
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  // Corner case: the safe part of the text is empty ("").
*993b0882SAndroid Build Coastguard Worker  if (curr >= end) {
*993b0882SAndroid Build Coastguard Worker    return;
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  // Number of bytes for UTF8 character starting at *curr.  Note: the loop below
*993b0882SAndroid Build Coastguard Worker  // is guaranteed to terminate because in each iteration, we move curr by at
*993b0882SAndroid Build Coastguard Worker  // least num_bytes, and num_bytes is guaranteed to be > 0.
*993b0882SAndroid Build Coastguard Worker  int num_bytes = utils::OneCharLen(curr);
*993b0882SAndroid Build Coastguard Worker  while (curr < end) {
*993b0882SAndroid Build Coastguard Worker    // Jump over consecutive token separators.
*993b0882SAndroid Build Coastguard Worker    while (IsTokenSeparator(num_bytes, curr)) {
*993b0882SAndroid Build Coastguard Worker      curr += num_bytes;
*993b0882SAndroid Build Coastguard Worker      if (curr >= end) {
*993b0882SAndroid Build Coastguard Worker        return;
*993b0882SAndroid Build Coastguard Worker      }
*993b0882SAndroid Build Coastguard Worker      num_bytes = utils::OneCharLen(curr);
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker    // If control reaches this point, we are at beginning of a non-empty token.
*993b0882SAndroid Build Coastguard Worker    sentence->emplace_back();
*993b0882SAndroid Build Coastguard Worker    std::string *word = &(sentence->back());
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker    // Add special token-start character.
*993b0882SAndroid Build Coastguard Worker    word->push_back('^');
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker    // Add UTF8 characters to word, until we hit the end of the safe text or a
*993b0882SAndroid Build Coastguard Worker    // token separator.
*993b0882SAndroid Build Coastguard Worker    while (true) {
*993b0882SAndroid Build Coastguard Worker      if (lowercase_input_) {
*993b0882SAndroid Build Coastguard Worker        AppendLowerCase(curr, num_bytes, word);
*993b0882SAndroid Build Coastguard Worker      } else {
*993b0882SAndroid Build Coastguard Worker        word->append(curr, num_bytes);
*993b0882SAndroid Build Coastguard Worker      }
*993b0882SAndroid Build Coastguard Worker      curr += num_bytes;
*993b0882SAndroid Build Coastguard Worker      if (curr >= end) {
*993b0882SAndroid Build Coastguard Worker        break;
*993b0882SAndroid Build Coastguard Worker      }
*993b0882SAndroid Build Coastguard Worker      num_bytes = utils::OneCharLen(curr);
*993b0882SAndroid Build Coastguard Worker      if (IsTokenSeparator(num_bytes, curr)) {
*993b0882SAndroid Build Coastguard Worker        curr += num_bytes;
*993b0882SAndroid Build Coastguard Worker        if (curr >= end) {
*993b0882SAndroid Build Coastguard Worker          break;
*993b0882SAndroid Build Coastguard Worker        }
*993b0882SAndroid Build Coastguard Worker        num_bytes = utils::OneCharLen(curr);
*993b0882SAndroid Build Coastguard Worker        break;
*993b0882SAndroid Build Coastguard Worker      }
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker    word->push_back('$');
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker}  // namespace lang_id
*993b0882SAndroid Build Coastguard Worker}  // namespace mobile
*993b0882SAndroid Build Coastguard Worker}  // namespace nlp_saft