libyuv/source/scale_neon.cc

*4e366538SXin Li/*
*4e366538SXin Li *  Copyright 2011 The LibYuv Project Authors. All rights reserved.
*4e366538SXin Li *
*4e366538SXin Li *  Use of this source code is governed by a BSD-style license
*4e366538SXin Li *  that can be found in the LICENSE file in the root of the source
*4e366538SXin Li *  tree. An additional intellectual property rights grant can be found
*4e366538SXin Li *  in the file PATENTS. All contributing project authors may
*4e366538SXin Li *  be found in the AUTHORS file in the root of the source tree.
*4e366538SXin Li */
*4e366538SXin Li
*4e366538SXin Li#include "libyuv/row.h"
*4e366538SXin Li
*4e366538SXin Li#ifdef __cplusplus
*4e366538SXin Linamespace libyuv {
*4e366538SXin Liextern "C" {
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li// This module is for GCC Neon.
*4e366538SXin Li#if !defined(LIBYUV_DISABLE_NEON) && defined(__ARM_NEON__) && \
*4e366538SXin Li    !defined(__aarch64__)
*4e366538SXin Li
*4e366538SXin Li// NEON downscalers with interpolation.
*4e366538SXin Li// Provided by Fritz Koenig
*4e366538SXin Li
*4e366538SXin Li// Read 32x1 throw away even pixels, and write 16x1.
*4e366538SXin Livoid ScaleRowDown2_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                        ptrdiff_t src_stride,
*4e366538SXin Li                        uint8_t* dst,
*4e366538SXin Li                        int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      // load even pixels into q0, odd into q1
*4e366538SXin Li      "vld2.8      {q0, q1}, [%0]!               \n"
*4e366538SXin Li      "subs        %2, %2, #16                   \n"  // 16 processed per loop
*4e366538SXin Li      "vst1.8      {q1}, [%1]!                   \n"  // store odd pixels
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst),       // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Read 32x1 average down and write 16x1.
*4e366538SXin Livoid ScaleRowDown2Linear_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                              ptrdiff_t src_stride,
*4e366538SXin Li                              uint8_t* dst,
*4e366538SXin Li                              int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld2.8      {q0, q1}, [%0]!               \n"  // load 32 pixels
*4e366538SXin Li      "subs        %2, %2, #16                   \n"  // 16 processed per loop
*4e366538SXin Li      "vrhadd.u8   q0, q0, q1                    \n"  // rounding half add
*4e366538SXin Li      "vst1.8      {q0}, [%1]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst),       // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Read 32x2 average down and write 16x1.
*4e366538SXin Livoid ScaleRowDown2Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                           ptrdiff_t src_stride,
*4e366538SXin Li                           uint8_t* dst,
*4e366538SXin Li                           int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      // change the stride to row 2 pointer
*4e366538SXin Li      "add         %1, %0                        \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {q0, q1}, [%0]!               \n"  // load row 1 and post inc
*4e366538SXin Li      "vld1.8      {q2, q3}, [%1]!               \n"  // load row 2 and post inc
*4e366538SXin Li      "subs        %3, %3, #16                   \n"  // 16 processed per loop
*4e366538SXin Li      "vpaddl.u8   q0, q0                        \n"  // row 1 add adjacent
*4e366538SXin Li      "vpaddl.u8   q1, q1                        \n"
*4e366538SXin Li      "vpadal.u8   q0, q2                        \n"  // row 2 add adjacent +
*4e366538SXin Li                                                      // row1
*4e366538SXin Li      "vpadal.u8   q1, q3                        \n"
*4e366538SXin Li      "vrshrn.u16  d0, q0, #2                    \n"  // downshift, round and
*4e366538SXin Li                                                      // pack
*4e366538SXin Li      "vrshrn.u16  d1, q1, #2                    \n"
*4e366538SXin Li      "vst1.8      {q0}, [%2]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),     // %0
*4e366538SXin Li        "+r"(src_stride),  // %1
*4e366538SXin Li        "+r"(dst),         // %2
*4e366538SXin Li        "+r"(dst_width)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1", "q2", "q3"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown4_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                        ptrdiff_t src_stride,
*4e366538SXin Li                        uint8_t* dst_ptr,
*4e366538SXin Li                        int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.8      {d0, d1, d2, d3}, [%0]!       \n"  // src line 0
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop
*4e366538SXin Li      "vst1.8      {d2}, [%1]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown4Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                           ptrdiff_t src_stride,
*4e366538SXin Li                           uint8_t* dst_ptr,
*4e366538SXin Li                           int dst_width) {
*4e366538SXin Li  const uint8_t* src_ptr1 = src_ptr + src_stride;
*4e366538SXin Li  const uint8_t* src_ptr2 = src_ptr + src_stride * 2;
*4e366538SXin Li  const uint8_t* src_ptr3 = src_ptr + src_stride * 3;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {q0}, [%0]!                   \n"  // load up 16x4
*4e366538SXin Li      "vld1.8      {q1}, [%3]!                   \n"
*4e366538SXin Li      "vld1.8      {q2}, [%4]!                   \n"
*4e366538SXin Li      "vld1.8      {q3}, [%5]!                   \n"
*4e366538SXin Li      "subs        %2, %2, #4                    \n"
*4e366538SXin Li      "vpaddl.u8   q0, q0                        \n"
*4e366538SXin Li      "vpadal.u8   q0, q1                        \n"
*4e366538SXin Li      "vpadal.u8   q0, q2                        \n"
*4e366538SXin Li      "vpadal.u8   q0, q3                        \n"
*4e366538SXin Li      "vpaddl.u16  q0, q0                        \n"
*4e366538SXin Li      "vrshrn.u32  d0, q0, #4                    \n"  // divide by 16 w/rounding
*4e366538SXin Li      "vmovn.u16   d0, q0                        \n"
*4e366538SXin Li      "vst1.32     {d0[0]}, [%1]!                \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_ptr1),   // %3
*4e366538SXin Li        "+r"(src_ptr2),   // %4
*4e366538SXin Li        "+r"(src_ptr3)    // %5
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1", "q2", "q3", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Down scale from 4 to 3 pixels. Use the neon multilane read/write
*4e366538SXin Li// to load up the every 4th pixel into a 4 different registers.
*4e366538SXin Li// Point samples 32 pixels to 24 pixels.
*4e366538SXin Livoid ScaleRowDown34_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                         ptrdiff_t src_stride,
*4e366538SXin Li                         uint8_t* dst_ptr,
*4e366538SXin Li                         int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.8      {d0, d1, d2, d3}, [%0]!       \n"  // src line 0
*4e366538SXin Li      "subs        %2, %2, #24                   \n"
*4e366538SXin Li      "vmov        d2, d3                        \n"  // order d0, d1, d2
*4e366538SXin Li      "vst3.8      {d0, d1, d2}, [%1]!           \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "d0", "d1", "d2", "d3", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown34_0_Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u8     d24, #3                       \n"
*4e366538SXin Li      "add         %3, %0                        \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.8      {d0, d1, d2, d3}, [%0]!       \n"  // src line 0
*4e366538SXin Li      "vld4.8      {d4, d5, d6, d7}, [%3]!       \n"  // src line 1
*4e366538SXin Li      "subs        %2, %2, #24                   \n"
*4e366538SXin Li
*4e366538SXin Li      // filter src line 0 with src line 1
*4e366538SXin Li      // expand chars to shorts to allow for room
*4e366538SXin Li      // when adding lines together
*4e366538SXin Li      "vmovl.u8    q8, d4                        \n"
*4e366538SXin Li      "vmovl.u8    q9, d5                        \n"
*4e366538SXin Li      "vmovl.u8    q10, d6                       \n"
*4e366538SXin Li      "vmovl.u8    q11, d7                       \n"
*4e366538SXin Li
*4e366538SXin Li      // 3 * line_0 + line_1
*4e366538SXin Li      "vmlal.u8    q8, d0, d24                   \n"
*4e366538SXin Li      "vmlal.u8    q9, d1, d24                   \n"
*4e366538SXin Li      "vmlal.u8    q10, d2, d24                  \n"
*4e366538SXin Li      "vmlal.u8    q11, d3, d24                  \n"
*4e366538SXin Li
*4e366538SXin Li      // (3 * line_0 + line_1 + 2) >> 2
*4e366538SXin Li      "vqrshrn.u16 d0, q8, #2                    \n"
*4e366538SXin Li      "vqrshrn.u16 d1, q9, #2                    \n"
*4e366538SXin Li      "vqrshrn.u16 d2, q10, #2                   \n"
*4e366538SXin Li      "vqrshrn.u16 d3, q11, #2                   \n"
*4e366538SXin Li
*4e366538SXin Li      // a0 = (src[0] * 3 + s[1] * 1 + 2) >> 2
*4e366538SXin Li      "vmovl.u8    q8, d1                        \n"
*4e366538SXin Li      "vmlal.u8    q8, d0, d24                   \n"
*4e366538SXin Li      "vqrshrn.u16 d0, q8, #2                    \n"
*4e366538SXin Li
*4e366538SXin Li      // a1 = (src[1] * 1 + s[2] * 1 + 1) >> 1
*4e366538SXin Li      "vrhadd.u8   d1, d1, d2                    \n"
*4e366538SXin Li
*4e366538SXin Li      // a2 = (src[2] * 1 + s[3] * 3 + 2) >> 2
*4e366538SXin Li      "vmovl.u8    q8, d2                        \n"
*4e366538SXin Li      "vmlal.u8    q8, d3, d24                   \n"
*4e366538SXin Li      "vqrshrn.u16 d2, q8, #2                    \n"
*4e366538SXin Li
*4e366538SXin Li      "vst3.8      {d0, d1, d2}, [%1]!           \n"
*4e366538SXin Li
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_stride)  // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1", "q2", "q3", "q8", "q9", "q10", "q11", "d24", "memory",
*4e366538SXin Li        "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown34_1_Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u8     d24, #3                       \n"
*4e366538SXin Li      "add         %3, %0                        \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.8      {d0, d1, d2, d3}, [%0]!       \n"  // src line 0
*4e366538SXin Li      "vld4.8      {d4, d5, d6, d7}, [%3]!       \n"  // src line 1
*4e366538SXin Li      "subs        %2, %2, #24                   \n"
*4e366538SXin Li      // average src line 0 with src line 1
*4e366538SXin Li      "vrhadd.u8   q0, q0, q2                    \n"
*4e366538SXin Li      "vrhadd.u8   q1, q1, q3                    \n"
*4e366538SXin Li
*4e366538SXin Li      // a0 = (src[0] * 3 + s[1] * 1 + 2) >> 2
*4e366538SXin Li      "vmovl.u8    q3, d1                        \n"
*4e366538SXin Li      "vmlal.u8    q3, d0, d24                   \n"
*4e366538SXin Li      "vqrshrn.u16 d0, q3, #2                    \n"
*4e366538SXin Li
*4e366538SXin Li      // a1 = (src[1] * 1 + s[2] * 1 + 1) >> 1
*4e366538SXin Li      "vrhadd.u8   d1, d1, d2                    \n"
*4e366538SXin Li
*4e366538SXin Li      // a2 = (src[2] * 1 + s[3] * 3 + 2) >> 2
*4e366538SXin Li      "vmovl.u8    q3, d2                        \n"
*4e366538SXin Li      "vmlal.u8    q3, d3, d24                   \n"
*4e366538SXin Li      "vqrshrn.u16 d2, q3, #2                    \n"
*4e366538SXin Li
*4e366538SXin Li      "vst3.8      {d0, d1, d2}, [%1]!           \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_stride)  // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "r4", "q0", "q1", "q2", "q3", "d24", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#define HAS_SCALEROWDOWN38_NEON
*4e366538SXin Listatic const uvec8 kShuf38 = {0,  3,  6,  8,  11, 14, 16, 19,
*4e366538SXin Li                              22, 24, 27, 30, 0,  0,  0,  0};
*4e366538SXin Listatic const uvec8 kShuf38_2 = {0,  8, 16, 2,  10, 17, 4, 12,
*4e366538SXin Li                                18, 6, 14, 19, 0,  0,  0, 0};
*4e366538SXin Listatic const vec16 kMult38_Div6 = {65536 / 12, 65536 / 12, 65536 / 12,
*4e366538SXin Li                                   65536 / 12, 65536 / 12, 65536 / 12,
*4e366538SXin Li                                   65536 / 12, 65536 / 12};
*4e366538SXin Listatic const vec16 kMult38_Div9 = {65536 / 18, 65536 / 18, 65536 / 18,
*4e366538SXin Li                                   65536 / 18, 65536 / 18, 65536 / 18,
*4e366538SXin Li                                   65536 / 18, 65536 / 18};
*4e366538SXin Li
*4e366538SXin Li// 32 -> 12
*4e366538SXin Livoid ScaleRowDown38_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                         ptrdiff_t src_stride,
*4e366538SXin Li                         uint8_t* dst_ptr,
*4e366538SXin Li                         int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vld1.8      {q3}, [%3]                    \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d0, d1, d2, d3}, [%0]!       \n"
*4e366538SXin Li      "subs        %2, %2, #12                   \n"
*4e366538SXin Li      "vtbl.u8     d4, {d0, d1, d2, d3}, d6      \n"
*4e366538SXin Li      "vtbl.u8     d5, {d0, d1, d2, d3}, d7      \n"
*4e366538SXin Li      "vst1.8      {d4}, [%1]!                   \n"
*4e366538SXin Li      "vst1.32     {d5[0]}, [%1]!                \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      : "r"(&kShuf38)    // %3
*4e366538SXin Li      : "d0", "d1", "d2", "d3", "d4", "d5", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// 32x3 -> 12x1
*4e366538SXin Livoid OMITFP ScaleRowDown38_3_Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                                      ptrdiff_t src_stride,
*4e366538SXin Li                                      uint8_t* dst_ptr,
*4e366538SXin Li                                      int dst_width) {
*4e366538SXin Li  const uint8_t* src_ptr1 = src_ptr + src_stride * 2;
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vld1.16     {q13}, [%5]                   \n"
*4e366538SXin Li      "vld1.8      {q14}, [%6]                   \n"
*4e366538SXin Li      "vld1.8      {q15}, [%7]                   \n"
*4e366538SXin Li      "add         %3, %0                        \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d0 = 00 40 01 41 02 42 03 43
*4e366538SXin Li      // d1 = 10 50 11 51 12 52 13 53
*4e366538SXin Li      // d2 = 20 60 21 61 22 62 23 63
*4e366538SXin Li      // d3 = 30 70 31 71 32 72 33 73
*4e366538SXin Li      "vld4.8      {d0, d1, d2, d3}, [%0]!       \n"
*4e366538SXin Li      "vld4.8      {d4, d5, d6, d7}, [%3]!       \n"
*4e366538SXin Li      "vld4.8      {d16, d17, d18, d19}, [%4]!   \n"
*4e366538SXin Li      "subs        %2, %2, #12                   \n"
*4e366538SXin Li
*4e366538SXin Li      // Shuffle the input data around to get align the data
*4e366538SXin Li      //  so adjacent data can be added. 0,1 - 2,3 - 4,5 - 6,7
*4e366538SXin Li      // d0 = 00 10 01 11 02 12 03 13
*4e366538SXin Li      // d1 = 40 50 41 51 42 52 43 53
*4e366538SXin Li      "vtrn.u8     d0, d1                        \n"
*4e366538SXin Li      "vtrn.u8     d4, d5                        \n"
*4e366538SXin Li      "vtrn.u8     d16, d17                      \n"
*4e366538SXin Li
*4e366538SXin Li      // d2 = 20 30 21 31 22 32 23 33
*4e366538SXin Li      // d3 = 60 70 61 71 62 72 63 73
*4e366538SXin Li      "vtrn.u8     d2, d3                        \n"
*4e366538SXin Li      "vtrn.u8     d6, d7                        \n"
*4e366538SXin Li      "vtrn.u8     d18, d19                      \n"
*4e366538SXin Li
*4e366538SXin Li      // d0 = 00+10 01+11 02+12 03+13
*4e366538SXin Li      // d2 = 40+50 41+51 42+52 43+53
*4e366538SXin Li      "vpaddl.u8   q0, q0                        \n"
*4e366538SXin Li      "vpaddl.u8   q2, q2                        \n"
*4e366538SXin Li      "vpaddl.u8   q8, q8                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d3 = 60+70 61+71 62+72 63+73
*4e366538SXin Li      "vpaddl.u8   d3, d3                        \n"
*4e366538SXin Li      "vpaddl.u8   d7, d7                        \n"
*4e366538SXin Li      "vpaddl.u8   d19, d19                      \n"
*4e366538SXin Li
*4e366538SXin Li      // combine source lines
*4e366538SXin Li      "vadd.u16    q0, q2                        \n"
*4e366538SXin Li      "vadd.u16    q0, q8                        \n"
*4e366538SXin Li      "vadd.u16    d4, d3, d7                    \n"
*4e366538SXin Li      "vadd.u16    d4, d19                       \n"
*4e366538SXin Li
*4e366538SXin Li      // dst_ptr[3] = (s[6 + st * 0] + s[7 + st * 0]
*4e366538SXin Li      //             + s[6 + st * 1] + s[7 + st * 1]
*4e366538SXin Li      //             + s[6 + st * 2] + s[7 + st * 2]) / 6
*4e366538SXin Li      "vqrdmulh.s16 q2, q2, q13                  \n"
*4e366538SXin Li      "vmovn.u16   d4, q2                        \n"
*4e366538SXin Li
*4e366538SXin Li      // Shuffle 2,3 reg around so that 2 can be added to the
*4e366538SXin Li      //  0,1 reg and 3 can be added to the 4,5 reg. This
*4e366538SXin Li      //  requires expanding from u8 to u16 as the 0,1 and 4,5
*4e366538SXin Li      //  registers are already expanded. Then do transposes
*4e366538SXin Li      //  to get aligned.
*4e366538SXin Li      // q2 = xx 20 xx 30 xx 21 xx 31 xx 22 xx 32 xx 23 xx 33
*4e366538SXin Li      "vmovl.u8    q1, d2                        \n"
*4e366538SXin Li      "vmovl.u8    q3, d6                        \n"
*4e366538SXin Li      "vmovl.u8    q9, d18                       \n"
*4e366538SXin Li
*4e366538SXin Li      // combine source lines
*4e366538SXin Li      "vadd.u16    q1, q3                        \n"
*4e366538SXin Li      "vadd.u16    q1, q9                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d4 = xx 20 xx 30 xx 22 xx 32
*4e366538SXin Li      // d5 = xx 21 xx 31 xx 23 xx 33
*4e366538SXin Li      "vtrn.u32    d2, d3                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d4 = xx 20 xx 21 xx 22 xx 23
*4e366538SXin Li      // d5 = xx 30 xx 31 xx 32 xx 33
*4e366538SXin Li      "vtrn.u16    d2, d3                        \n"
*4e366538SXin Li
*4e366538SXin Li      // 0+1+2, 3+4+5
*4e366538SXin Li      "vadd.u16    q0, q1                        \n"
*4e366538SXin Li
*4e366538SXin Li      // Need to divide, but can't downshift as the the value
*4e366538SXin Li      //  isn't a power of 2. So multiply by 65536 / n
*4e366538SXin Li      //  and take the upper 16 bits.
*4e366538SXin Li      "vqrdmulh.s16 q0, q0, q15                  \n"
*4e366538SXin Li
*4e366538SXin Li      // Align for table lookup, vtbl requires registers to
*4e366538SXin Li      //  be adjacent
*4e366538SXin Li      "vmov.u8     d2, d4                        \n"
*4e366538SXin Li
*4e366538SXin Li      "vtbl.u8     d3, {d0, d1, d2}, d28         \n"
*4e366538SXin Li      "vtbl.u8     d4, {d0, d1, d2}, d29         \n"
*4e366538SXin Li
*4e366538SXin Li      "vst1.8      {d3}, [%1]!                   \n"
*4e366538SXin Li      "vst1.32     {d4[0]}, [%1]!                \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),       // %0
*4e366538SXin Li        "+r"(dst_ptr),       // %1
*4e366538SXin Li        "+r"(dst_width),     // %2
*4e366538SXin Li        "+r"(src_stride),    // %3
*4e366538SXin Li        "+r"(src_ptr1)       // %4
*4e366538SXin Li      : "r"(&kMult38_Div6),  // %5
*4e366538SXin Li        "r"(&kShuf38_2),     // %6
*4e366538SXin Li        "r"(&kMult38_Div9)   // %7
*4e366538SXin Li      : "q0", "q1", "q2", "q3", "q8", "q9", "q13", "q14", "q15", "memory",
*4e366538SXin Li        "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// 32x2 -> 12x1
*4e366538SXin Livoid ScaleRowDown38_2_Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vld1.16     {q13}, [%4]                   \n"
*4e366538SXin Li      "vld1.8      {q14}, [%5]                   \n"
*4e366538SXin Li      "add         %3, %0                        \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d0 = 00 40 01 41 02 42 03 43
*4e366538SXin Li      // d1 = 10 50 11 51 12 52 13 53
*4e366538SXin Li      // d2 = 20 60 21 61 22 62 23 63
*4e366538SXin Li      // d3 = 30 70 31 71 32 72 33 73
*4e366538SXin Li      "vld4.8      {d0, d1, d2, d3}, [%0]!       \n"
*4e366538SXin Li      "vld4.8      {d4, d5, d6, d7}, [%3]!       \n"
*4e366538SXin Li      "subs        %2, %2, #12                   \n"
*4e366538SXin Li
*4e366538SXin Li      // Shuffle the input data around to get align the data
*4e366538SXin Li      //  so adjacent data can be added. 0,1 - 2,3 - 4,5 - 6,7
*4e366538SXin Li      // d0 = 00 10 01 11 02 12 03 13
*4e366538SXin Li      // d1 = 40 50 41 51 42 52 43 53
*4e366538SXin Li      "vtrn.u8     d0, d1                        \n"
*4e366538SXin Li      "vtrn.u8     d4, d5                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d2 = 20 30 21 31 22 32 23 33
*4e366538SXin Li      // d3 = 60 70 61 71 62 72 63 73
*4e366538SXin Li      "vtrn.u8     d2, d3                        \n"
*4e366538SXin Li      "vtrn.u8     d6, d7                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d0 = 00+10 01+11 02+12 03+13
*4e366538SXin Li      // d2 = 40+50 41+51 42+52 43+53
*4e366538SXin Li      "vpaddl.u8   q0, q0                        \n"
*4e366538SXin Li      "vpaddl.u8   q2, q2                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d3 = 60+70 61+71 62+72 63+73
*4e366538SXin Li      "vpaddl.u8   d3, d3                        \n"
*4e366538SXin Li      "vpaddl.u8   d7, d7                        \n"
*4e366538SXin Li
*4e366538SXin Li      // combine source lines
*4e366538SXin Li      "vadd.u16    q0, q2                        \n"
*4e366538SXin Li      "vadd.u16    d4, d3, d7                    \n"
*4e366538SXin Li
*4e366538SXin Li      // dst_ptr[3] = (s[6] + s[7] + s[6+st] + s[7+st]) / 4
*4e366538SXin Li      "vqrshrn.u16 d4, q2, #2                    \n"
*4e366538SXin Li
*4e366538SXin Li      // Shuffle 2,3 reg around so that 2 can be added to the
*4e366538SXin Li      //  0,1 reg and 3 can be added to the 4,5 reg. This
*4e366538SXin Li      //  requires expanding from u8 to u16 as the 0,1 and 4,5
*4e366538SXin Li      //  registers are already expanded. Then do transposes
*4e366538SXin Li      //  to get aligned.
*4e366538SXin Li      // q2 = xx 20 xx 30 xx 21 xx 31 xx 22 xx 32 xx 23 xx 33
*4e366538SXin Li      "vmovl.u8    q1, d2                        \n"
*4e366538SXin Li      "vmovl.u8    q3, d6                        \n"
*4e366538SXin Li
*4e366538SXin Li      // combine source lines
*4e366538SXin Li      "vadd.u16    q1, q3                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d4 = xx 20 xx 30 xx 22 xx 32
*4e366538SXin Li      // d5 = xx 21 xx 31 xx 23 xx 33
*4e366538SXin Li      "vtrn.u32    d2, d3                        \n"
*4e366538SXin Li
*4e366538SXin Li      // d4 = xx 20 xx 21 xx 22 xx 23
*4e366538SXin Li      // d5 = xx 30 xx 31 xx 32 xx 33
*4e366538SXin Li      "vtrn.u16    d2, d3                        \n"
*4e366538SXin Li
*4e366538SXin Li      // 0+1+2, 3+4+5
*4e366538SXin Li      "vadd.u16    q0, q1                        \n"
*4e366538SXin Li
*4e366538SXin Li      // Need to divide, but can't downshift as the the value
*4e366538SXin Li      //  isn't a power of 2. So multiply by 65536 / n
*4e366538SXin Li      //  and take the upper 16 bits.
*4e366538SXin Li      "vqrdmulh.s16 q0, q0, q13                  \n"
*4e366538SXin Li
*4e366538SXin Li      // Align for table lookup, vtbl requires registers to
*4e366538SXin Li      //  be adjacent
*4e366538SXin Li      "vmov.u8     d2, d4                        \n"
*4e366538SXin Li
*4e366538SXin Li      "vtbl.u8     d3, {d0, d1, d2}, d28         \n"
*4e366538SXin Li      "vtbl.u8     d4, {d0, d1, d2}, d29         \n"
*4e366538SXin Li
*4e366538SXin Li      "vst1.8      {d3}, [%1]!                   \n"
*4e366538SXin Li      "vst1.32     {d4[0]}, [%1]!                \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),       // %0
*4e366538SXin Li        "+r"(dst_ptr),       // %1
*4e366538SXin Li        "+r"(dst_width),     // %2
*4e366538SXin Li        "+r"(src_stride)     // %3
*4e366538SXin Li      : "r"(&kMult38_Div6),  // %4
*4e366538SXin Li        "r"(&kShuf38_2)      // %5
*4e366538SXin Li      : "q0", "q1", "q2", "q3", "q13", "q14", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowUp2_Linear_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                             uint8_t* dst_ptr,
*4e366538SXin Li                             int dst_width) {
*4e366538SXin Li  const uint8_t* src_temp = src_ptr + 1;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u8     d30, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d4}, [%0]!                   \n"  // 01234567
*4e366538SXin Li      "vld1.8      {d5}, [%3]!                   \n"  // 12345678
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u8    q0, d4                        \n"  // 01234567 (16b)
*4e366538SXin Li      "vmovl.u8    q1, d5                        \n"  // 12345678 (16b)
*4e366538SXin Li      "vmlal.u8    q0, d5, d30                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmlal.u8    q1, d4, d30                   \n"  // 3*near+far (even)
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u16  d1, q0, #2                    \n"  // 3/4*near+1/4*far (odd)
*4e366538SXin Li      "vrshrn.u16  d0, q1, #2                    \n"  // 3/4*near+1/4*far (even)
*4e366538SXin Li
*4e366538SXin Li      "vst2.8      {d0, d1}, [%1]!               \n"  // store
*4e366538SXin Li      "subs        %2, %2, #16                   \n"  // 8 sample -> 16 sample
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_temp)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q15"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowUp2_Bilinear_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               ptrdiff_t dst_stride,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  const uint8_t* src_ptr1 = src_ptr + src_stride;
*4e366538SXin Li  uint8_t* dst_ptr1 = dst_ptr + dst_stride;
*4e366538SXin Li  const uint8_t* src_temp = src_ptr + 1;
*4e366538SXin Li  const uint8_t* src_temp1 = src_ptr1 + 1;
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    q15, #3                       \n"
*4e366538SXin Li      "vmov.u8     d28, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d4}, [%0]!                   \n"  // 01234567
*4e366538SXin Li      "vld1.8      {d5}, [%5]!                   \n"  // 12345678
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u8    q0, d4                        \n"  // 01234567 (16b)
*4e366538SXin Li      "vmovl.u8    q1, d5                        \n"  // 12345678 (16b)
*4e366538SXin Li      "vmlal.u8    q0, d5, d28                   \n"  // 3*near+far (1, odd)
*4e366538SXin Li      "vmlal.u8    q1, d4, d28                   \n"  // 3*near+far (1, even)
*4e366538SXin Li
*4e366538SXin Li      "vld1.8      {d8}, [%1]!                   \n"
*4e366538SXin Li      "vld1.8      {d9}, [%6]!                   \n"
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u8    q2, d8                        \n"
*4e366538SXin Li      "vmovl.u8    q3, d9                        \n"
*4e366538SXin Li      "vmlal.u8    q2, d9, d28                   \n"  // 3*near+far (2, odd)
*4e366538SXin Li      "vmlal.u8    q3, d8, d28                   \n"  // 3*near+far (2, even)
*4e366538SXin Li
*4e366538SXin Li      // e  o
*4e366538SXin Li      // q1 q0
*4e366538SXin Li      // q3 q2
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q4, q2                        \n"
*4e366538SXin Li      "vmovq       q5, q3                        \n"
*4e366538SXin Li      "vmla.u16    q4, q0, q15                   \n"  // 9 3 3 1 (1, odd)
*4e366538SXin Li      "vmla.u16    q5, q1, q15                   \n"  // 9 3 3 1 (1, even)
*4e366538SXin Li      "vmla.u16    q0, q2, q15                   \n"  // 9 3 3 1 (2, odd)
*4e366538SXin Li      "vmla.u16    q1, q3, q15                   \n"  // 9 3 3 1 (2, even)
*4e366538SXin Li
*4e366538SXin Li      // e  o
*4e366538SXin Li      // q5 q4
*4e366538SXin Li      // q1 q0
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u16  d2, q1, #4                    \n"  // 2, even
*4e366538SXin Li      "vrshrn.u16  d3, q0, #4                    \n"  // 2, odd
*4e366538SXin Li      "vrshrn.u16  d0, q5, #4                    \n"  // 1, even
*4e366538SXin Li      "vrshrn.u16  d1, q4, #4                    \n"  // 1, odd
*4e366538SXin Li
*4e366538SXin Li      "vst2.8      {d0, d1}, [%2]!               \n"  // store
*4e366538SXin Li      "vst2.8      {d2, d3}, [%3]!               \n"  // store
*4e366538SXin Li      "subs        %4, %4, #16                   \n"  // 8 sample -> 16 sample
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(src_ptr1),   // %1
*4e366538SXin Li        "+r"(dst_ptr),    // %2
*4e366538SXin Li        "+r"(dst_ptr1),   // %3
*4e366538SXin Li        "+r"(dst_width),  // %4
*4e366538SXin Li        "+r"(src_temp),   // %5
*4e366538SXin Li        "+r"(src_temp1)   // %6
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q4", "q5", "d28",
*4e366538SXin Li        "q15"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowUp2_Linear_12_NEON(const uint16_t* src_ptr,
*4e366538SXin Li                                uint16_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  const uint16_t* src_temp = src_ptr + 1;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    q15, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {q1}, [%0]!                   \n"  // 01234567 (16b)
*4e366538SXin Li      "vld1.16     {q0}, [%3]!                   \n"  // 12345678 (16b)
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q2, q0                        \n"
*4e366538SXin Li      "vmla.u16    q0, q1, q15                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmla.u16    q1, q2, q15                   \n"  // 3*near+far (even)
*4e366538SXin Li
*4e366538SXin Li      "vrshr.u16   q0, q0, #2                    \n"  // 3/4*near+1/4*far (odd)
*4e366538SXin Li      "vrshr.u16   q1, q1, #2                    \n"  // 3/4*near+1/4*far (even)
*4e366538SXin Li
*4e366538SXin Li      "vst2.16     {d0, d1, d2, d3}, [%1]!       \n"  // store
*4e366538SXin Li      "subs        %2, %2, #16                   \n"  // 8 sample -> 16 sample
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_temp)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q15"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowUp2_Bilinear_12_NEON(const uint16_t* src_ptr,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  ptrdiff_t dst_stride,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  const uint16_t* src_ptr1 = src_ptr + src_stride;
*4e366538SXin Li  uint16_t* dst_ptr1 = dst_ptr + dst_stride;
*4e366538SXin Li  const uint16_t* src_temp = src_ptr + 1;
*4e366538SXin Li  const uint16_t* src_temp1 = src_ptr1 + 1;
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    q15, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {q0}, [%0]!                   \n"  // 01234567 (16b)
*4e366538SXin Li      "vld1.16     {q1}, [%5]!                   \n"  // 12345678 (16b)
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q2, q0                        \n"
*4e366538SXin Li      "vmla.u16    q0, q1, q15                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmla.u16    q1, q2, q15                   \n"  // 3*near+far (even)
*4e366538SXin Li
*4e366538SXin Li      "vld1.16     {q2}, [%1]!                   \n"  // 01234567 (16b)
*4e366538SXin Li      "vld1.16     {q3}, [%6]!                   \n"  // 12345678 (16b)
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q4, q2                        \n"
*4e366538SXin Li      "vmla.u16    q2, q3, q15                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmla.u16    q3, q4, q15                   \n"  // 3*near+far (even)
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q4, q2                        \n"
*4e366538SXin Li      "vmovq       q5, q3                        \n"
*4e366538SXin Li      "vmla.u16    q4, q0, q15                   \n"  // 9 3 3 1 (1, odd)
*4e366538SXin Li      "vmla.u16    q5, q1, q15                   \n"  // 9 3 3 1 (1, even)
*4e366538SXin Li      "vmla.u16    q0, q2, q15                   \n"  // 9 3 3 1 (2, odd)
*4e366538SXin Li      "vmla.u16    q1, q3, q15                   \n"  // 9 3 3 1 (2, even)
*4e366538SXin Li
*4e366538SXin Li      "vrshr.u16   q2, q1, #4                    \n"  // 2, even
*4e366538SXin Li      "vrshr.u16   q3, q0, #4                    \n"  // 2, odd
*4e366538SXin Li      "vrshr.u16   q0, q5, #4                    \n"  // 1, even
*4e366538SXin Li      "vrshr.u16   q1, q4, #4                    \n"  // 1, odd
*4e366538SXin Li
*4e366538SXin Li      "vst2.16     {d0, d1, d2, d3}, [%2]!       \n"  // store
*4e366538SXin Li      "vst2.16     {d4, d5, d6, d7}, [%3]!       \n"  // store
*4e366538SXin Li      "subs        %4, %4, #16                   \n"  // 8 sample -> 16 sample
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(src_ptr1),   // %1
*4e366538SXin Li        "+r"(dst_ptr),    // %2
*4e366538SXin Li        "+r"(dst_ptr1),   // %3
*4e366538SXin Li        "+r"(dst_width),  // %4
*4e366538SXin Li        "+r"(src_temp),   // %5
*4e366538SXin Li        "+r"(src_temp1)   // %6
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q4", "q5",
*4e366538SXin Li        "q15"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowUp2_Linear_16_NEON(const uint16_t* src_ptr,
*4e366538SXin Li                                uint16_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  const uint16_t* src_temp = src_ptr + 1;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    d31, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {q0}, [%0]!                   \n"  // 01234567 (16b)
*4e366538SXin Li      "vld1.16     {q1}, [%3]!                   \n"  // 12345678 (16b)
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u16   q2, d0                        \n"  // 0123 (32b)
*4e366538SXin Li      "vmovl.u16   q3, d1                        \n"  // 4567 (32b)
*4e366538SXin Li      "vmovl.u16   q4, d2                        \n"  // 1234 (32b)
*4e366538SXin Li      "vmovl.u16   q5, d3                        \n"  // 5678 (32b)
*4e366538SXin Li
*4e366538SXin Li      "vmlal.u16   q2, d2, d31                   \n"
*4e366538SXin Li      "vmlal.u16   q3, d3, d31                   \n"
*4e366538SXin Li      "vmlal.u16   q4, d0, d31                   \n"
*4e366538SXin Li      "vmlal.u16   q5, d1, d31                   \n"
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u32  d0, q4, #2                    \n"
*4e366538SXin Li      "vrshrn.u32  d1, q5, #2                    \n"
*4e366538SXin Li      "vrshrn.u32  d2, q2, #2                    \n"
*4e366538SXin Li      "vrshrn.u32  d3, q3, #2                    \n"
*4e366538SXin Li
*4e366538SXin Li      "vst2.16     {q0, q1}, [%1]!               \n"  // store
*4e366538SXin Li      "subs        %2, %2, #16                   \n"  // 8 sample -> 16 sample
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_temp)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q15"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowUp2_Bilinear_16_NEON(const uint16_t* src_ptr,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  ptrdiff_t dst_stride,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  const uint16_t* src_ptr1 = src_ptr + src_stride;
*4e366538SXin Li  uint16_t* dst_ptr1 = dst_ptr + dst_stride;
*4e366538SXin Li  const uint16_t* src_temp = src_ptr + 1;
*4e366538SXin Li  const uint16_t* src_temp1 = src_ptr1 + 1;
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    d31, #3                       \n"
*4e366538SXin Li      "vmov.u32    q14, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {d0}, [%0]!                   \n"  // 0123 (16b)
*4e366538SXin Li      "vld1.16     {d1}, [%5]!                   \n"  // 1234 (16b)
*4e366538SXin Li      "vmovl.u16   q2, d0                        \n"  // 0123 (32b)
*4e366538SXin Li      "vmovl.u16   q3, d1                        \n"  // 1234 (32b)
*4e366538SXin Li      "vmlal.u16   q2, d1, d31                   \n"
*4e366538SXin Li      "vmlal.u16   q3, d0, d31                   \n"
*4e366538SXin Li
*4e366538SXin Li      "vld1.16     {d0}, [%1]!                   \n"  // 0123 (16b)
*4e366538SXin Li      "vld1.16     {d1}, [%6]!                   \n"  // 1234 (16b)
*4e366538SXin Li      "vmovl.u16   q4, d0                        \n"  // 0123 (32b)
*4e366538SXin Li      "vmovl.u16   q5, d1                        \n"  // 1234 (32b)
*4e366538SXin Li      "vmlal.u16   q4, d1, d31                   \n"
*4e366538SXin Li      "vmlal.u16   q5, d0, d31                   \n"
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q0, q4                        \n"
*4e366538SXin Li      "vmovq       q1, q5                        \n"
*4e366538SXin Li      "vmla.u32    q4, q2, q14                   \n"
*4e366538SXin Li      "vmla.u32    q5, q3, q14                   \n"
*4e366538SXin Li      "vmla.u32    q2, q0, q14                   \n"
*4e366538SXin Li      "vmla.u32    q3, q1, q14                   \n"
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u32  d1, q4, #4                    \n"
*4e366538SXin Li      "vrshrn.u32  d0, q5, #4                    \n"
*4e366538SXin Li      "vrshrn.u32  d3, q2, #4                    \n"
*4e366538SXin Li      "vrshrn.u32  d2, q3, #4                    \n"
*4e366538SXin Li
*4e366538SXin Li      "vst2.16     {d0, d1}, [%2]!               \n"  // store
*4e366538SXin Li      "vst2.16     {d2, d3}, [%3]!               \n"  // store
*4e366538SXin Li      "subs        %4, %4, #8                    \n"  // 4 sample -> 8 sample
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(src_ptr1),   // %1
*4e366538SXin Li        "+r"(dst_ptr),    // %2
*4e366538SXin Li        "+r"(dst_ptr1),   // %3
*4e366538SXin Li        "+r"(dst_width),  // %4
*4e366538SXin Li        "+r"(src_temp),   // %5
*4e366538SXin Li        "+r"(src_temp1)   // %6
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q4", "q5", "q14",
*4e366538SXin Li        "d31"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowUp2_Linear_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  const uint8_t* src_temp = src_ptr + 2;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u8     d30, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d4}, [%0]!                   \n"  // 00112233 (1u1v)
*4e366538SXin Li      "vld1.8      {d5}, [%3]!                   \n"  // 11223344 (1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u8    q0, d4                        \n"  // 00112233 (1u1v, 16b)
*4e366538SXin Li      "vmovl.u8    q1, d5                        \n"  // 11223344 (1u1v, 16b)
*4e366538SXin Li      "vmlal.u8    q0, d5, d30                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmlal.u8    q1, d4, d30                   \n"  // 3*near+far (even)
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u16  d1, q0, #2                    \n"  // 3/4*near+1/4*far (odd)
*4e366538SXin Li      "vrshrn.u16  d0, q1, #2                    \n"  // 3/4*near+1/4*far (even)
*4e366538SXin Li
*4e366538SXin Li      "vst2.16     {d0, d1}, [%1]!               \n"  // store
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 4 uv -> 8 uv
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_temp)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "d30"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowUp2_Bilinear_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                                 ptrdiff_t src_stride,
*4e366538SXin Li                                 uint8_t* dst_ptr,
*4e366538SXin Li                                 ptrdiff_t dst_stride,
*4e366538SXin Li                                 int dst_width) {
*4e366538SXin Li  const uint8_t* src_ptr1 = src_ptr + src_stride;
*4e366538SXin Li  uint8_t* dst_ptr1 = dst_ptr + dst_stride;
*4e366538SXin Li  const uint8_t* src_temp = src_ptr + 2;
*4e366538SXin Li  const uint8_t* src_temp1 = src_ptr1 + 2;
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    q15, #3                       \n"
*4e366538SXin Li      "vmov.u8     d28, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d4}, [%0]!                   \n"  // 00112233 (1u1v)
*4e366538SXin Li      "vld1.8      {d5}, [%5]!                   \n"  // 11223344 (1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u8    q0, d4                        \n"  // 00112233 (1u1v, 16b)
*4e366538SXin Li      "vmovl.u8    q1, d5                        \n"  // 11223344 (1u1v, 16b)
*4e366538SXin Li      "vmlal.u8    q0, d5, d28                   \n"  // 3*near+far (1, odd)
*4e366538SXin Li      "vmlal.u8    q1, d4, d28                   \n"  // 3*near+far (1, even)
*4e366538SXin Li
*4e366538SXin Li      "vld1.8      {d8}, [%1]!                   \n"  // 00112233 (1u1v)
*4e366538SXin Li      "vld1.8      {d9}, [%6]!                   \n"  // 11223344 (1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u8    q2, d8                        \n"  // 00112233 (1u1v, 16b)
*4e366538SXin Li      "vmovl.u8    q3, d9                        \n"  // 11223344 (1u1v, 16b)
*4e366538SXin Li      "vmlal.u8    q2, d9, d28                   \n"  // 3*near+far (2, odd)
*4e366538SXin Li      "vmlal.u8    q3, d8, d28                   \n"  // 3*near+far (2, even)
*4e366538SXin Li
*4e366538SXin Li      // e  o
*4e366538SXin Li      // q1 q0
*4e366538SXin Li      // q3 q2
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q4, q2                        \n"
*4e366538SXin Li      "vmovq       q5, q3                        \n"
*4e366538SXin Li      "vmla.u16    q4, q0, q15                   \n"  // 9 3 3 1 (1, odd)
*4e366538SXin Li      "vmla.u16    q5, q1, q15                   \n"  // 9 3 3 1 (1, even)
*4e366538SXin Li      "vmla.u16    q0, q2, q15                   \n"  // 9 3 3 1 (2, odd)
*4e366538SXin Li      "vmla.u16    q1, q3, q15                   \n"  // 9 3 3 1 (2, even)
*4e366538SXin Li
*4e366538SXin Li      // e  o
*4e366538SXin Li      // q5 q4
*4e366538SXin Li      // q1 q0
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u16  d2, q1, #4                    \n"  // 2, even
*4e366538SXin Li      "vrshrn.u16  d3, q0, #4                    \n"  // 2, odd
*4e366538SXin Li      "vrshrn.u16  d0, q5, #4                    \n"  // 1, even
*4e366538SXin Li      "vrshrn.u16  d1, q4, #4                    \n"  // 1, odd
*4e366538SXin Li
*4e366538SXin Li      "vst2.16     {d0, d1}, [%2]!               \n"  // store
*4e366538SXin Li      "vst2.16     {d2, d3}, [%3]!               \n"  // store
*4e366538SXin Li      "subs        %4, %4, #8                    \n"  // 4 uv -> 8 uv
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(src_ptr1),   // %1
*4e366538SXin Li        "+r"(dst_ptr),    // %2
*4e366538SXin Li        "+r"(dst_ptr1),   // %3
*4e366538SXin Li        "+r"(dst_width),  // %4
*4e366538SXin Li        "+r"(src_temp),   // %5
*4e366538SXin Li        "+r"(src_temp1)   // %6
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q4", "q5", "d28",
*4e366538SXin Li        "q15"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowUp2_Linear_16_NEON(const uint16_t* src_ptr,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  const uint16_t* src_temp = src_ptr + 2;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    d30, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {q0}, [%0]!                   \n"  // 00112233 (1u1v, 16)
*4e366538SXin Li      "vld1.16     {q1}, [%3]!                   \n"  // 11223344 (1u1v, 16)
*4e366538SXin Li
*4e366538SXin Li      "vmovl.u16   q2, d0                        \n"  // 0011 (1u1v, 32b)
*4e366538SXin Li      "vmovl.u16   q3, d2                        \n"  // 1122 (1u1v, 32b)
*4e366538SXin Li      "vmovl.u16   q4, d1                        \n"  // 2233 (1u1v, 32b)
*4e366538SXin Li      "vmovl.u16   q5, d3                        \n"  // 3344 (1u1v, 32b)
*4e366538SXin Li      "vmlal.u16   q2, d2, d30                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmlal.u16   q3, d0, d30                   \n"  // 3*near+far (even)
*4e366538SXin Li      "vmlal.u16   q4, d3, d30                   \n"  // 3*near+far (odd)
*4e366538SXin Li      "vmlal.u16   q5, d1, d30                   \n"  // 3*near+far (even)
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u32  d1, q2, #2                    \n"  // 3/4*near+1/4*far (odd)
*4e366538SXin Li      "vrshrn.u32  d0, q3, #2                    \n"  // 3/4*near+1/4*far (even)
*4e366538SXin Li      "vrshrn.u32  d3, q4, #2                    \n"  // 3/4*near+1/4*far (odd)
*4e366538SXin Li      "vrshrn.u32  d2, q5, #2                    \n"  // 3/4*near+1/4*far (even)
*4e366538SXin Li
*4e366538SXin Li      "vst2.32     {d0, d1}, [%1]!               \n"  // store
*4e366538SXin Li      "vst2.32     {d2, d3}, [%1]!               \n"  // store
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 4 uv -> 8 uv
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(dst_ptr),    // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(src_temp)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q4", "q5",
*4e366538SXin Li        "d30"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowUp2_Bilinear_16_NEON(const uint16_t* src_ptr,
*4e366538SXin Li                                    ptrdiff_t src_stride,
*4e366538SXin Li                                    uint16_t* dst_ptr,
*4e366538SXin Li                                    ptrdiff_t dst_stride,
*4e366538SXin Li                                    int dst_width) {
*4e366538SXin Li  const uint16_t* src_ptr1 = src_ptr + src_stride;
*4e366538SXin Li  uint16_t* dst_ptr1 = dst_ptr + dst_stride;
*4e366538SXin Li  const uint16_t* src_temp = src_ptr + 2;
*4e366538SXin Li  const uint16_t* src_temp1 = src_ptr1 + 2;
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vmov.u16    d30, #3                       \n"
*4e366538SXin Li      "vmov.u32    q14, #3                       \n"
*4e366538SXin Li
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d0}, [%0]!                   \n"  // 0011 (1u1v)
*4e366538SXin Li      "vld1.8      {d1}, [%5]!                   \n"  // 1122 (1u1v)
*4e366538SXin Li      "vmovl.u16   q2, d0                        \n"  // 0011 (1u1v, 32b)
*4e366538SXin Li      "vmovl.u16   q3, d1                        \n"  // 1122 (1u1v, 32b)
*4e366538SXin Li      "vmlal.u16   q2, d1, d30                   \n"  // 3*near+far (1, odd)
*4e366538SXin Li      "vmlal.u16   q3, d0, d30                   \n"  // 3*near+far (1, even)
*4e366538SXin Li
*4e366538SXin Li      "vld1.8      {d0}, [%1]!                   \n"  // 0011 (1u1v)
*4e366538SXin Li      "vld1.8      {d1}, [%6]!                   \n"  // 1122 (1u1v)
*4e366538SXin Li      "vmovl.u16   q4, d0                        \n"  // 0011 (1u1v, 32b)
*4e366538SXin Li      "vmovl.u16   q5, d1                        \n"  // 1122 (1u1v, 32b)
*4e366538SXin Li      "vmlal.u16   q4, d1, d30                   \n"  // 3*near+far (2, odd)
*4e366538SXin Li      "vmlal.u16   q5, d0, d30                   \n"  // 3*near+far (2, even)
*4e366538SXin Li
*4e366538SXin Li      "vmovq       q0, q4                        \n"
*4e366538SXin Li      "vmovq       q1, q5                        \n"
*4e366538SXin Li      "vmla.u32    q4, q2, q14                   \n"  // 9 3 3 1 (1, odd)
*4e366538SXin Li      "vmla.u32    q5, q3, q14                   \n"  // 9 3 3 1 (1, even)
*4e366538SXin Li      "vmla.u32    q2, q0, q14                   \n"  // 9 3 3 1 (2, odd)
*4e366538SXin Li      "vmla.u32    q3, q1, q14                   \n"  // 9 3 3 1 (2, even)
*4e366538SXin Li
*4e366538SXin Li      "vrshrn.u32  d1, q4, #4                    \n"  // 1, odd
*4e366538SXin Li      "vrshrn.u32  d0, q5, #4                    \n"  // 1, even
*4e366538SXin Li      "vrshrn.u32  d3, q2, #4                    \n"  // 2, odd
*4e366538SXin Li      "vrshrn.u32  d2, q3, #4                    \n"  // 2, even
*4e366538SXin Li
*4e366538SXin Li      "vst2.32     {d0, d1}, [%2]!               \n"  // store
*4e366538SXin Li      "vst2.32     {d2, d3}, [%3]!               \n"  // store
*4e366538SXin Li      "subs        %4, %4, #4                    \n"  // 2 uv -> 4 uv
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),    // %0
*4e366538SXin Li        "+r"(src_ptr1),   // %1
*4e366538SXin Li        "+r"(dst_ptr),    // %2
*4e366538SXin Li        "+r"(dst_ptr1),   // %3
*4e366538SXin Li        "+r"(dst_width),  // %4
*4e366538SXin Li        "+r"(src_temp),   // %5
*4e366538SXin Li        "+r"(src_temp1)   // %6
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q4", "q5", "q14",
*4e366538SXin Li        "d30"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Add a row of bytes to a row of shorts.  Used for box filter.
*4e366538SXin Li// Reads 16 bytes and accumulates to 16 shorts at a time.
*4e366538SXin Livoid ScaleAddRow_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                      uint16_t* dst_ptr,
*4e366538SXin Li                      int src_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {q1, q2}, [%1]                \n"  // load accumulator
*4e366538SXin Li      "vld1.8      {q0}, [%0]!                   \n"  // load 16 bytes
*4e366538SXin Li      "vaddw.u8    q2, q2, d1                    \n"  // add
*4e366538SXin Li      "vaddw.u8    q1, q1, d0                    \n"
*4e366538SXin Li      "vst1.16     {q1, q2}, [%1]!               \n"  // store accumulator
*4e366538SXin Li      "subs        %2, %2, #16                   \n"  // 16 processed per loop
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(src_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// TODO(Yang Zhang): Investigate less load instructions for
*4e366538SXin Li// the x/dx stepping
*4e366538SXin Li#define LOAD2_DATA8_LANE(n)                      \
*4e366538SXin Li  "lsr        %5, %3, #16                    \n" \
*4e366538SXin Li  "add        %6, %1, %5                     \n" \
*4e366538SXin Li  "add        %3, %3, %4                     \n" \
*4e366538SXin Li  "vld2.8     {d6[" #n "], d7[" #n "]}, [%6] \n"
*4e366538SXin Li
*4e366538SXin Li// The NEON version mimics this formula (from row_common.cc):
*4e366538SXin Li// #define BLENDER(a, b, f) (uint8_t)((int)(a) +
*4e366538SXin Li//    ((((int)((f)) * ((int)(b) - (int)(a))) + 0x8000) >> 16))
*4e366538SXin Li
*4e366538SXin Livoid ScaleFilterCols_NEON(uint8_t* dst_ptr,
*4e366538SXin Li                          const uint8_t* src_ptr,
*4e366538SXin Li                          int dst_width,
*4e366538SXin Li                          int x,
*4e366538SXin Li                          int dx) {
*4e366538SXin Li  int dx_offset[4] = {0, 1, 2, 3};
*4e366538SXin Li  int* tmp = dx_offset;
*4e366538SXin Li  const uint8_t* src_tmp = src_ptr;
*4e366538SXin Li  asm volatile (
*4e366538SXin Li      "vdup.32     q0, %3                        \n"  // x
*4e366538SXin Li      "vdup.32     q1, %4                        \n"  // dx
*4e366538SXin Li      "vld1.32     {q2}, [%5]                    \n"  // 0 1 2 3
*4e366538SXin Li      "vshl.i32    q3, q1, #2                    \n"  // 4 * dx
*4e366538SXin Li      "vmul.s32    q1, q1, q2                    \n"
*4e366538SXin Li    // x         , x + 1 * dx, x + 2 * dx, x + 3 * dx
*4e366538SXin Li      "vadd.s32    q1, q1, q0                    \n"
*4e366538SXin Li    // x + 4 * dx, x + 5 * dx, x + 6 * dx, x + 7 * dx
*4e366538SXin Li      "vadd.s32    q2, q1, q3                    \n"
*4e366538SXin Li      "vshl.i32    q0, q3, #1                    \n"  // 8 * dx
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li    LOAD2_DATA8_LANE(0)
*4e366538SXin Li    LOAD2_DATA8_LANE(1)
*4e366538SXin Li    LOAD2_DATA8_LANE(2)
*4e366538SXin Li    LOAD2_DATA8_LANE(3)
*4e366538SXin Li    LOAD2_DATA8_LANE(4)
*4e366538SXin Li    LOAD2_DATA8_LANE(5)
*4e366538SXin Li    LOAD2_DATA8_LANE(6)
*4e366538SXin Li    LOAD2_DATA8_LANE(7)
*4e366538SXin Li      "vmov        q10, q1                       \n"
*4e366538SXin Li      "vmov        q11, q2                       \n"
*4e366538SXin Li      "vuzp.16     q10, q11                      \n"
*4e366538SXin Li      "vmovl.u8    q8, d6                        \n"
*4e366538SXin Li      "vmovl.u8    q9, d7                        \n"
*4e366538SXin Li      "vsubl.s16   q11, d18, d16                 \n"
*4e366538SXin Li      "vsubl.s16   q12, d19, d17                 \n"
*4e366538SXin Li      "vmovl.u16   q13, d20                      \n"
*4e366538SXin Li      "vmovl.u16   q10, d21                      \n"
*4e366538SXin Li      "vmul.s32    q11, q11, q13                 \n"
*4e366538SXin Li      "vmul.s32    q12, q12, q10                 \n"
*4e366538SXin Li      "vrshrn.s32  d18, q11, #16                 \n"
*4e366538SXin Li      "vrshrn.s32  d19, q12, #16                 \n"
*4e366538SXin Li      "vadd.s16    q8, q8, q9                    \n"
*4e366538SXin Li      "vmovn.s16   d6, q8                        \n"
*4e366538SXin Li
*4e366538SXin Li      "vst1.8      {d6}, [%0]!                   \n"  // store pixels
*4e366538SXin Li      "vadd.s32    q1, q1, q0                    \n"
*4e366538SXin Li      "vadd.s32    q2, q2, q0                    \n"
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li  : "+r"(dst_ptr),          // %0
*4e366538SXin Li    "+r"(src_ptr),          // %1
*4e366538SXin Li    "+r"(dst_width),        // %2
*4e366538SXin Li    "+r"(x),                // %3
*4e366538SXin Li    "+r"(dx),               // %4
*4e366538SXin Li    "+r"(tmp),              // %5
*4e366538SXin Li    "+r"(src_tmp)           // %6
*4e366538SXin Li  :
*4e366538SXin Li  : "memory", "cc", "q0", "q1", "q2", "q3",
*4e366538SXin Li    "q8", "q9", "q10", "q11", "q12", "q13"
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#undef LOAD2_DATA8_LANE
*4e366538SXin Li
*4e366538SXin Li// 16x2 -> 16x1
*4e366538SXin Livoid ScaleFilterRows_NEON(uint8_t* dst_ptr,
*4e366538SXin Li                          const uint8_t* src_ptr,
*4e366538SXin Li                          ptrdiff_t src_stride,
*4e366538SXin Li                          int dst_width,
*4e366538SXin Li                          int source_y_fraction) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "cmp         %4, #0                        \n"
*4e366538SXin Li      "beq         100f                          \n"
*4e366538SXin Li      "add         %2, %1                        \n"
*4e366538SXin Li      "cmp         %4, #64                       \n"
*4e366538SXin Li      "beq         75f                           \n"
*4e366538SXin Li      "cmp         %4, #128                      \n"
*4e366538SXin Li      "beq         50f                           \n"
*4e366538SXin Li      "cmp         %4, #192                      \n"
*4e366538SXin Li      "beq         25f                           \n"
*4e366538SXin Li
*4e366538SXin Li      "vdup.8      d5, %4                        \n"
*4e366538SXin Li      "rsb         %4, #256                      \n"
*4e366538SXin Li      "vdup.8      d4, %4                        \n"
*4e366538SXin Li      // General purpose row blend.
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {q0}, [%1]!                   \n"
*4e366538SXin Li      "vld1.8      {q1}, [%2]!                   \n"
*4e366538SXin Li      "subs        %3, %3, #16                   \n"
*4e366538SXin Li      "vmull.u8    q13, d0, d4                   \n"
*4e366538SXin Li      "vmull.u8    q14, d1, d4                   \n"
*4e366538SXin Li      "vmlal.u8    q13, d2, d5                   \n"
*4e366538SXin Li      "vmlal.u8    q14, d3, d5                   \n"
*4e366538SXin Li      "vrshrn.u16  d0, q13, #8                   \n"
*4e366538SXin Li      "vrshrn.u16  d1, q14, #8                   \n"
*4e366538SXin Li      "vst1.8      {q0}, [%0]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      "b           99f                           \n"
*4e366538SXin Li
*4e366538SXin Li      // Blend 25 / 75.
*4e366538SXin Li      "25:                                       \n"
*4e366538SXin Li      "vld1.8      {q0}, [%1]!                   \n"
*4e366538SXin Li      "vld1.8      {q1}, [%2]!                   \n"
*4e366538SXin Li      "subs        %3, %3, #16                   \n"
*4e366538SXin Li      "vrhadd.u8   q0, q1                        \n"
*4e366538SXin Li      "vrhadd.u8   q0, q1                        \n"
*4e366538SXin Li      "vst1.8      {q0}, [%0]!                   \n"
*4e366538SXin Li      "bgt         25b                           \n"
*4e366538SXin Li      "b           99f                           \n"
*4e366538SXin Li
*4e366538SXin Li      // Blend 50 / 50.
*4e366538SXin Li      "50:                                       \n"
*4e366538SXin Li      "vld1.8      {q0}, [%1]!                   \n"
*4e366538SXin Li      "vld1.8      {q1}, [%2]!                   \n"
*4e366538SXin Li      "subs        %3, %3, #16                   \n"
*4e366538SXin Li      "vrhadd.u8   q0, q1                        \n"
*4e366538SXin Li      "vst1.8      {q0}, [%0]!                   \n"
*4e366538SXin Li      "bgt         50b                           \n"
*4e366538SXin Li      "b           99f                           \n"
*4e366538SXin Li
*4e366538SXin Li      // Blend 75 / 25.
*4e366538SXin Li      "75:                                       \n"
*4e366538SXin Li      "vld1.8      {q1}, [%1]!                   \n"
*4e366538SXin Li      "vld1.8      {q0}, [%2]!                   \n"
*4e366538SXin Li      "subs        %3, %3, #16                   \n"
*4e366538SXin Li      "vrhadd.u8   q0, q1                        \n"
*4e366538SXin Li      "vrhadd.u8   q0, q1                        \n"
*4e366538SXin Li      "vst1.8      {q0}, [%0]!                   \n"
*4e366538SXin Li      "bgt         75b                           \n"
*4e366538SXin Li      "b           99f                           \n"
*4e366538SXin Li
*4e366538SXin Li      // Blend 100 / 0 - Copy row unchanged.
*4e366538SXin Li      "100:                                      \n"
*4e366538SXin Li      "vld1.8      {q0}, [%1]!                   \n"
*4e366538SXin Li      "subs        %3, %3, #16                   \n"
*4e366538SXin Li      "vst1.8      {q0}, [%0]!                   \n"
*4e366538SXin Li      "bgt         100b                          \n"
*4e366538SXin Li
*4e366538SXin Li      "99:                                       \n"
*4e366538SXin Li      "vst1.8      {d1[7]}, [%0]                 \n"
*4e366538SXin Li      : "+r"(dst_ptr),           // %0
*4e366538SXin Li        "+r"(src_ptr),           // %1
*4e366538SXin Li        "+r"(src_stride),        // %2
*4e366538SXin Li        "+r"(dst_width),         // %3
*4e366538SXin Li        "+r"(source_y_fraction)  // %4
*4e366538SXin Li      :
*4e366538SXin Li      : "q0", "q1", "d4", "d5", "q13", "q14", "memory", "cc");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBRowDown2_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                            ptrdiff_t src_stride,
*4e366538SXin Li                            uint8_t* dst,
*4e366538SXin Li                            int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.32     {d0, d2, d4, d6}, [%0]!       \n"  // load 8 ARGB pixels.
*4e366538SXin Li      "vld4.32     {d1, d3, d5, d7}, [%0]!       \n"  // load next 8 ARGB
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop
*4e366538SXin Li      "vmov        q2, q1                        \n"  // load next 8 ARGB
*4e366538SXin Li      "vst2.32     {q2, q3}, [%1]!               \n"  // store odd pixels
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst),       // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li//  46:  f964 018d   vld4.32  {d16,d18,d20,d22}, [r4]!
*4e366538SXin Li//  4a:  3e04        subs  r6, #4
*4e366538SXin Li//  4c:  f964 118d   vld4.32  {d17,d19,d21,d23}, [r4]!
*4e366538SXin Li//  50:  ef64 21f4   vorr  q9, q10, q10
*4e366538SXin Li//  54:  f942 038d   vst2.32  {d16-d19}, [r2]!
*4e366538SXin Li//  58:  d1f5        bne.n  46 <ScaleARGBRowDown2_C+0x46>
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBRowDown2Linear_NEON(const uint8_t* src_argb,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint8_t* dst_argb,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.32     {d0, d2, d4, d6}, [%0]!       \n"  // load 8 ARGB pixels.
*4e366538SXin Li      "vld4.32     {d1, d3, d5, d7}, [%0]!       \n"  // load next 8 ARGB
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop
*4e366538SXin Li      "vrhadd.u8   q0, q0, q1                    \n"  // rounding half add
*4e366538SXin Li      "vrhadd.u8   q1, q2, q3                    \n"  // rounding half add
*4e366538SXin Li      "vst2.32     {q0, q1}, [%1]!               \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_argb),  // %0
*4e366538SXin Li        "+r"(dst_argb),  // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3"  // Clobber List
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBRowDown2Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      // change the stride to row 2 pointer
*4e366538SXin Li      "add         %1, %1, %0                    \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld4.8      {d0, d2, d4, d6}, [%0]!       \n"  // load 8 ARGB pixels.
*4e366538SXin Li      "vld4.8      {d1, d3, d5, d7}, [%0]!       \n"  // load next 8 ARGB
*4e366538SXin Li      "subs        %3, %3, #8                    \n"  // 8 processed per loop.
*4e366538SXin Li      "vpaddl.u8   q0, q0                        \n"  // B 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpaddl.u8   q1, q1                        \n"  // G 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpaddl.u8   q2, q2                        \n"  // R 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpaddl.u8   q3, q3                        \n"  // A 16 bytes -> 8 shorts.
*4e366538SXin Li      "vld4.8      {d16, d18, d20, d22}, [%1]!   \n"  // load 8 more ARGB
*4e366538SXin Li      "vld4.8      {d17, d19, d21, d23}, [%1]!   \n"  // load last 8 ARGB
*4e366538SXin Li      "vpadal.u8   q0, q8                        \n"  // B 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpadal.u8   q1, q9                        \n"  // G 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpadal.u8   q2, q10                       \n"  // R 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpadal.u8   q3, q11                       \n"  // A 16 bytes -> 8 shorts.
*4e366538SXin Li      "vrshrn.u16  d0, q0, #2                    \n"  // round and pack to bytes
*4e366538SXin Li      "vrshrn.u16  d1, q1, #2                    \n"
*4e366538SXin Li      "vrshrn.u16  d2, q2, #2                    \n"
*4e366538SXin Li      "vrshrn.u16  d3, q3, #2                    \n"
*4e366538SXin Li      "vst4.8      {d0, d1, d2, d3}, [%2]!       \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),     // %0
*4e366538SXin Li        "+r"(src_stride),  // %1
*4e366538SXin Li        "+r"(dst),         // %2
*4e366538SXin Li        "+r"(dst_width)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q2", "q3", "q8", "q9", "q10", "q11");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Reads 4 pixels at a time.
*4e366538SXin Li// Alignment requirement: src_argb 4 byte aligned.
*4e366538SXin Livoid ScaleARGBRowDownEven_NEON(const uint8_t* src_argb,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               int src_stepx,
*4e366538SXin Li                               uint8_t* dst_argb,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "mov         r12, %3, lsl #2               \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.32     {d0[0]}, [%0], r12            \n"
*4e366538SXin Li      "vld1.32     {d0[1]}, [%0], r12            \n"
*4e366538SXin Li      "vld1.32     {d1[0]}, [%0], r12            \n"
*4e366538SXin Li      "vld1.32     {d1[1]}, [%0], r12            \n"
*4e366538SXin Li      "subs        %2, %2, #4                    \n"  // 4 pixels per loop.
*4e366538SXin Li      "vst1.8      {q0}, [%1]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_argb),  // %0
*4e366538SXin Li        "+r"(dst_argb),  // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      : "r"(src_stepx)   // %3
*4e366538SXin Li      : "memory", "cc", "r12", "q0");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Reads 4 pixels at a time.
*4e366538SXin Li// Alignment requirement: src_argb 4 byte aligned.
*4e366538SXin Livoid ScaleARGBRowDownEvenBox_NEON(const uint8_t* src_argb,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  int src_stepx,
*4e366538SXin Li                                  uint8_t* dst_argb,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "mov         r12, %4, lsl #2               \n"
*4e366538SXin Li      "add         %1, %1, %0                    \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.8      {d0}, [%0], r12               \n"  // 4 2x2 blocks -> 2x1
*4e366538SXin Li      "vld1.8      {d1}, [%1], r12               \n"
*4e366538SXin Li      "vld1.8      {d2}, [%0], r12               \n"
*4e366538SXin Li      "vld1.8      {d3}, [%1], r12               \n"
*4e366538SXin Li      "vld1.8      {d4}, [%0], r12               \n"
*4e366538SXin Li      "vld1.8      {d5}, [%1], r12               \n"
*4e366538SXin Li      "vld1.8      {d6}, [%0], r12               \n"
*4e366538SXin Li      "vld1.8      {d7}, [%1], r12               \n"
*4e366538SXin Li      "vaddl.u8    q0, d0, d1                    \n"
*4e366538SXin Li      "vaddl.u8    q1, d2, d3                    \n"
*4e366538SXin Li      "vaddl.u8    q2, d4, d5                    \n"
*4e366538SXin Li      "vaddl.u8    q3, d6, d7                    \n"
*4e366538SXin Li      "vswp.8      d1, d2                        \n"  // ab_cd -> ac_bd
*4e366538SXin Li      "vswp.8      d5, d6                        \n"  // ef_gh -> eg_fh
*4e366538SXin Li      "vadd.u16    q0, q0, q1                    \n"  // (a+b)_(c+d)
*4e366538SXin Li      "vadd.u16    q2, q2, q3                    \n"  // (e+f)_(g+h)
*4e366538SXin Li      "vrshrn.u16  d0, q0, #2                    \n"  // first 2 pixels.
*4e366538SXin Li      "vrshrn.u16  d1, q2, #2                    \n"  // next 2 pixels.
*4e366538SXin Li      "subs        %3, %3, #4                    \n"  // 4 pixels per loop.
*4e366538SXin Li      "vst1.8      {q0}, [%2]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_argb),    // %0
*4e366538SXin Li        "+r"(src_stride),  // %1
*4e366538SXin Li        "+r"(dst_argb),    // %2
*4e366538SXin Li        "+r"(dst_width)    // %3
*4e366538SXin Li      : "r"(src_stepx)     // %4
*4e366538SXin Li      : "memory", "cc", "r12", "q0", "q1", "q2", "q3");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// TODO(Yang Zhang): Investigate less load instructions for
*4e366538SXin Li// the x/dx stepping
*4e366538SXin Li#define LOAD1_DATA32_LANE(dn, n)                 \
*4e366538SXin Li  "lsr        %5, %3, #16                    \n" \
*4e366538SXin Li  "add        %6, %1, %5, lsl #2             \n" \
*4e366538SXin Li  "add        %3, %3, %4                     \n" \
*4e366538SXin Li  "vld1.32    {" #dn "[" #n "]}, [%6]        \n"
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBCols_NEON(uint8_t* dst_argb,
*4e366538SXin Li                        const uint8_t* src_argb,
*4e366538SXin Li                        int dst_width,
*4e366538SXin Li                        int x,
*4e366538SXin Li                        int dx) {
*4e366538SXin Li  int tmp;
*4e366538SXin Li  const uint8_t* src_tmp = src_argb;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      // clang-format off
*4e366538SXin Li      LOAD1_DATA32_LANE(d0, 0)
*4e366538SXin Li      LOAD1_DATA32_LANE(d0, 1)
*4e366538SXin Li      LOAD1_DATA32_LANE(d1, 0)
*4e366538SXin Li      LOAD1_DATA32_LANE(d1, 1)
*4e366538SXin Li      LOAD1_DATA32_LANE(d2, 0)
*4e366538SXin Li      LOAD1_DATA32_LANE(d2, 1)
*4e366538SXin Li      LOAD1_DATA32_LANE(d3, 0)
*4e366538SXin Li      LOAD1_DATA32_LANE(d3, 1)
*4e366538SXin Li      // clang-format on
*4e366538SXin Li      "vst1.32     {q0, q1}, [%0]!               \n"  // store pixels
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(dst_argb),   // %0
*4e366538SXin Li        "+r"(src_argb),   // %1
*4e366538SXin Li        "+r"(dst_width),  // %2
*4e366538SXin Li        "+r"(x),          // %3
*4e366538SXin Li        "+r"(dx),         // %4
*4e366538SXin Li        "=&r"(tmp),       // %5
*4e366538SXin Li        "+r"(src_tmp)     // %6
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#undef LOAD1_DATA32_LANE
*4e366538SXin Li
*4e366538SXin Li// TODO(Yang Zhang): Investigate less load instructions for
*4e366538SXin Li// the x/dx stepping
*4e366538SXin Li#define LOAD2_DATA32_LANE(dn1, dn2, n)                       \
*4e366538SXin Li  "lsr        %5, %3, #16                                \n" \
*4e366538SXin Li  "add        %6, %1, %5, lsl #2                         \n" \
*4e366538SXin Li  "add        %3, %3, %4                                 \n" \
*4e366538SXin Li  "vld2.32    {" #dn1 "[" #n "], " #dn2 "[" #n "]}, [%6] \n"
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBFilterCols_NEON(uint8_t* dst_argb,
*4e366538SXin Li                              const uint8_t* src_argb,
*4e366538SXin Li                              int dst_width,
*4e366538SXin Li                              int x,
*4e366538SXin Li                              int dx) {
*4e366538SXin Li  int dx_offset[4] = {0, 1, 2, 3};
*4e366538SXin Li  int* tmp = dx_offset;
*4e366538SXin Li  const uint8_t* src_tmp = src_argb;
*4e366538SXin Li  asm volatile (
*4e366538SXin Li      "vdup.32     q0, %3                        \n"  // x
*4e366538SXin Li      "vdup.32     q1, %4                        \n"  // dx
*4e366538SXin Li      "vld1.32     {q2}, [%5]                    \n"  // 0 1 2 3
*4e366538SXin Li      "vshl.i32    q9, q1, #2                    \n"  // 4 * dx
*4e366538SXin Li      "vmul.s32    q1, q1, q2                    \n"
*4e366538SXin Li      "vmov.i8     q3, #0x7f                     \n"  // 0x7F
*4e366538SXin Li      "vmov.i16    q15, #0x7f                    \n"  // 0x7F
*4e366538SXin Li    // x         , x + 1 * dx, x + 2 * dx, x + 3 * dx
*4e366538SXin Li      "vadd.s32    q8, q1, q0                    \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li    // d0, d1: a
*4e366538SXin Li    // d2, d3: b
*4e366538SXin Li    LOAD2_DATA32_LANE(d0, d2, 0)
*4e366538SXin Li    LOAD2_DATA32_LANE(d0, d2, 1)
*4e366538SXin Li    LOAD2_DATA32_LANE(d1, d3, 0)
*4e366538SXin Li    LOAD2_DATA32_LANE(d1, d3, 1)
*4e366538SXin Li    "vshrn.i32   d22, q8, #9                   \n"
*4e366538SXin Li    "vand.16     d22, d22, d30                 \n"
*4e366538SXin Li    "vdup.8      d24, d22[0]                   \n"
*4e366538SXin Li    "vdup.8      d25, d22[2]                   \n"
*4e366538SXin Li    "vdup.8      d26, d22[4]                   \n"
*4e366538SXin Li    "vdup.8      d27, d22[6]                   \n"
*4e366538SXin Li    "vext.8      d4, d24, d25, #4              \n"
*4e366538SXin Li    "vext.8      d5, d26, d27, #4              \n"  // f
*4e366538SXin Li    "veor.8      q10, q2, q3                   \n"  // 0x7f ^ f
*4e366538SXin Li    "vmull.u8    q11, d0, d20                  \n"
*4e366538SXin Li    "vmull.u8    q12, d1, d21                  \n"
*4e366538SXin Li    "vmull.u8    q13, d2, d4                   \n"
*4e366538SXin Li    "vmull.u8    q14, d3, d5                   \n"
*4e366538SXin Li    "vadd.i16    q11, q11, q13                 \n"
*4e366538SXin Li    "vadd.i16    q12, q12, q14                 \n"
*4e366538SXin Li    "vshrn.i16   d0, q11, #7                   \n"
*4e366538SXin Li    "vshrn.i16   d1, q12, #7                   \n"
*4e366538SXin Li
*4e366538SXin Li    "vst1.32     {d0, d1}, [%0]!               \n"  // store pixels
*4e366538SXin Li    "vadd.s32    q8, q8, q9                    \n"
*4e366538SXin Li    "subs        %2, %2, #4                    \n"  // 4 processed per loop
*4e366538SXin Li    "bgt         1b                            \n"
*4e366538SXin Li  : "+r"(dst_argb),         // %0
*4e366538SXin Li    "+r"(src_argb),         // %1
*4e366538SXin Li    "+r"(dst_width),        // %2
*4e366538SXin Li    "+r"(x),                // %3
*4e366538SXin Li    "+r"(dx),               // %4
*4e366538SXin Li    "+r"(tmp),              // %5
*4e366538SXin Li    "+r"(src_tmp)           // %6
*4e366538SXin Li  :
*4e366538SXin Li  : "memory", "cc", "q0", "q1", "q2", "q3", "q8", "q9",
*4e366538SXin Li    "q10", "q11", "q12", "q13", "q14", "q15"
*4e366538SXin Li  );
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#undef LOAD2_DATA32_LANE
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowDown2_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                          ptrdiff_t src_stride,
*4e366538SXin Li                          uint8_t* dst,
*4e366538SXin Li                          int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld2.16     {d0, d2}, [%0]!               \n"  // load 8 UV pixels.
*4e366538SXin Li      "vld2.16     {d1, d3}, [%0]!               \n"  // load next 8 UV
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop.
*4e366538SXin Li      "vst1.16     {q1}, [%1]!                   \n"  // store 8 UV
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst),       // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowDown2Linear_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                                ptrdiff_t src_stride,
*4e366538SXin Li                                uint8_t* dst,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld2.16     {d0, d2}, [%0]!               \n"  // load 8 UV pixels.
*4e366538SXin Li      "vld2.16     {d1, d3}, [%0]!               \n"  // load next 8 UV
*4e366538SXin Li      "subs        %2, %2, #8                    \n"  // 8 processed per loop.
*4e366538SXin Li      "vrhadd.u8   q0, q0, q1                    \n"  // rounding half add
*4e366538SXin Li      "vst1.16     {q0}, [%1]!                   \n"  // store 8 UV
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst),       // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowDown2Box_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                             ptrdiff_t src_stride,
*4e366538SXin Li                             uint8_t* dst,
*4e366538SXin Li                             int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      // change the stride to row 2 pointer
*4e366538SXin Li      "add         %1, %1, %0                    \n"
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld2.8      {d0, d2}, [%0]!               \n"  // load 8 UV pixels.
*4e366538SXin Li      "vld2.8      {d1, d3}, [%0]!               \n"  // load next 8 UV
*4e366538SXin Li      "subs        %3, %3, #8                    \n"  // 8 processed per loop.
*4e366538SXin Li      "vpaddl.u8   q0, q0                        \n"  // U 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpaddl.u8   q1, q1                        \n"  // V 16 bytes -> 8 shorts.
*4e366538SXin Li      "vld2.8      {d16, d18}, [%1]!             \n"  // load 8 more UV
*4e366538SXin Li      "vld2.8      {d17, d19}, [%1]!             \n"  // load last 8 UV
*4e366538SXin Li      "vpadal.u8   q0, q8                        \n"  // U 16 bytes -> 8 shorts.
*4e366538SXin Li      "vpadal.u8   q1, q9                        \n"  // V 16 bytes -> 8 shorts.
*4e366538SXin Li      "vrshrn.u16  d0, q0, #2                    \n"  // round and pack to bytes
*4e366538SXin Li      "vrshrn.u16  d1, q1, #2                    \n"
*4e366538SXin Li      "vst2.8      {d0, d1}, [%2]!               \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),     // %0
*4e366538SXin Li        "+r"(src_stride),  // %1
*4e366538SXin Li        "+r"(dst),         // %2
*4e366538SXin Li        "+r"(dst_width)    // %3
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "q0", "q1", "q8", "q9");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Reads 4 pixels at a time.
*4e366538SXin Livoid ScaleUVRowDownEven_NEON(const uint8_t* src_ptr,
*4e366538SXin Li                             ptrdiff_t src_stride,
*4e366538SXin Li                             int src_stepx,  // pixel step
*4e366538SXin Li                             uint8_t* dst_ptr,
*4e366538SXin Li                             int dst_width) {
*4e366538SXin Li  const uint8_t* src1_ptr = src_ptr + src_stepx * 2;
*4e366538SXin Li  const uint8_t* src2_ptr = src_ptr + src_stepx * 4;
*4e366538SXin Li  const uint8_t* src3_ptr = src_ptr + src_stepx * 6;
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vld1.16     {d0[0]}, [%0], %6             \n"
*4e366538SXin Li      "vld1.16     {d0[1]}, [%1], %6             \n"
*4e366538SXin Li      "vld1.16     {d0[2]}, [%2], %6             \n"
*4e366538SXin Li      "vld1.16     {d0[3]}, [%3], %6             \n"
*4e366538SXin Li      "subs        %5, %5, #4                    \n"  // 4 pixels per loop.
*4e366538SXin Li      "vst1.8      {d0}, [%4]!                   \n"
*4e366538SXin Li      "bgt         1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),      // %0
*4e366538SXin Li        "+r"(src1_ptr),     // %1
*4e366538SXin Li        "+r"(src2_ptr),     // %2
*4e366538SXin Li        "+r"(src3_ptr),     // %3
*4e366538SXin Li        "+r"(dst_ptr),      // %4
*4e366538SXin Li        "+r"(dst_width)     // %5
*4e366538SXin Li      : "r"(src_stepx * 8)  // %6
*4e366538SXin Li      : "memory", "cc", "d0");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#endif  // defined(__ARM_NEON__) && !defined(__aarch64__)
*4e366538SXin Li
*4e366538SXin Li#ifdef __cplusplus
*4e366538SXin Li}  // extern "C"
*4e366538SXin Li}  // namespace libyuv
*4e366538SXin Li#endif