libyuv/source/scale_gcc.cc

*4e366538SXin Li/*
*4e366538SXin Li *  Copyright 2013 The LibYuv Project Authors. All rights reserved.
*4e366538SXin Li *
*4e366538SXin Li *  Use of this source code is governed by a BSD-style license
*4e366538SXin Li *  that can be found in the LICENSE file in the root of the source
*4e366538SXin Li *  tree. An additional intellectual property rights grant can be found
*4e366538SXin Li *  in the file PATENTS. All contributing project authors may
*4e366538SXin Li *  be found in the AUTHORS file in the root of the source tree.
*4e366538SXin Li */
*4e366538SXin Li
*4e366538SXin Li#include "libyuv/row.h"
*4e366538SXin Li#include "libyuv/scale_row.h"
*4e366538SXin Li
*4e366538SXin Li#ifdef __cplusplus
*4e366538SXin Linamespace libyuv {
*4e366538SXin Liextern "C" {
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li// This module is for GCC x86 and x64.
*4e366538SXin Li#if !defined(LIBYUV_DISABLE_X86) && (defined(__x86_64__) || defined(__i386__))
*4e366538SXin Li
*4e366538SXin Li// Offsets for source bytes 0 to 9
*4e366538SXin Listatic const uvec8 kShuf0 = {0,   1,   3,   4,   5,   7,   8,   9,
*4e366538SXin Li                             128, 128, 128, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Offsets for source bytes 11 to 20 with 8 subtracted = 3 to 12.
*4e366538SXin Listatic const uvec8 kShuf1 = {3,   4,   5,   7,   8,   9,   11,  12,
*4e366538SXin Li                             128, 128, 128, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Offsets for source bytes 21 to 31 with 16 subtracted = 5 to 31.
*4e366538SXin Listatic const uvec8 kShuf2 = {5,   7,   8,   9,   11,  12,  13,  15,
*4e366538SXin Li                             128, 128, 128, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Offsets for source bytes 0 to 10
*4e366538SXin Listatic const uvec8 kShuf01 = {0, 1, 1, 2, 2, 3, 4, 5, 5, 6, 6, 7, 8, 9, 9, 10};
*4e366538SXin Li
*4e366538SXin Li// Offsets for source bytes 10 to 21 with 8 subtracted = 3 to 13.
*4e366538SXin Listatic const uvec8 kShuf11 = {2, 3, 4, 5,  5,  6,  6,  7,
*4e366538SXin Li                              8, 9, 9, 10, 10, 11, 12, 13};
*4e366538SXin Li
*4e366538SXin Li// Offsets for source bytes 21 to 31 with 16 subtracted = 5 to 31.
*4e366538SXin Listatic const uvec8 kShuf21 = {5,  6,  6,  7,  8,  9,  9,  10,
*4e366538SXin Li                              10, 11, 12, 13, 13, 14, 14, 15};
*4e366538SXin Li
*4e366538SXin Li// Coefficients for source bytes 0 to 10
*4e366538SXin Listatic const uvec8 kMadd01 = {3, 1, 2, 2, 1, 3, 3, 1, 2, 2, 1, 3, 3, 1, 2, 2};
*4e366538SXin Li
*4e366538SXin Li// Coefficients for source bytes 10 to 21
*4e366538SXin Listatic const uvec8 kMadd11 = {1, 3, 3, 1, 2, 2, 1, 3, 3, 1, 2, 2, 1, 3, 3, 1};
*4e366538SXin Li
*4e366538SXin Li// Coefficients for source bytes 21 to 31
*4e366538SXin Listatic const uvec8 kMadd21 = {2, 2, 1, 3, 3, 1, 2, 2, 1, 3, 3, 1, 2, 2, 1, 3};
*4e366538SXin Li
*4e366538SXin Li// Coefficients for source bytes 21 to 31
*4e366538SXin Listatic const vec16 kRound34 = {2, 2, 2, 2, 2, 2, 2, 2};
*4e366538SXin Li
*4e366538SXin Listatic const uvec8 kShuf38a = {0,   3,   6,   8,   11,  14,  128, 128,
*4e366538SXin Li                               128, 128, 128, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Listatic const uvec8 kShuf38b = {128, 128, 128, 128, 128, 128, 0,   3,
*4e366538SXin Li                               6,   8,   11,  14,  128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Arrange words 0,3,6 into 0,1,2
*4e366538SXin Listatic const uvec8 kShufAc = {0,   1,   6,   7,   12,  13,  128, 128,
*4e366538SXin Li                              128, 128, 128, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Arrange words 0,3,6 into 3,4,5
*4e366538SXin Listatic const uvec8 kShufAc3 = {128, 128, 128, 128, 128, 128, 0,   1,
*4e366538SXin Li                               6,   7,   12,  13,  128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Scaling values for boxes of 3x3 and 2x3
*4e366538SXin Listatic const uvec16 kScaleAc33 = {65536 / 9, 65536 / 9, 65536 / 6, 65536 / 9,
*4e366538SXin Li                                  65536 / 9, 65536 / 6, 0,         0};
*4e366538SXin Li
*4e366538SXin Li// Arrange first value for pixels 0,1,2,3,4,5
*4e366538SXin Listatic const uvec8 kShufAb0 = {0,  128, 3,  128, 6,   128, 8,   128,
*4e366538SXin Li                               11, 128, 14, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Arrange second value for pixels 0,1,2,3,4,5
*4e366538SXin Listatic const uvec8 kShufAb1 = {1,  128, 4,  128, 7,   128, 9,   128,
*4e366538SXin Li                               12, 128, 15, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Arrange third value for pixels 0,1,2,3,4,5
*4e366538SXin Listatic const uvec8 kShufAb2 = {2,  128, 5,   128, 128, 128, 10,  128,
*4e366538SXin Li                               13, 128, 128, 128, 128, 128, 128, 128};
*4e366538SXin Li
*4e366538SXin Li// Scaling values for boxes of 3x2 and 2x2
*4e366538SXin Listatic const uvec16 kScaleAb2 = {65536 / 3, 65536 / 3, 65536 / 2, 65536 / 3,
*4e366538SXin Li                                 65536 / 3, 65536 / 2, 0,         0};
*4e366538SXin Li
*4e366538SXin Li// GCC versions of row functions are verbatim conversions from Visual C.
*4e366538SXin Li// Generated using gcc disassembly on Visual C object file:
*4e366538SXin Li// objdump -D yuvscaler.obj >yuvscaler.txt
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown2_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                         ptrdiff_t src_stride,
*4e366538SXin Li                         uint8_t* dst_ptr,
*4e366538SXin Li                         int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      // 16 pixel loop.
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "psrlw       $0x8,%%xmm0                   \n"
*4e366538SXin Li      "psrlw       $0x8,%%xmm1                   \n"
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown2Linear_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqb     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrlw       $0xf,%%xmm4                   \n"
*4e366538SXin Li      "packuswb    %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "pxor        %%xmm5,%%xmm5                 \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "pavgw       %%xmm5,%%xmm0                 \n"
*4e366538SXin Li      "pavgw       %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown2Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                            ptrdiff_t src_stride,
*4e366538SXin Li                            uint8_t* dst_ptr,
*4e366538SXin Li                            int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqb     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrlw       $0xf,%%xmm4                   \n"
*4e366538SXin Li      "packuswb    %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "pxor        %%xmm5,%%xmm5                 \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm2          \n"
*4e366538SXin Li      "movdqu      0x10(%0,%3,1),%%xmm3          \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "psrlw       $0x1,%%xmm0                   \n"
*4e366538SXin Li      "psrlw       $0x1,%%xmm1                   \n"
*4e366538SXin Li      "pavgw       %%xmm5,%%xmm0                 \n"
*4e366538SXin Li      "pavgw       %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),               // %0
*4e366538SXin Li        "+r"(dst_ptr),               // %1
*4e366538SXin Li        "+r"(dst_width)              // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride))  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWDOWN2_AVX2
*4e366538SXin Livoid ScaleRowDown2_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                        ptrdiff_t src_stride,
*4e366538SXin Li                        uint8_t* dst_ptr,
*4e366538SXin Li                        int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"
*4e366538SXin Li      "vmovdqu     0x20(%0),%%ymm1               \n"
*4e366538SXin Li      "lea         0x40(%0),%0                   \n"
*4e366538SXin Li      "vpsrlw      $0x8,%%ymm0,%%ymm0            \n"
*4e366538SXin Li      "vpsrlw      $0x8,%%ymm1,%%ymm1            \n"
*4e366538SXin Li      "vpackuswb   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li               : "+r"(src_ptr),   // %0
*4e366538SXin Li                 "+r"(dst_ptr),   // %1
*4e366538SXin Li                 "+r"(dst_width)  // %2
*4e366538SXin Li                 ::"memory",
*4e366538SXin Li                 "cc", "xmm0", "xmm1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown2Linear_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                              ptrdiff_t src_stride,
*4e366538SXin Li                              uint8_t* dst_ptr,
*4e366538SXin Li                              int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqb    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $0xf,%%ymm4,%%ymm4            \n"
*4e366538SXin Li      "vpackuswb   %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpxor       %%ymm5,%%ymm5,%%ymm5          \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"
*4e366538SXin Li      "vmovdqu     0x20(%0),%%ymm1               \n"
*4e366538SXin Li      "lea         0x40(%0),%0                   \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpavgw      %%ymm5,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpavgw      %%ymm5,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpackuswb   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown2Box_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                           ptrdiff_t src_stride,
*4e366538SXin Li                           uint8_t* dst_ptr,
*4e366538SXin Li                           int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqb    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $0xf,%%ymm4,%%ymm4            \n"
*4e366538SXin Li      "vpackuswb   %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpxor       %%ymm5,%%ymm5,%%ymm5          \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"
*4e366538SXin Li      "vmovdqu     0x20(%0),%%ymm1               \n"
*4e366538SXin Li      "vmovdqu     0x00(%0,%3,1),%%ymm2          \n"
*4e366538SXin Li      "vmovdqu     0x20(%0,%3,1),%%ymm3          \n"
*4e366538SXin Li      "lea         0x40(%0),%0                   \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm3,%%ymm3          \n"
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpsrlw      $0x1,%%ymm0,%%ymm0            \n"
*4e366538SXin Li      "vpsrlw      $0x1,%%ymm1,%%ymm1            \n"
*4e366538SXin Li      "vpavgw      %%ymm5,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpavgw      %%ymm5,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpackuswb   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),               // %0
*4e366538SXin Li        "+r"(dst_ptr),               // %1
*4e366538SXin Li        "+r"(dst_width)              // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride))  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif  // HAS_SCALEROWDOWN2_AVX2
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown4_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                         ptrdiff_t src_stride,
*4e366538SXin Li                         uint8_t* dst_ptr,
*4e366538SXin Li                         int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqb     %%xmm5,%%xmm5                 \n"
*4e366538SXin Li      "psrld       $0x18,%%xmm5                  \n"
*4e366538SXin Li      "pslld       $0x10,%%xmm5                  \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pand        %%xmm5,%%xmm0                 \n"
*4e366538SXin Li      "pand        %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "psrlw       $0x8,%%xmm0                   \n"
*4e366538SXin Li      "packuswb    %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "movq        %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x8(%1),%1                    \n"
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown4Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                            ptrdiff_t src_stride,
*4e366538SXin Li                            uint8_t* dst_ptr,
*4e366538SXin Li                            int dst_width) {
*4e366538SXin Li  intptr_t stridex3;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqb     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrlw       $0xf,%%xmm4                   \n"
*4e366538SXin Li      "movdqa      %%xmm4,%%xmm5                 \n"
*4e366538SXin Li      "packuswb    %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psllw       $0x3,%%xmm5                   \n"
*4e366538SXin Li      "lea         0x00(%4,%4,2),%3              \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "movdqu      0x00(%0,%4,1),%%xmm2          \n"
*4e366538SXin Li      "movdqu      0x10(%0,%4,1),%%xmm3          \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "movdqu      0x00(%0,%4,2),%%xmm2          \n"
*4e366538SXin Li      "movdqu      0x10(%0,%4,2),%%xmm3          \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm2          \n"
*4e366538SXin Li      "movdqu      0x10(%0,%3,1),%%xmm3          \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "phaddw      %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "paddw       %%xmm5,%%xmm0                 \n"
*4e366538SXin Li      "psrlw       $0x4,%%xmm0                   \n"
*4e366538SXin Li      "packuswb    %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "movq        %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x8(%1),%1                    \n"
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),               // %0
*4e366538SXin Li        "+r"(dst_ptr),               // %1
*4e366538SXin Li        "+r"(dst_width),             // %2
*4e366538SXin Li        "=&r"(stridex3)              // %3
*4e366538SXin Li      : "r"((intptr_t)(src_stride))  // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWDOWN4_AVX2
*4e366538SXin Livoid ScaleRowDown4_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                        ptrdiff_t src_stride,
*4e366538SXin Li                        uint8_t* dst_ptr,
*4e366538SXin Li                        int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqb    %%ymm5,%%ymm5,%%ymm5          \n"
*4e366538SXin Li      "vpsrld      $0x18,%%ymm5,%%ymm5           \n"
*4e366538SXin Li      "vpslld      $0x10,%%ymm5,%%ymm5           \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"
*4e366538SXin Li      "vmovdqu     0x20(%0),%%ymm1               \n"
*4e366538SXin Li      "lea         0x40(%0),%0                   \n"
*4e366538SXin Li      "vpand       %%ymm5,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpand       %%ymm5,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpackuswb   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vpsrlw      $0x8,%%ymm0,%%ymm0            \n"
*4e366538SXin Li      "vpackuswb   %%ymm0,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vmovdqu     %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown4Box_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                           ptrdiff_t src_stride,
*4e366538SXin Li                           uint8_t* dst_ptr,
*4e366538SXin Li                           int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqb    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $0xf,%%ymm4,%%ymm4            \n"
*4e366538SXin Li      "vpsllw      $0x3,%%ymm4,%%ymm5            \n"
*4e366538SXin Li      "vpackuswb   %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"
*4e366538SXin Li      "vmovdqu     0x20(%0),%%ymm1               \n"
*4e366538SXin Li      "vmovdqu     0x00(%0,%3,1),%%ymm2          \n"
*4e366538SXin Li      "vmovdqu     0x20(%0,%3,1),%%ymm3          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm3,%%ymm3          \n"
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vmovdqu     0x00(%0,%3,2),%%ymm2          \n"
*4e366538SXin Li      "vmovdqu     0x20(%0,%3,2),%%ymm3          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm3,%%ymm3          \n"
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vmovdqu     0x00(%0,%4,1),%%ymm2          \n"
*4e366538SXin Li      "vmovdqu     0x20(%0,%4,1),%%ymm3          \n"
*4e366538SXin Li      "lea         0x40(%0),%0                   \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm3,%%ymm3          \n"
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vphaddw     %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vpaddw      %%ymm5,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpsrlw      $0x4,%%ymm0,%%ymm0            \n"
*4e366538SXin Li      "vpackuswb   %%ymm0,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"
*4e366538SXin Li      "vmovdqu     %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                   // %0
*4e366538SXin Li        "+r"(dst_ptr),                   // %1
*4e366538SXin Li        "+r"(dst_width)                  // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),     // %3
*4e366538SXin Li        "r"((intptr_t)(src_stride * 3))  // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif  // HAS_SCALEROWDOWN4_AVX2
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown34_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                          ptrdiff_t src_stride,
*4e366538SXin Li                          uint8_t* dst_ptr,
*4e366538SXin Li                          int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm3                     \n"
*4e366538SXin Li      "movdqa      %1,%%xmm4                     \n"
*4e366538SXin Li      "movdqa      %2,%%xmm5                     \n"
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kShuf0),  // %0
*4e366538SXin Li        "m"(kShuf1),  // %1
*4e366538SXin Li        "m"(kShuf2)   // %2
*4e366538SXin Li  );
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm2               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm1                 \n"
*4e366538SXin Li      "palignr     $0x8,%%xmm0,%%xmm1            \n"
*4e366538SXin Li      "pshufb      %%xmm3,%%xmm0                 \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm2                 \n"
*4e366538SXin Li      "movq        %%xmm0,(%1)                   \n"
*4e366538SXin Li      "movq        %%xmm1,0x8(%1)                \n"
*4e366538SXin Li      "movq        %%xmm2,0x10(%1)               \n"
*4e366538SXin Li      "lea         0x18(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x18,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_ptr),   // %0
*4e366538SXin Li                 "+r"(dst_ptr),   // %1
*4e366538SXin Li                 "+r"(dst_width)  // %2
*4e366538SXin Li                 ::"memory",
*4e366538SXin Li                 "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown34_1_Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                ptrdiff_t src_stride,
*4e366538SXin Li                                uint8_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm2                     \n"  // kShuf01
*4e366538SXin Li      "movdqa      %1,%%xmm3                     \n"  // kShuf11
*4e366538SXin Li      "movdqa      %2,%%xmm4                     \n"  // kShuf21
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kShuf01),  // %0
*4e366538SXin Li        "m"(kShuf11),  // %1
*4e366538SXin Li        "m"(kShuf21)   // %2
*4e366538SXin Li  );
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm5                     \n"  // kMadd01
*4e366538SXin Li      "movdqa      %1,%%xmm0                     \n"  // kMadd11
*4e366538SXin Li      "movdqa      %2,%%xmm1                     \n"  // kRound34
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kMadd01),  // %0
*4e366538SXin Li        "m"(kMadd11),  // %1
*4e366538SXin Li        "m"(kRound34)  // %2
*4e366538SXin Li  );
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm6                   \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm7          \n"
*4e366538SXin Li      "pavgb       %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm2,%%xmm6                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm5,%%xmm6                 \n"
*4e366538SXin Li      "paddsw      %%xmm1,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x2,%%xmm6                   \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movq        %%xmm6,(%1)                   \n"
*4e366538SXin Li      "movdqu      0x8(%0),%%xmm6                \n"
*4e366538SXin Li      "movdqu      0x8(%0,%3,1),%%xmm7           \n"
*4e366538SXin Li      "pavgb       %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm3,%%xmm6                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm0,%%xmm6                 \n"
*4e366538SXin Li      "paddsw      %%xmm1,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x2,%%xmm6                   \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movq        %%xmm6,0x8(%1)                \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm6               \n"
*4e366538SXin Li      "movdqu      0x10(%0,%3,1),%%xmm7          \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pavgb       %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm6                 \n"
*4e366538SXin Li      "pmaddubsw   %4,%%xmm6                     \n"
*4e366538SXin Li      "paddsw      %%xmm1,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x2,%%xmm6                   \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movq        %%xmm6,0x10(%1)               \n"
*4e366538SXin Li      "lea         0x18(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x18,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_ptr),                // %0
*4e366538SXin Li                 "+r"(dst_ptr),                // %1
*4e366538SXin Li                 "+r"(dst_width)               // %2
*4e366538SXin Li               : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li                 "m"(kMadd21)                  // %4
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5",
*4e366538SXin Li                 "xmm6", "xmm7");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown34_0_Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                ptrdiff_t src_stride,
*4e366538SXin Li                                uint8_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm2                     \n"  // kShuf01
*4e366538SXin Li      "movdqa      %1,%%xmm3                     \n"  // kShuf11
*4e366538SXin Li      "movdqa      %2,%%xmm4                     \n"  // kShuf21
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kShuf01),  // %0
*4e366538SXin Li        "m"(kShuf11),  // %1
*4e366538SXin Li        "m"(kShuf21)   // %2
*4e366538SXin Li  );
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm5                     \n"  // kMadd01
*4e366538SXin Li      "movdqa      %1,%%xmm0                     \n"  // kMadd11
*4e366538SXin Li      "movdqa      %2,%%xmm1                     \n"  // kRound34
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kMadd01),  // %0
*4e366538SXin Li        "m"(kMadd11),  // %1
*4e366538SXin Li        "m"(kRound34)  // %2
*4e366538SXin Li  );
*4e366538SXin Li
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm6                   \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm7          \n"
*4e366538SXin Li      "pavgb       %%xmm6,%%xmm7                 \n"
*4e366538SXin Li      "pavgb       %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm2,%%xmm6                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm5,%%xmm6                 \n"
*4e366538SXin Li      "paddsw      %%xmm1,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x2,%%xmm6                   \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movq        %%xmm6,(%1)                   \n"
*4e366538SXin Li      "movdqu      0x8(%0),%%xmm6                \n"
*4e366538SXin Li      "movdqu      0x8(%0,%3,1),%%xmm7           \n"
*4e366538SXin Li      "pavgb       %%xmm6,%%xmm7                 \n"
*4e366538SXin Li      "pavgb       %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm3,%%xmm6                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm0,%%xmm6                 \n"
*4e366538SXin Li      "paddsw      %%xmm1,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x2,%%xmm6                   \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movq        %%xmm6,0x8(%1)                \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm6               \n"
*4e366538SXin Li      "movdqu      0x10(%0,%3,1),%%xmm7          \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pavgb       %%xmm6,%%xmm7                 \n"
*4e366538SXin Li      "pavgb       %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm6                 \n"
*4e366538SXin Li      "pmaddubsw   %4,%%xmm6                     \n"
*4e366538SXin Li      "paddsw      %%xmm1,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x2,%%xmm6                   \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movq        %%xmm6,0x10(%1)               \n"
*4e366538SXin Li      "lea         0x18(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x18,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_ptr),                // %0
*4e366538SXin Li                 "+r"(dst_ptr),                // %1
*4e366538SXin Li                 "+r"(dst_width)               // %2
*4e366538SXin Li               : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li                 "m"(kMadd21)                  // %4
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5",
*4e366538SXin Li                 "xmm6", "xmm7");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown38_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                          ptrdiff_t src_stride,
*4e366538SXin Li                          uint8_t* dst_ptr,
*4e366538SXin Li                          int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %3,%%xmm4                     \n"
*4e366538SXin Li      "movdqa      %4,%%xmm5                     \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "paddusb     %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movq        %%xmm0,(%1)                   \n"
*4e366538SXin Li      "movhlps     %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "movd        %%xmm1,0x8(%1)                \n"
*4e366538SXin Li      "lea         0xc(%1),%1                    \n"
*4e366538SXin Li      "sub         $0xc,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      : "m"(kShuf38a),   // %3
*4e366538SXin Li        "m"(kShuf38b)    // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown38_2_Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                ptrdiff_t src_stride,
*4e366538SXin Li                                uint8_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm2                     \n"
*4e366538SXin Li      "movdqa      %1,%%xmm3                     \n"
*4e366538SXin Li      "movdqa      %2,%%xmm4                     \n"
*4e366538SXin Li      "movdqa      %3,%%xmm5                     \n"
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kShufAb0),  // %0
*4e366538SXin Li        "m"(kShufAb1),  // %1
*4e366538SXin Li        "m"(kShufAb2),  // %2
*4e366538SXin Li        "m"(kScaleAb2)  // %3
*4e366538SXin Li  );
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm1          \n"
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "pavgb       %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "pshufb      %%xmm2,%%xmm1                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm3,%%xmm6                 \n"
*4e366538SXin Li      "paddusw     %%xmm6,%%xmm1                 \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "paddusw     %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "pmulhuw     %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm1                 \n"
*4e366538SXin Li      "movd        %%xmm1,(%1)                   \n"
*4e366538SXin Li      "psrlq       $0x10,%%xmm1                  \n"
*4e366538SXin Li      "movd        %%xmm1,0x2(%1)                \n"
*4e366538SXin Li      "lea         0x6(%1),%1                    \n"
*4e366538SXin Li      "sub         $0x6,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_ptr),               // %0
*4e366538SXin Li                 "+r"(dst_ptr),               // %1
*4e366538SXin Li                 "+r"(dst_width)              // %2
*4e366538SXin Li               : "r"((intptr_t)(src_stride))  // %3
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5",
*4e366538SXin Li                 "xmm6");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleRowDown38_3_Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                ptrdiff_t src_stride,
*4e366538SXin Li                                uint8_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm2                     \n"
*4e366538SXin Li      "movdqa      %1,%%xmm3                     \n"
*4e366538SXin Li      "movdqa      %2,%%xmm4                     \n"
*4e366538SXin Li      "pxor        %%xmm5,%%xmm5                 \n"
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kShufAc),    // %0
*4e366538SXin Li        "m"(kShufAc3),   // %1
*4e366538SXin Li        "m"(kScaleAc33)  // %2
*4e366538SXin Li  );
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm6          \n"
*4e366538SXin Li      "movhlps     %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "movhlps     %%xmm6,%%xmm7                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm0                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm6                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm7                 \n"
*4e366538SXin Li      "paddusw     %%xmm6,%%xmm0                 \n"
*4e366538SXin Li      "paddusw     %%xmm7,%%xmm1                 \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,2),%%xmm6          \n"
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "movhlps     %%xmm6,%%xmm7                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm6                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm7                 \n"
*4e366538SXin Li      "paddusw     %%xmm6,%%xmm0                 \n"
*4e366538SXin Li      "paddusw     %%xmm7,%%xmm1                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm6                 \n"
*4e366538SXin Li      "psrldq      $0x2,%%xmm0                   \n"
*4e366538SXin Li      "paddusw     %%xmm0,%%xmm6                 \n"
*4e366538SXin Li      "psrldq      $0x2,%%xmm0                   \n"
*4e366538SXin Li      "paddusw     %%xmm0,%%xmm6                 \n"
*4e366538SXin Li      "pshufb      %%xmm2,%%xmm6                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm7                 \n"
*4e366538SXin Li      "psrldq      $0x2,%%xmm1                   \n"
*4e366538SXin Li      "paddusw     %%xmm1,%%xmm7                 \n"
*4e366538SXin Li      "psrldq      $0x2,%%xmm1                   \n"
*4e366538SXin Li      "paddusw     %%xmm1,%%xmm7                 \n"
*4e366538SXin Li      "pshufb      %%xmm3,%%xmm7                 \n"
*4e366538SXin Li      "paddusw     %%xmm7,%%xmm6                 \n"
*4e366538SXin Li      "pmulhuw     %%xmm4,%%xmm6                 \n"
*4e366538SXin Li      "packuswb    %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "movd        %%xmm6,(%1)                   \n"
*4e366538SXin Li      "psrlq       $0x10,%%xmm6                  \n"
*4e366538SXin Li      "movd        %%xmm6,0x2(%1)                \n"
*4e366538SXin Li      "lea         0x6(%1),%1                    \n"
*4e366538SXin Li      "sub         $0x6,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_ptr),               // %0
*4e366538SXin Li                 "+r"(dst_ptr),               // %1
*4e366538SXin Li                 "+r"(dst_width)              // %2
*4e366538SXin Li               : "r"((intptr_t)(src_stride))  // %3
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5",
*4e366538SXin Li                 "xmm6", "xmm7");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Listatic const uvec8 kLinearShuffleFar = {2,  3,  0, 1, 6,  7,  4,  5,
*4e366538SXin Li                                        10, 11, 8, 9, 14, 15, 12, 13};
*4e366538SXin Li
*4e366538SXin Listatic const uvec8 kLinearMadd31 = {3, 1, 1, 3, 3, 1, 1, 3,
*4e366538SXin Li                                    3, 1, 1, 3, 3, 1, 1, 3};
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_SSE2
*4e366538SXin Livoid ScaleRowUp2_Linear_SSE2(const uint8_t* src_ptr,
*4e366538SXin Li                             uint8_t* dst_ptr,
*4e366538SXin Li                             int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pxor        %%xmm0,%%xmm0                 \n"  // 0
*4e366538SXin Li      "pcmpeqw     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm6                    \n"
*4e366538SXin Li      "psllw       $1,%%xmm6                     \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm1                   \n"  // 01234567
*4e366538SXin Li      "movq        1(%0),%%xmm2                  \n"  // 12345678
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm2,%%xmm3                 \n"  // 0112233445566778
*4e366538SXin Li      "punpcklbw   %%xmm1,%%xmm1                 \n"  // 0011223344556677
*4e366538SXin Li      "punpcklbw   %%xmm2,%%xmm2                 \n"  // 1122334455667788
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm4                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm4                 \n"  // 00112233 (16)
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm5                 \n"  // 11223344 (16)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm6,%%xmm4                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm5                 \n"  // 01122334 (16)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm4,%%xmm5                 \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "psrlw       $2,%%xmm5                     \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm1                 \n"  // 44556677 (16)
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm2                 \n"  // 55667788 (16)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm1                 \n"
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm3                 \n"  // 45566778 (16)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm1                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"  // 3*near+far+2 (hi)
*4e366538SXin Li      "psrlw       $2,%%xmm1                     \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "movdqu      %%xmm5,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_SSE2
*4e366538SXin Livoid ScaleRowUp2_Bilinear_SSE2(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               ptrdiff_t dst_stride,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "pxor        %%xmm0,%%xmm0                 \n"  // 0
*4e366538SXin Li      // above line
*4e366538SXin Li      "movq        (%0),%%xmm1                   \n"  // 01234567
*4e366538SXin Li      "movq        1(%0),%%xmm2                  \n"  // 12345678
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm2,%%xmm3                 \n"  // 0112233445566778
*4e366538SXin Li      "punpcklbw   %%xmm1,%%xmm1                 \n"  // 0011223344556677
*4e366538SXin Li      "punpcklbw   %%xmm2,%%xmm2                 \n"  // 1122334455667788
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm4                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm4                 \n"  // 00112233 (16)
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm5                 \n"  // 11223344 (16)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"  // near+far
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm5                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm5                 \n"  // 01122334 (16)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm5                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"  // 3*near+far (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm1                 \n"  // 44556677 (16)
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm2                 \n"  // 55667788 (16)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm1                 \n"
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm3                 \n"  // 45566778 (16)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"  // 3*near+far (1, hi)
*4e366538SXin Li
*4e366538SXin Li      // below line
*4e366538SXin Li      "movq        (%0,%3),%%xmm6                \n"  // 01234567
*4e366538SXin Li      "movq        1(%0,%3),%%xmm2               \n"  // 12345678
*4e366538SXin Li      "movdqa      %%xmm6,%%xmm3                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm2,%%xmm3                 \n"  // 0112233445566778
*4e366538SXin Li      "punpcklbw   %%xmm6,%%xmm6                 \n"  // 0011223344556677
*4e366538SXin Li      "punpcklbw   %%xmm2,%%xmm2                 \n"  // 1122334455667788
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm6,%%xmm5                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm5                 \n"  // 00112233 (16)
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm7                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm7                 \n"  // 11223344 (16)
*4e366538SXin Li      "paddw       %%xmm7,%%xmm5                 \n"  // near+far
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm7                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm7                 \n"  // 01122334 (16)
*4e366538SXin Li      "paddw       %%xmm7,%%xmm7                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm7,%%xmm5                 \n"  // 3*near+far (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm6                 \n"  // 44556677 (16)
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm2                 \n"  // 55667788 (16)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm2                 \n"  // near+far
*4e366538SXin Li      "punpckhbw   %%xmm0,%%xmm3                 \n"  // 45566778 (16)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm3,%%xmm2                 \n"  // 3*near+far (2, hi)
*4e366538SXin Li
*4e366538SXin Li      // xmm4 xmm1
*4e366538SXin Li      // xmm5 xmm2
*4e366538SXin Li      "pcmpeqw     %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm0                    \n"
*4e366538SXin Li      "psllw       $3,%%xmm0                     \n"  // all 8
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm4,%%xmm3                 \n"
*4e366538SXin Li      "movdqa      %%xmm5,%%xmm6                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm6                 \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm3                 \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm3                 \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm3                     \n"  // ^ div by 16
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm7                 \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm6                 \n"
*4e366538SXin Li      "paddw       %%xmm7,%%xmm7                 \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm6                 \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm7                 \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm7                 \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm7                     \n"  // ^ div by 16
*4e366538SXin Li
*4e366538SXin Li      "packuswb    %%xmm7,%%xmm3                 \n"
*4e366538SXin Li      "movdqu      %%xmm3,(%1)                   \n"  // save above line
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm5,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm0,%%xmm4                 \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm5                 \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm5                 \n"  // 9 3 3 1 + 8 (lo)
*4e366538SXin Li      "psrlw       $4,%%xmm5                     \n"  // ^ div by 16
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm3                 \n"
*4e366538SXin Li      "paddw       %%xmm0,%%xmm1                 \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm2                 \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm2                 \n"  // 9 3 3 1 + 8 (hi)
*4e366538SXin Li      "psrlw       $4,%%xmm2                     \n"  // ^ div by 16
*4e366538SXin Li
*4e366538SXin Li      "packuswb    %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "movdqu      %%xmm5,(%1,%4)                \n"  // save below line
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride))   // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_12_SSSE3
*4e366538SXin Livoid ScaleRowUp2_Linear_12_SSSE3(const uint16_t* src_ptr,
*4e366538SXin Li                                 uint16_t* dst_ptr,
*4e366538SXin Li                                 int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %3,%%xmm5                     \n"
*4e366538SXin Li      "pcmpeqw     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm4                    \n"
*4e366538SXin Li      "psllw       $1,%%xmm4                     \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"  // 01234567 (16)
*4e366538SXin Li      "movdqu      2(%0),%%xmm1                  \n"  // 12345678 (16)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckhwd   %%xmm1,%%xmm2                 \n"  // 45566778 (16)
*4e366538SXin Li      "punpcklwd   %%xmm1,%%xmm0                 \n"  // 01122334 (16)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm3                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm3                 \n"  // 54657687 (far)
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm1                 \n"  // 10213243 (far)
*4e366538SXin Li
*4e366538SXin Li      "paddw       %%xmm4,%%xmm1                 \n"  // far+2
*4e366538SXin Li      "paddw       %%xmm4,%%xmm3                 \n"  // far+2
*4e366538SXin Li      "paddw       %%xmm0,%%xmm1                 \n"  // near+far+2
*4e366538SXin Li      "paddw       %%xmm2,%%xmm3                 \n"  // near+far+2
*4e366538SXin Li      "paddw       %%xmm0,%%xmm0                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm2,%%xmm2                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm1,%%xmm0                 \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm2                 \n"  // 3*near+far+2 (hi)
*4e366538SXin Li
*4e366538SXin Li      "psrlw       $2,%%xmm0                     \n"  // 3/4*near+1/4*far
*4e366538SXin Li      "psrlw       $2,%%xmm2                     \n"  // 3/4*near+1/4*far
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "movdqu      %%xmm2,16(%1)                 \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),          // %0
*4e366538SXin Li        "+r"(dst_ptr),          // %1
*4e366538SXin Li        "+r"(dst_width)         // %2
*4e366538SXin Li      : "m"(kLinearShuffleFar)  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_12_SSSE3
*4e366538SXin Livoid ScaleRowUp2_Bilinear_12_SSSE3(const uint16_t* src_ptr,
*4e366538SXin Li                                   ptrdiff_t src_stride,
*4e366538SXin Li                                   uint16_t* dst_ptr,
*4e366538SXin Li                                   ptrdiff_t dst_stride,
*4e366538SXin Li                                   int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqw     %%xmm7,%%xmm7                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm7                    \n"
*4e366538SXin Li      "psllw       $3,%%xmm7                     \n"  // all 8
*4e366538SXin Li      "movdqa      %5,%%xmm6                     \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      // above line
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"  // 01234567 (16)
*4e366538SXin Li      "movdqu      2(%0),%%xmm1                  \n"  // 12345678 (16)
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckhwd   %%xmm1,%%xmm2                 \n"  // 45566778 (16)
*4e366538SXin Li      "punpcklwd   %%xmm1,%%xmm0                 \n"  // 01122334 (16)
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm3                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "pshufb      %%xmm6,%%xmm3                 \n"  // 54657687 (far)
*4e366538SXin Li      "pshufb      %%xmm6,%%xmm1                 \n"  // 10213243 (far)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm1                 \n"  // near+far
*4e366538SXin Li      "paddw       %%xmm2,%%xmm3                 \n"  // near+far
*4e366538SXin Li      "paddw       %%xmm0,%%xmm0                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm2,%%xmm2                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm1,%%xmm0                 \n"  // 3*near+far (1, lo)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm2                 \n"  // 3*near+far (1, hi)
*4e366538SXin Li
*4e366538SXin Li      // below line
*4e366538SXin Li      "movdqu      (%0,%3,2),%%xmm1              \n"  // 01234567 (16)
*4e366538SXin Li      "movdqu      2(%0,%3,2),%%xmm4             \n"  // 12345678 (16)
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "punpckhwd   %%xmm4,%%xmm3                 \n"  // 45566778 (16)
*4e366538SXin Li      "punpcklwd   %%xmm4,%%xmm1                 \n"  // 01122334 (16)
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm5                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm4                 \n"
*4e366538SXin Li      "pshufb      %%xmm6,%%xmm5                 \n"  // 54657687 (far)
*4e366538SXin Li      "pshufb      %%xmm6,%%xmm4                 \n"  // 10213243 (far)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm4                 \n"  // near+far
*4e366538SXin Li      "paddw       %%xmm3,%%xmm5                 \n"  // near+far
*4e366538SXin Li      "paddw       %%xmm1,%%xmm1                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm3,%%xmm3                 \n"  // 2*near
*4e366538SXin Li      "paddw       %%xmm4,%%xmm1                 \n"  // 3*near+far (2, lo)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm3                 \n"  // 3*near+far (2, hi)
*4e366538SXin Li
*4e366538SXin Li      // xmm0 xmm2
*4e366538SXin Li      // xmm1 xmm3
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm4,%%xmm4                 \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm7,%%xmm5                 \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm4                 \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm4                     \n"  // ^ div by 16
*4e366538SXin Li      "movdqu      %%xmm4,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm4,%%xmm4                 \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm7,%%xmm5                 \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm4                 \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm4                     \n"  // ^ div by 16
*4e366538SXin Li      "movdqu      %%xmm4,0x10(%1)               \n"
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm4                 \n"
*4e366538SXin Li      "paddw       %%xmm7,%%xmm0                 \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm4                 \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm1                 \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm1                 \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm1                     \n"  // ^ div by 16
*4e366538SXin Li      "movdqu      %%xmm1,(%1,%4,2)              \n"
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm4                 \n"
*4e366538SXin Li      "paddw       %%xmm7,%%xmm2                 \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm4                 \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm3                 \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm3                 \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm3                     \n"  // ^ div by 16
*4e366538SXin Li      "movdqu      %%xmm3,0x10(%1,%4,2)          \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride)),  // %4
*4e366538SXin Li        "m"(kLinearShuffleFar)        // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_16_SSE2
*4e366538SXin Livoid ScaleRowUp2_Linear_16_SSE2(const uint16_t* src_ptr,
*4e366538SXin Li                                uint16_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pxor        %%xmm5,%%xmm5                 \n"
*4e366538SXin Li      "pcmpeqd     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrld       $31,%%xmm4                    \n"
*4e366538SXin Li      "pslld       $1,%%xmm4                     \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 0123 (16b)
*4e366538SXin Li      "movq        2(%0),%%xmm1                  \n"  // 1234 (16b)
*4e366538SXin Li
*4e366538SXin Li      "punpcklwd   %%xmm5,%%xmm0                 \n"  // 0123 (32b)
*4e366538SXin Li      "punpcklwd   %%xmm5,%%xmm1                 \n"  // 1234 (32b)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li
*4e366538SXin Li      "pshufd      $0b10110001,%%xmm2,%%xmm2     \n"  // 1032 (even, far)
*4e366538SXin Li      "pshufd      $0b10110001,%%xmm3,%%xmm3     \n"  // 2143 (odd, far)
*4e366538SXin Li
*4e366538SXin Li      "paddd       %%xmm4,%%xmm2                 \n"  // far+2 (lo)
*4e366538SXin Li      "paddd       %%xmm4,%%xmm3                 \n"  // far+2 (hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"  // near+far+2 (lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm3                 \n"  // near+far+2 (hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm0                 \n"  // 2*near (lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm1                 \n"  // 2*near (hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm1                 \n"  // 3*near+far+2 (hi)
*4e366538SXin Li
*4e366538SXin Li      "psrld       $2,%%xmm0                     \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "psrld       $2,%%xmm1                     \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "packssdw    %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "pshufd      $0b11011000,%%xmm0,%%xmm0     \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 4 pixel to 8 pixel
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_16_SSE2
*4e366538SXin Livoid ScaleRowUp2_Bilinear_16_SSE2(const uint16_t* src_ptr,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  ptrdiff_t dst_stride,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pxor        %%xmm7,%%xmm7                 \n"
*4e366538SXin Li      "pcmpeqd     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrld       $31,%%xmm6                    \n"
*4e366538SXin Li      "pslld       $3,%%xmm6                     \n"  // all 8
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 0011 (16b, 1u1v)
*4e366538SXin Li      "movq        4(%0),%%xmm1                  \n"  // 1122 (16b, 1u1v)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm0                 \n"  // 0011 (near) (32b, 1u1v)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm1                 \n"  // 1122 (near) (32b, 1u1v)
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm2,%%xmm2     \n"  // 1100 (far) (1, lo)
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm3,%%xmm3     \n"  // 2211 (far) (1, hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"  // near+far (1, lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm3                 \n"  // near+far (1, hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm0                 \n"  // 2*near (1, lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm1                 \n"  // 2*near (1, hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 3*near+far (1, lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm1                 \n"  // 3*near+far (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 0123 (16b)
*4e366538SXin Li      "movq        2(%0),%%xmm1                  \n"  // 1234 (16b)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm0                 \n"  // 0123 (32b)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm1                 \n"  // 1234 (32b)
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "pshufd      $0b10110001,%%xmm2,%%xmm2     \n"  // 1032 (even, far)
*4e366538SXin Li      "pshufd      $0b10110001,%%xmm3,%%xmm3     \n"  // 2143 (odd, far)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"  // near+far (lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm3                 \n"  // near+far (hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm0                 \n"  // 2*near (lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm1                 \n"  // 2*near (hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 3*near+far (1, lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm1                 \n"  // 3*near+far (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movq        (%0,%3,2),%%xmm2              \n"
*4e366538SXin Li      "movq        2(%0,%3,2),%%xmm3             \n"
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm2                 \n"  // 0123 (32b)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm3                 \n"  // 1234 (32b)
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm5                 \n"
*4e366538SXin Li      "pshufd      $0b10110001,%%xmm4,%%xmm4     \n"  // 1032 (even, far)
*4e366538SXin Li      "pshufd      $0b10110001,%%xmm5,%%xmm5     \n"  // 2143 (odd, far)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm4                 \n"  // near+far (lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm5                 \n"  // near+far (hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm2                 \n"  // 2*near (lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm3                 \n"  // 2*near (hi)
*4e366538SXin Li      "paddd       %%xmm4,%%xmm2                 \n"  // 3*near+far (2, lo)
*4e366538SXin Li      "paddd       %%xmm5,%%xmm3                 \n"  // 3*near+far (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "paddd       %%xmm0,%%xmm4                 \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm5                 \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm4                 \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "paddd       %%xmm5,%%xmm4                 \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "psrld       $4,%%xmm4                     \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "paddd       %%xmm2,%%xmm5                 \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm0                 \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm5                 \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm5                 \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "psrld       $4,%%xmm5                     \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "paddd       %%xmm1,%%xmm0                 \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm2                 \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm0                 \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "psrld       $4,%%xmm0                     \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm1                 \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm2                 \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "psrld       $4,%%xmm2                     \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "packssdw    %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "pshufd      $0b11011000,%%xmm4,%%xmm4     \n"
*4e366538SXin Li      "movdqu      %%xmm4,(%1)                   \n"  // store above
*4e366538SXin Li      "packssdw    %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "pshufd      $0b11011000,%%xmm5,%%xmm5     \n"
*4e366538SXin Li      "movdqu      %%xmm5,(%1,%4,2)              \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 4 pixel to 8 pixel
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride))   // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_SSSE3
*4e366538SXin Livoid ScaleRowUp2_Linear_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                              uint8_t* dst_ptr,
*4e366538SXin Li                              int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqw     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm4                    \n"
*4e366538SXin Li      "psllw       $1,%%xmm4                     \n"  // all 2
*4e366538SXin Li      "movdqa      %3,%%xmm3                     \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 01234567
*4e366538SXin Li      "movq        1(%0),%%xmm1                  \n"  // 12345678
*4e366538SXin Li      "punpcklwd   %%xmm0,%%xmm0                 \n"  // 0101232345456767
*4e366538SXin Li      "punpcklwd   %%xmm1,%%xmm1                 \n"  // 1212343456567878
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm1,%%xmm2                 \n"  // 4545565667677878
*4e366538SXin Li      "punpckldq   %%xmm1,%%xmm0                 \n"  // 0101121223233434
*4e366538SXin Li      "pmaddubsw   %%xmm3,%%xmm2                 \n"  // 3*near+far (hi)
*4e366538SXin Li      "pmaddubsw   %%xmm3,%%xmm0                 \n"  // 3*near+far (lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm0                 \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm2                 \n"  // 3*near+far+2 (hi)
*4e366538SXin Li      "psrlw       $2,%%xmm0                     \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "psrlw       $2,%%xmm2                     \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "packuswb    %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),      // %0
*4e366538SXin Li        "+r"(dst_ptr),      // %1
*4e366538SXin Li        "+r"(dst_width)     // %2
*4e366538SXin Li      : "m"(kLinearMadd31)  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_SSSE3
*4e366538SXin Livoid ScaleRowUp2_Bilinear_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                ptrdiff_t src_stride,
*4e366538SXin Li                                uint8_t* dst_ptr,
*4e366538SXin Li                                ptrdiff_t dst_stride,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqw     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm6                    \n"
*4e366538SXin Li      "psllw       $3,%%xmm6                     \n"  // all 8
*4e366538SXin Li      "movdqa      %5,%%xmm7                     \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 01234567
*4e366538SXin Li      "movq        1(%0),%%xmm1                  \n"  // 12345678
*4e366538SXin Li      "punpcklwd   %%xmm0,%%xmm0                 \n"  // 0101232345456767
*4e366538SXin Li      "punpcklwd   %%xmm1,%%xmm1                 \n"  // 1212343456567878
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm1,%%xmm2                 \n"  // 4545565667677878
*4e366538SXin Li      "punpckldq   %%xmm1,%%xmm0                 \n"  // 0101121223233434
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm2                 \n"  // 3*near+far (1, hi)
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm0                 \n"  // 3*near+far (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "movq        (%0,%3),%%xmm1                \n"
*4e366538SXin Li      "movq        1(%0,%3),%%xmm4               \n"
*4e366538SXin Li      "punpcklwd   %%xmm1,%%xmm1                 \n"
*4e366538SXin Li      "punpcklwd   %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm4,%%xmm3                 \n"
*4e366538SXin Li      "punpckldq   %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm3                 \n"  // 3*near+far (2, hi)
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm1                 \n"  // 3*near+far (2, lo)
*4e366538SXin Li
*4e366538SXin Li      // xmm0 xmm2
*4e366538SXin Li      // xmm1 xmm3
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm0,%%xmm4                 \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm5                 \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm4                 \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm4                     \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm1,%%xmm5                 \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm0                 \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm5                 \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm5                 \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm5                     \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm1                 \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm0                 \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm0                     \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm2                 \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm1                 \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm1                     \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "packuswb    %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqu      %%xmm4,(%1)                   \n"  // store above
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "movdqu      %%xmm5,(%1,%4)                \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride)),  // %4
*4e366538SXin Li        "m"(kLinearMadd31)            // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_AVX2
*4e366538SXin Livoid ScaleRowUp2_Linear_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                             uint8_t* dst_ptr,
*4e366538SXin Li                             int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqw    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $15,%%ymm4,%%ymm4             \n"
*4e366538SXin Li      "vpsllw      $1,%%ymm4,%%ymm4              \n"  // all 2
*4e366538SXin Li      "vbroadcastf128 %3,%%ymm3                  \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 0123456789ABCDEF
*4e366538SXin Li      "vmovdqu     1(%0),%%xmm1                  \n"  // 123456789ABCDEF0
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"
*4e366538SXin Li      "vpunpcklwd  %%ymm0,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpunpcklwd  %%ymm1,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpunpckhdq  %%ymm1,%%ymm0,%%ymm2          \n"
*4e366538SXin Li      "vpunpckldq  %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm3,%%ymm2,%%ymm1          \n"  // 3*near+far (hi)
*4e366538SXin Li      "vpmaddubsw  %%ymm3,%%ymm0,%%ymm0          \n"  // 3*near+far (lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm0,%%ymm0          \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm1,%%ymm1          \n"  // 3*near+far+2 (hi)
*4e366538SXin Li      "vpsrlw      $2,%%ymm0,%%ymm0              \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "vpsrlw      $2,%%ymm1,%%ymm1              \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "vpackuswb   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 16 sample to 32 sample
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),      // %0
*4e366538SXin Li        "+r"(dst_ptr),      // %1
*4e366538SXin Li        "+r"(dst_width)     // %2
*4e366538SXin Li      : "m"(kLinearMadd31)  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_AVX2
*4e366538SXin Livoid ScaleRowUp2_Bilinear_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               ptrdiff_t dst_stride,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqw    %%ymm6,%%ymm6,%%ymm6          \n"
*4e366538SXin Li      "vpsrlw      $15,%%ymm6,%%ymm6             \n"
*4e366538SXin Li      "vpsllw      $3,%%ymm6,%%ymm6              \n"  // all 8
*4e366538SXin Li      "vbroadcastf128 %5,%%ymm7                  \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 0123456789ABCDEF
*4e366538SXin Li      "vmovdqu     1(%0),%%xmm1                  \n"  // 123456789ABCDEF0
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"
*4e366538SXin Li      "vpunpcklwd  %%ymm0,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpunpcklwd  %%ymm1,%%ymm1,%%ymm1          \n"
*4e366538SXin Li      "vpunpckhdq  %%ymm1,%%ymm0,%%ymm2          \n"
*4e366538SXin Li      "vpunpckldq  %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm2,%%ymm1          \n"  // 3*near+far (1, hi)
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm0,%%ymm0          \n"  // 3*near+far (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0,%3),%%xmm2                \n"  // 0123456789ABCDEF
*4e366538SXin Li      "vmovdqu     1(%0,%3),%%xmm3               \n"  // 123456789ABCDEF0
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm2,%%ymm2     \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm3,%%ymm3     \n"
*4e366538SXin Li      "vpunpcklwd  %%ymm2,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpunpcklwd  %%ymm3,%%ymm3,%%ymm3          \n"
*4e366538SXin Li      "vpunpckhdq  %%ymm3,%%ymm2,%%ymm4          \n"
*4e366538SXin Li      "vpunpckldq  %%ymm3,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm4,%%ymm3          \n"  // 3*near+far (2, hi)
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm2,%%ymm2          \n"  // 3*near+far (2, lo)
*4e366538SXin Li
*4e366538SXin Li      // ymm0 ymm1
*4e366538SXin Li      // ymm2 ymm3
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm0,%%ymm4          \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm2,%%ymm5          \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm0,%%ymm4          \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm5,%%ymm4          \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "vpsrlw      $4,%%ymm4,%%ymm4              \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm2,%%ymm5          \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm0,%%ymm0          \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "vpaddw      %%ymm5,%%ymm2,%%ymm5          \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "vpaddw      %%ymm5,%%ymm0,%%ymm5          \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "vpsrlw      $4,%%ymm5,%%ymm5              \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm1,%%ymm1,%%ymm0          \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm3,%%ymm2          \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm0          \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm2,%%ymm0          \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "vpsrlw      $4,%%ymm0,%%ymm0              \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm3,%%ymm2          \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm1,%%ymm1          \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm3,%%ymm2          \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm1,%%ymm2          \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "vpsrlw      $4,%%ymm2,%%ymm2              \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpackuswb   %%ymm0,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vmovdqu     %%ymm4,(%1)                   \n"  // store above
*4e366538SXin Li      "vpackuswb   %%ymm2,%%ymm5,%%ymm5          \n"
*4e366538SXin Li      "vmovdqu     %%ymm5,(%1,%4)                \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 16 sample to 32 sample
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride)),  // %4
*4e366538SXin Li        "m"(kLinearMadd31)            // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_12_AVX2
*4e366538SXin Livoid ScaleRowUp2_Linear_12_AVX2(const uint16_t* src_ptr,
*4e366538SXin Li                                uint16_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vbroadcastf128 %3,%%ymm5                  \n"
*4e366538SXin Li      "vpcmpeqw    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $15,%%ymm4,%%ymm4             \n"
*4e366538SXin Li      "vpsllw      $1,%%ymm4,%%ymm4              \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"  // 0123456789ABCDEF (16b)
*4e366538SXin Li      "vmovdqu     2(%0),%%ymm1                  \n"  // 123456789ABCDEF0 (16b)
*4e366538SXin Li
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"  // 012389AB4567CDEF
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"  // 12349ABC5678DEF0
*4e366538SXin Li
*4e366538SXin Li      "vpunpckhwd  %%ymm1,%%ymm0,%%ymm2          \n"  // 899AABBCCDDEEFF0 (near)
*4e366538SXin Li      "vpunpcklwd  %%ymm1,%%ymm0,%%ymm0          \n"  // 0112233445566778 (near)
*4e366538SXin Li      "vpshufb     %%ymm5,%%ymm2,%%ymm3          \n"  // 98A9BACBDCEDFE0F (far)
*4e366538SXin Li      "vpshufb     %%ymm5,%%ymm0,%%ymm1          \n"  // 1021324354657687 (far)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm1,%%ymm1          \n"  // far+2
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm3,%%ymm3          \n"  // far+2
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm1          \n"  // near+far+2
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm3,%%ymm3          \n"  // near+far+2
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm2,%%ymm2          \n"  // 2*near
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm0          \n"  // 3*near+far+2
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm3,%%ymm2          \n"  // 3*near+far+2
*4e366538SXin Li
*4e366538SXin Li      "vpsrlw      $2,%%ymm0,%%ymm0              \n"  // 3/4*near+1/4*far
*4e366538SXin Li      "vpsrlw      $2,%%ymm2,%%ymm2              \n"  // 3/4*near+1/4*far
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li      "vmovdqu     %%ymm2,32(%1)                 \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "lea         0x40(%1),%1                   \n"  // 16 sample to 32 sample
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),          // %0
*4e366538SXin Li        "+r"(dst_ptr),          // %1
*4e366538SXin Li        "+r"(dst_width)         // %2
*4e366538SXin Li      : "m"(kLinearShuffleFar)  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_12_AVX2
*4e366538SXin Livoid ScaleRowUp2_Bilinear_12_AVX2(const uint16_t* src_ptr,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  ptrdiff_t dst_stride,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vbroadcastf128 %5,%%ymm5                  \n"
*4e366538SXin Li      "vpcmpeqw    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $15,%%ymm4,%%ymm4             \n"
*4e366538SXin Li      "vpsllw      $3,%%ymm4,%%ymm4              \n"  // all 8
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 01234567 (16b)
*4e366538SXin Li      "vmovdqu     2(%0),%%xmm1                  \n"  // 12345678 (16b)
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"  // 0123000045670000
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"  // 1234000056780000
*4e366538SXin Li      "vpunpcklwd  %%ymm1,%%ymm0,%%ymm0          \n"  // 0112233445566778 (near)
*4e366538SXin Li      "vpshufb     %%ymm5,%%ymm0,%%ymm1          \n"  // 1021324354657687 (far)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm1          \n"  // near+far
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm2          \n"  // 3*near+far (1)
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0,%3,2),%%xmm0              \n"  // 01234567 (16b)
*4e366538SXin Li      "vmovdqu     2(%0,%3,2),%%xmm1             \n"  // 12345678 (16b)
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"  // 0123000045670000
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"  // 1234000056780000
*4e366538SXin Li      "vpunpcklwd  %%ymm1,%%ymm0,%%ymm0          \n"  // 0112233445566778 (near)
*4e366538SXin Li      "vpshufb     %%ymm5,%%ymm0,%%ymm1          \n"  // 1021324354657687 (far)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm1          \n"  // near+far
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm3          \n"  // 3*near+far (2)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm2,%%ymm0          \n"  // 6*near+2*far (1)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm3,%%ymm1          \n"  // 3*near+far+8 (2)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm2,%%ymm0          \n"  // 9*near+3*far (1)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm0          \n"  // 9 3 3 1 + 8 (1)
*4e366538SXin Li      "vpsrlw      $4,%%ymm0,%%ymm0              \n"  // ^ div by 16
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"  // store above
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm3,%%ymm0          \n"  // 6*near+2*far (2)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm2,%%ymm1          \n"  // 3*near+far+8 (1)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm3,%%ymm0          \n"  // 9*near+3*far (2)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm0          \n"  // 9 3 3 1 + 8 (2)
*4e366538SXin Li      "vpsrlw      $4,%%ymm0,%%ymm0              \n"  // ^ div by 16
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1,%4,2)              \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 sample to 16 sample
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride)),  // %4
*4e366538SXin Li        "m"(kLinearShuffleFar)        // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_LINEAR_16_AVX2
*4e366538SXin Livoid ScaleRowUp2_Linear_16_AVX2(const uint16_t* src_ptr,
*4e366538SXin Li                                uint16_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqd    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrld      $31,%%ymm4,%%ymm4             \n"
*4e366538SXin Li      "vpslld      $1,%%ymm4,%%ymm4              \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 01234567 (16b, 1u1v)
*4e366538SXin Li      "vmovdqu     2(%0),%%xmm1                  \n"  // 12345678 (16b, 1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vpmovzxwd   %%xmm0,%%ymm0                 \n"  // 01234567 (32b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm1,%%ymm1                 \n"  // 12345678 (32b, 1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vpshufd     $0b10110001,%%ymm0,%%ymm2     \n"  // 10325476 (lo, far)
*4e366538SXin Li      "vpshufd     $0b10110001,%%ymm1,%%ymm3     \n"  // 21436587 (hi, far)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm2,%%ymm2          \n"  // far+2 (lo)
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm3,%%ymm3          \n"  // far+2 (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm2          \n"  // near+far+2 (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm3          \n"  // near+far+2 (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm1,%%ymm1          \n"  // 2*near (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm0          \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm1          \n"  // 3*near+far+2 (hi)
*4e366538SXin Li
*4e366538SXin Li      "vpsrld      $2,%%ymm0,%%ymm0              \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "vpsrld      $2,%%ymm1,%%ymm1              \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "vpackusdw   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpshufd     $0b11011000,%%ymm0,%%ymm0     \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 pixel to 16 pixel
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEROWUP2_BILINEAR_16_AVX2
*4e366538SXin Livoid ScaleRowUp2_Bilinear_16_AVX2(const uint16_t* src_ptr,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  ptrdiff_t dst_stride,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqd    %%ymm6,%%ymm6,%%ymm6          \n"
*4e366538SXin Li      "vpsrld      $31,%%ymm6,%%ymm6             \n"
*4e366538SXin Li      "vpslld      $3,%%ymm6,%%ymm6              \n"  // all 8
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 01234567 (16b, 1u1v)
*4e366538SXin Li      "vmovdqu     2(%0),%%xmm1                  \n"  // 12345678 (16b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm0,%%ymm0                 \n"  // 01234567 (32b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm1,%%ymm1                 \n"  // 12345678 (32b, 1u1v)
*4e366538SXin Li      "vpshufd     $0b10110001,%%ymm0,%%ymm2     \n"  // 10325476 (lo, far)
*4e366538SXin Li      "vpshufd     $0b10110001,%%ymm1,%%ymm3     \n"  // 21436587 (hi, far)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm2          \n"  // near+far (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm3          \n"  // near+far (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm1,%%ymm1          \n"  // 2*near (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm0          \n"  // 3*near+far (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm1          \n"  // 3*near+far (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0,%3,2),%%xmm2              \n"  // 01234567 (16b, 1u1v)
*4e366538SXin Li      "vmovdqu     2(%0,%3,2),%%xmm3             \n"  // 12345678 (16b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm2,%%ymm2                 \n"  // 01234567 (32b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm3,%%ymm3                 \n"  // 12345678 (32b, 1u1v)
*4e366538SXin Li      "vpshufd     $0b10110001,%%ymm2,%%ymm4     \n"  // 10325476 (lo, far)
*4e366538SXin Li      "vpshufd     $0b10110001,%%ymm3,%%ymm5     \n"  // 21436587 (hi, far)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm4,%%ymm4          \n"  // near+far (lo)
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm5,%%ymm5          \n"  // near+far (hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm2,%%ymm2          \n"  // 2*near (lo)
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm3,%%ymm3          \n"  // 2*near (hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm4,%%ymm2          \n"  // 3*near+far (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm5,%%ymm3          \n"  // 3*near+far (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm0,%%ymm4          \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm2,%%ymm5          \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm0,%%ymm4          \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm5,%%ymm4          \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "vpsrld      $4,%%ymm4,%%ymm4              \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm2,%%ymm5          \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm0,%%ymm0          \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm5,%%ymm2,%%ymm5          \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm5,%%ymm0,%%ymm5          \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "vpsrld      $4,%%ymm5,%%ymm5              \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm1,%%ymm0          \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm3,%%ymm2          \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm1,%%ymm0          \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm0          \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "vpsrld      $4,%%ymm0,%%ymm0              \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm3,%%ymm2          \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm1,%%ymm1          \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm3,%%ymm2          \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm1,%%ymm2          \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "vpsrld      $4,%%ymm2,%%ymm2              \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpackusdw   %%ymm0,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpshufd     $0b11011000,%%ymm4,%%ymm4     \n"
*4e366538SXin Li      "vmovdqu     %%ymm4,(%1)                   \n"  // store above
*4e366538SXin Li      "vpackusdw   %%ymm2,%%ymm5,%%ymm5          \n"
*4e366538SXin Li      "vpshufd     $0b11011000,%%ymm5,%%ymm5     \n"
*4e366538SXin Li      "vmovdqu     %%ymm5,(%1,%4,2)              \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 pixel to 16 pixel
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride))   // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li// Reads 16xN bytes and produces 16 shorts at a time.
*4e366538SXin Livoid ScaleAddRow_SSE2(const uint8_t* src_ptr,
*4e366538SXin Li                      uint16_t* dst_ptr,
*4e366538SXin Li                      int src_width) {
*4e366538SXin Li      asm volatile("pxor        %%xmm5,%%xmm5                 \n"
*4e366538SXin Li
*4e366538SXin Li               // 16 pixel loop.
*4e366538SXin Li               LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm3                   \n"
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"  // src_ptr += 16
*4e366538SXin Li      "movdqu      (%1),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%1),%%xmm1               \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm5,%%xmm2                 \n"
*4e366538SXin Li      "punpckhbw   %%xmm5,%%xmm3                 \n"
*4e366538SXin Li      "paddusw     %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddusw     %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "movdqu      %%xmm1,0x10(%1)               \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_ptr),   // %0
*4e366538SXin Li                 "+r"(dst_ptr),   // %1
*4e366538SXin Li                 "+r"(src_width)  // %2
*4e366538SXin Li               :
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEADDROW_AVX2
*4e366538SXin Li// Reads 32 bytes and accumulates to 32 shorts at a time.
*4e366538SXin Livoid ScaleAddRow_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                      uint16_t* dst_ptr,
*4e366538SXin Li                      int src_width) {
*4e366538SXin Li      asm volatile("vpxor       %%ymm5,%%ymm5,%%ymm5          \n"
*4e366538SXin Li
*4e366538SXin Li               LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm3                   \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"  // src_ptr += 32
*4e366538SXin Li      "vpermq      $0xd8,%%ymm3,%%ymm3           \n"
*4e366538SXin Li      "vpunpcklbw  %%ymm5,%%ymm3,%%ymm2          \n"
*4e366538SXin Li      "vpunpckhbw  %%ymm5,%%ymm3,%%ymm3          \n"
*4e366538SXin Li      "vpaddusw    (%1),%%ymm2,%%ymm0            \n"
*4e366538SXin Li      "vpaddusw    0x20(%1),%%ymm3,%%ymm1        \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li      "vmovdqu     %%ymm1,0x20(%1)               \n"
*4e366538SXin Li      "lea         0x40(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li               : "+r"(src_ptr),   // %0
*4e366538SXin Li                 "+r"(dst_ptr),   // %1
*4e366538SXin Li                 "+r"(src_width)  // %2
*4e366538SXin Li               :
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif  // HAS_SCALEADDROW_AVX2
*4e366538SXin Li
*4e366538SXin Li// Constant for making pixels signed to avoid pmaddubsw
*4e366538SXin Li// saturation.
*4e366538SXin Listatic const uvec8 kFsub80 = {0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,
*4e366538SXin Li                              0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80};
*4e366538SXin Li
*4e366538SXin Li// Constant for making pixels unsigned and adding .5 for rounding.
*4e366538SXin Listatic const uvec16 kFadd40 = {0x4040, 0x4040, 0x4040, 0x4040,
*4e366538SXin Li                               0x4040, 0x4040, 0x4040, 0x4040};
*4e366538SXin Li
*4e366538SXin Li// Bilinear column filtering. SSSE3 version.
*4e366538SXin Livoid ScaleFilterCols_SSSE3(uint8_t* dst_ptr,
*4e366538SXin Li                           const uint8_t* src_ptr,
*4e366538SXin Li                           int dst_width,
*4e366538SXin Li                           int x,
*4e366538SXin Li                           int dx) {
*4e366538SXin Li  intptr_t x0, x1, temp_pixel;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movd        %6,%%xmm2                     \n"
*4e366538SXin Li      "movd        %7,%%xmm3                     \n"
*4e366538SXin Li      "movl        $0x04040000,%k2               \n"
*4e366538SXin Li      "movd        %k2,%%xmm5                    \n"
*4e366538SXin Li      "pcmpeqb     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x9,%%xmm6                   \n"  // 0x007f007f
*4e366538SXin Li      "pcmpeqb     %%xmm7,%%xmm7                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm7                    \n"  // 0x00010001
*4e366538SXin Li
*4e366538SXin Li      "pextrw      $0x1,%%xmm2,%k3               \n"
*4e366538SXin Li      "subl        $0x2,%5                       \n"
*4e366538SXin Li      "jl          29f                           \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm0                 \n"
*4e366538SXin Li      "punpckldq   %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckldq   %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "pextrw      $0x3,%%xmm2,%k4               \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "2:                                        \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm1                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "movzwl      0x00(%1,%3,1),%k2             \n"
*4e366538SXin Li      "movd        %k2,%%xmm0                    \n"
*4e366538SXin Li      "psrlw       $0x9,%%xmm1                   \n"
*4e366538SXin Li      "movzwl      0x00(%1,%4,1),%k2             \n"
*4e366538SXin Li      "movd        %k2,%%xmm4                    \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "punpcklwd   %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "psubb       %8,%%xmm0                     \n"  // make pixels signed.
*4e366538SXin Li      "pxor        %%xmm6,%%xmm1                 \n"  // 128 - f = (f ^ 127 ) +
*4e366538SXin Li                                                      // 1
*4e366538SXin Li      "paddusb     %%xmm7,%%xmm1                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "pextrw      $0x1,%%xmm2,%k3               \n"
*4e366538SXin Li      "pextrw      $0x3,%%xmm2,%k4               \n"
*4e366538SXin Li      "paddw       %9,%%xmm1                     \n"  // make pixels unsigned.
*4e366538SXin Li      "psrlw       $0x7,%%xmm1                   \n"
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm1                 \n"
*4e366538SXin Li      "movd        %%xmm1,%k2                    \n"
*4e366538SXin Li      "mov         %w2,(%0)                      \n"
*4e366538SXin Li      "lea         0x2(%0),%0                    \n"
*4e366538SXin Li      "subl        $0x2,%5                       \n"
*4e366538SXin Li      "jge         2b                            \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "29:                                       \n"
*4e366538SXin Li      "addl        $0x1,%5                       \n"
*4e366538SXin Li      "jl          99f                           \n"
*4e366538SXin Li      "movzwl      0x00(%1,%3,1),%k2             \n"
*4e366538SXin Li      "movd        %k2,%%xmm0                    \n"
*4e366538SXin Li      "psrlw       $0x9,%%xmm2                   \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm2                 \n"
*4e366538SXin Li      "psubb       %8,%%xmm0                     \n"  // make pixels signed.
*4e366538SXin Li      "pxor        %%xmm6,%%xmm2                 \n"
*4e366538SXin Li      "paddusb     %%xmm7,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "paddw       %9,%%xmm2                     \n"  // make pixels unsigned.
*4e366538SXin Li      "psrlw       $0x7,%%xmm2                   \n"
*4e366538SXin Li      "packuswb    %%xmm2,%%xmm2                 \n"
*4e366538SXin Li      "movd        %%xmm2,%k2                    \n"
*4e366538SXin Li      "mov         %b2,(%0)                      \n"
*4e366538SXin Li      "99:                                       \n"
*4e366538SXin Li      : "+r"(dst_ptr),      // %0
*4e366538SXin Li        "+r"(src_ptr),      // %1
*4e366538SXin Li        "=&a"(temp_pixel),  // %2
*4e366538SXin Li        "=&r"(x0),          // %3
*4e366538SXin Li        "=&r"(x1),          // %4
*4e366538SXin Li#if defined(__x86_64__)
*4e366538SXin Li        "+rm"(dst_width)  // %5
*4e366538SXin Li#else
*4e366538SXin Li        "+m"(dst_width)  // %5
*4e366538SXin Li#endif
*4e366538SXin Li      : "rm"(x),   // %6
*4e366538SXin Li        "rm"(dx),  // %7
*4e366538SXin Li#if defined(__x86_64__)
*4e366538SXin Li        "x"(kFsub80),  // %8
*4e366538SXin Li        "x"(kFadd40)   // %9
*4e366538SXin Li#else
*4e366538SXin Li        "m"(kFsub80),    // %8
*4e366538SXin Li        "m"(kFadd40)     // %9
*4e366538SXin Li#endif
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Reads 4 pixels, duplicates them and writes 8 pixels.
*4e366538SXin Li// Alignment requirement: src_argb 16 byte aligned, dst_argb 16 byte aligned.
*4e366538SXin Livoid ScaleColsUp2_SSE2(uint8_t* dst_ptr,
*4e366538SXin Li                       const uint8_t* src_ptr,
*4e366538SXin Li                       int dst_width,
*4e366538SXin Li                       int x,
*4e366538SXin Li                       int dx) {
*4e366538SXin Li  (void)x;
*4e366538SXin Li  (void)dx;
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%1),%%xmm0                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "punpcklbw   %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "punpckhbw   %%xmm1,%%xmm1                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%0)                   \n"
*4e366538SXin Li      "movdqu      %%xmm1,0x10(%0)               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "sub         $0x20,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li
*4e366538SXin Li               : "+r"(dst_ptr),   // %0
*4e366538SXin Li                 "+r"(src_ptr),   // %1
*4e366538SXin Li                 "+r"(dst_width)  // %2
*4e366538SXin Li                 ::"memory",
*4e366538SXin Li                 "cc", "xmm0", "xmm1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBRowDown2_SSE2(const uint8_t* src_argb,
*4e366538SXin Li                            ptrdiff_t src_stride,
*4e366538SXin Li                            uint8_t* dst_argb,
*4e366538SXin Li                            int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "shufps      $0xdd,%%xmm1,%%xmm0           \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x4,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_argb),  // %0
*4e366538SXin Li                 "+r"(dst_argb),  // %1
*4e366538SXin Li                 "+r"(dst_width)  // %2
*4e366538SXin Li                 ::"memory",
*4e366538SXin Li                 "cc", "xmm0", "xmm1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBRowDown2Linear_SSE2(const uint8_t* src_argb,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint8_t* dst_argb,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "shufps      $0x88,%%xmm1,%%xmm0           \n"
*4e366538SXin Li      "shufps      $0xdd,%%xmm1,%%xmm2           \n"
*4e366538SXin Li      "pavgb       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x4,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_argb),  // %0
*4e366538SXin Li                 "+r"(dst_argb),  // %1
*4e366538SXin Li                 "+r"(dst_width)  // %2
*4e366538SXin Li                 ::"memory",
*4e366538SXin Li                 "cc", "xmm0", "xmm1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBRowDown2Box_SSE2(const uint8_t* src_argb,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               uint8_t* dst_argb,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"
*4e366538SXin Li      "movdqu      0x10(%0),%%xmm1               \n"
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm2          \n"
*4e366538SXin Li      "movdqu      0x10(%0,%3,1),%%xmm3          \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "pavgb       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "pavgb       %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "shufps      $0x88,%%xmm1,%%xmm0           \n"
*4e366538SXin Li      "shufps      $0xdd,%%xmm1,%%xmm2           \n"
*4e366538SXin Li      "pavgb       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "sub         $0x4,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li               : "+r"(src_argb),              // %0
*4e366538SXin Li                 "+r"(dst_argb),              // %1
*4e366538SXin Li                 "+r"(dst_width)              // %2
*4e366538SXin Li               : "r"((intptr_t)(src_stride))  // %3
*4e366538SXin Li               : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Reads 4 pixels at a time.
*4e366538SXin Li// Alignment requirement: dst_argb 16 byte aligned.
*4e366538SXin Livoid ScaleARGBRowDownEven_SSE2(const uint8_t* src_argb,
*4e366538SXin Li                               ptrdiff_t src_stride,
*4e366538SXin Li                               int src_stepx,
*4e366538SXin Li                               uint8_t* dst_argb,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  intptr_t src_stepx_x4 = (intptr_t)(src_stepx);
*4e366538SXin Li  intptr_t src_stepx_x12;
*4e366538SXin Li  (void)src_stride;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "lea         0x00(,%1,4),%1                \n"
*4e366538SXin Li      "lea         0x00(%1,%1,2),%4              \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movd        (%0),%%xmm0                   \n"
*4e366538SXin Li      "movd        0x00(%0,%1,1),%%xmm1          \n"
*4e366538SXin Li      "punpckldq   %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movd        0x00(%0,%1,2),%%xmm2          \n"
*4e366538SXin Li      "movd        0x00(%0,%4,1),%%xmm3          \n"
*4e366538SXin Li      "lea         0x00(%0,%1,4),%0              \n"
*4e366538SXin Li      "punpckldq   %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "punpcklqdq  %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%2)                   \n"
*4e366538SXin Li      "lea         0x10(%2),%2                   \n"
*4e366538SXin Li      "sub         $0x4,%3                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_argb),       // %0
*4e366538SXin Li        "+r"(src_stepx_x4),   // %1
*4e366538SXin Li        "+r"(dst_argb),       // %2
*4e366538SXin Li        "+r"(dst_width),      // %3
*4e366538SXin Li        "=&r"(src_stepx_x12)  // %4
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1", "xmm2", "xmm3");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Blends four 2x2 to 4x1.
*4e366538SXin Li// Alignment requirement: dst_argb 16 byte aligned.
*4e366538SXin Livoid ScaleARGBRowDownEvenBox_SSE2(const uint8_t* src_argb,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  int src_stepx,
*4e366538SXin Li                                  uint8_t* dst_argb,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  intptr_t src_stepx_x4 = (intptr_t)(src_stepx);
*4e366538SXin Li  intptr_t src_stepx_x12;
*4e366538SXin Li  intptr_t row1 = (intptr_t)(src_stride);
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "lea         0x00(,%1,4),%1                \n"
*4e366538SXin Li      "lea         0x00(%1,%1,2),%4              \n"
*4e366538SXin Li      "lea         0x00(%0,%5,1),%5              \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"
*4e366538SXin Li      "movhps      0x00(%0,%1,1),%%xmm0          \n"
*4e366538SXin Li      "movq        0x00(%0,%1,2),%%xmm1          \n"
*4e366538SXin Li      "movhps      0x00(%0,%4,1),%%xmm1          \n"
*4e366538SXin Li      "lea         0x00(%0,%1,4),%0              \n"
*4e366538SXin Li      "movq        (%5),%%xmm2                   \n"
*4e366538SXin Li      "movhps      0x00(%5,%1,1),%%xmm2          \n"
*4e366538SXin Li      "movq        0x00(%5,%1,2),%%xmm3          \n"
*4e366538SXin Li      "movhps      0x00(%5,%4,1),%%xmm3          \n"
*4e366538SXin Li      "lea         0x00(%5,%1,4),%5              \n"
*4e366538SXin Li      "pavgb       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "pavgb       %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "shufps      $0x88,%%xmm1,%%xmm0           \n"
*4e366538SXin Li      "shufps      $0xdd,%%xmm1,%%xmm2           \n"
*4e366538SXin Li      "pavgb       %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%2)                   \n"
*4e366538SXin Li      "lea         0x10(%2),%2                   \n"
*4e366538SXin Li      "sub         $0x4,%3                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_argb),        // %0
*4e366538SXin Li        "+r"(src_stepx_x4),    // %1
*4e366538SXin Li        "+r"(dst_argb),        // %2
*4e366538SXin Li        "+rm"(dst_width),      // %3
*4e366538SXin Li        "=&r"(src_stepx_x12),  // %4
*4e366538SXin Li        "+r"(row1)             // %5
*4e366538SXin Li        ::"memory",
*4e366538SXin Li        "cc", "xmm0", "xmm1", "xmm2", "xmm3");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Livoid ScaleARGBCols_SSE2(uint8_t* dst_argb,
*4e366538SXin Li                        const uint8_t* src_argb,
*4e366538SXin Li                        int dst_width,
*4e366538SXin Li                        int x,
*4e366538SXin Li                        int dx) {
*4e366538SXin Li  intptr_t x0, x1;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movd        %5,%%xmm2                     \n"
*4e366538SXin Li      "movd        %6,%%xmm3                     \n"
*4e366538SXin Li      "pshufd      $0x0,%%xmm2,%%xmm2            \n"
*4e366538SXin Li      "pshufd      $0x11,%%xmm3,%%xmm0           \n"
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "pshufd      $0x5,%%xmm3,%%xmm0            \n"
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "pshufd      $0x0,%%xmm3,%%xmm3            \n"
*4e366538SXin Li      "pextrw      $0x1,%%xmm2,%k0               \n"
*4e366538SXin Li      "pextrw      $0x3,%%xmm2,%k1               \n"
*4e366538SXin Li      "cmp         $0x0,%4                       \n"
*4e366538SXin Li      "jl          99f                           \n"
*4e366538SXin Li      "sub         $0x4,%4                       \n"
*4e366538SXin Li      "jl          49f                           \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "40:                                       \n"
*4e366538SXin Li      "movd        0x00(%3,%0,4),%%xmm0          \n"
*4e366538SXin Li      "movd        0x00(%3,%1,4),%%xmm1          \n"
*4e366538SXin Li      "pextrw      $0x5,%%xmm2,%k0               \n"
*4e366538SXin Li      "pextrw      $0x7,%%xmm2,%k1               \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "punpckldq   %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movd        0x00(%3,%0,4),%%xmm1          \n"
*4e366538SXin Li      "movd        0x00(%3,%1,4),%%xmm4          \n"
*4e366538SXin Li      "pextrw      $0x1,%%xmm2,%k0               \n"
*4e366538SXin Li      "pextrw      $0x3,%%xmm2,%k1               \n"
*4e366538SXin Li      "punpckldq   %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "punpcklqdq  %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%2)                   \n"
*4e366538SXin Li      "lea         0x10(%2),%2                   \n"
*4e366538SXin Li      "sub         $0x4,%4                       \n"
*4e366538SXin Li      "jge         40b                           \n"
*4e366538SXin Li
*4e366538SXin Li      "49:                                       \n"
*4e366538SXin Li      "test        $0x2,%4                       \n"
*4e366538SXin Li      "je          29f                           \n"
*4e366538SXin Li      "movd        0x00(%3,%0,4),%%xmm0          \n"
*4e366538SXin Li      "movd        0x00(%3,%1,4),%%xmm1          \n"
*4e366538SXin Li      "pextrw      $0x5,%%xmm2,%k0               \n"
*4e366538SXin Li      "punpckldq   %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movq        %%xmm0,(%2)                   \n"
*4e366538SXin Li      "lea         0x8(%2),%2                    \n"
*4e366538SXin Li      "29:                                       \n"
*4e366538SXin Li      "test        $0x1,%4                       \n"
*4e366538SXin Li      "je          99f                           \n"
*4e366538SXin Li      "movd        0x00(%3,%0,4),%%xmm0          \n"
*4e366538SXin Li      "movd        %%xmm0,(%2)                   \n"
*4e366538SXin Li      "99:                                       \n"
*4e366538SXin Li      : "=&a"(x0),       // %0
*4e366538SXin Li        "=&d"(x1),       // %1
*4e366538SXin Li        "+r"(dst_argb),  // %2
*4e366538SXin Li        "+r"(src_argb),  // %3
*4e366538SXin Li        "+r"(dst_width)  // %4
*4e366538SXin Li      : "rm"(x),         // %5
*4e366538SXin Li        "rm"(dx)         // %6
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Reads 4 pixels, duplicates them and writes 8 pixels.
*4e366538SXin Li// Alignment requirement: src_argb 16 byte aligned, dst_argb 16 byte aligned.
*4e366538SXin Livoid ScaleARGBColsUp2_SSE2(uint8_t* dst_argb,
*4e366538SXin Li                           const uint8_t* src_argb,
*4e366538SXin Li                           int dst_width,
*4e366538SXin Li                           int x,
*4e366538SXin Li                           int dx) {
*4e366538SXin Li  (void)x;
*4e366538SXin Li  (void)dx;
*4e366538SXin Li  asm volatile(LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%1),%%xmm0                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm1                 \n"
*4e366538SXin Li      "punpckldq   %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm1,%%xmm1                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%0)                   \n"
*4e366538SXin Li      "movdqu      %%xmm1,0x10(%0)               \n"
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li
*4e366538SXin Li               : "+r"(dst_argb),  // %0
*4e366538SXin Li                 "+r"(src_argb),  // %1
*4e366538SXin Li                 "+r"(dst_width)  // %2
*4e366538SXin Li                 ::"memory",
*4e366538SXin Li                 "cc", "xmm0", "xmm1");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Shuffle table for arranging 2 pixels into pairs for pmaddubsw
*4e366538SXin Listatic const uvec8 kShuffleColARGB = {
*4e366538SXin Li    0u, 4u,  1u, 5u,  2u,  6u,  3u,  7u,  // bbggrraa 1st pixel
*4e366538SXin Li    8u, 12u, 9u, 13u, 10u, 14u, 11u, 15u  // bbggrraa 2nd pixel
*4e366538SXin Li};
*4e366538SXin Li
*4e366538SXin Li// Shuffle table for duplicating 2 fractions into 8 bytes each
*4e366538SXin Listatic const uvec8 kShuffleFractions = {
*4e366538SXin Li    0u, 0u, 0u, 0u, 0u, 0u, 0u, 0u, 4u, 4u, 4u, 4u, 4u, 4u, 4u, 4u,
*4e366538SXin Li};
*4e366538SXin Li
*4e366538SXin Li// Bilinear row filtering combines 4x2 -> 4x1. SSSE3 version
*4e366538SXin Livoid ScaleARGBFilterCols_SSSE3(uint8_t* dst_argb,
*4e366538SXin Li                               const uint8_t* src_argb,
*4e366538SXin Li                               int dst_width,
*4e366538SXin Li                               int x,
*4e366538SXin Li                               int dx) {
*4e366538SXin Li  intptr_t x0, x1;
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movdqa      %0,%%xmm4                     \n"
*4e366538SXin Li      "movdqa      %1,%%xmm5                     \n"
*4e366538SXin Li      :
*4e366538SXin Li      : "m"(kShuffleColARGB),   // %0
*4e366538SXin Li        "m"(kShuffleFractions)  // %1
*4e366538SXin Li  );
*4e366538SXin Li
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "movd        %5,%%xmm2                     \n"
*4e366538SXin Li      "movd        %6,%%xmm3                     \n"
*4e366538SXin Li      "pcmpeqb     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $0x9,%%xmm6                   \n"
*4e366538SXin Li      "pextrw      $0x1,%%xmm2,%k3               \n"
*4e366538SXin Li      "sub         $0x2,%2                       \n"
*4e366538SXin Li      "jl          29f                           \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm0                 \n"
*4e366538SXin Li      "punpckldq   %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckldq   %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm3                 \n"
*4e366538SXin Li      "pextrw      $0x3,%%xmm2,%k4               \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "2:                                        \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm1                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "movq        0x00(%1,%3,4),%%xmm0          \n"
*4e366538SXin Li      "psrlw       $0x9,%%xmm1                   \n"
*4e366538SXin Li      "movhps      0x00(%1,%4,4),%%xmm0          \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm1                 \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "pxor        %%xmm6,%%xmm1                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "psrlw       $0x7,%%xmm0                   \n"
*4e366538SXin Li      "pextrw      $0x1,%%xmm2,%k3               \n"
*4e366538SXin Li      "pextrw      $0x3,%%xmm2,%k4               \n"
*4e366538SXin Li      "packuswb    %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "movq        %%xmm0,(%0)                   \n"
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "sub         $0x2,%2                       \n"
*4e366538SXin Li      "jge         2b                            \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "29:                                       \n"
*4e366538SXin Li      "add         $0x1,%2                       \n"
*4e366538SXin Li      "jl          99f                           \n"
*4e366538SXin Li      "psrlw       $0x9,%%xmm2                   \n"
*4e366538SXin Li      "movq        0x00(%1,%3,4),%%xmm0          \n"
*4e366538SXin Li      "pshufb      %%xmm5,%%xmm2                 \n"
*4e366538SXin Li      "pshufb      %%xmm4,%%xmm0                 \n"
*4e366538SXin Li      "pxor        %%xmm6,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "psrlw       $0x7,%%xmm0                   \n"
*4e366538SXin Li      "packuswb    %%xmm0,%%xmm0                 \n"
*4e366538SXin Li      "movd        %%xmm0,(%0)                   \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "99:                                       \n"  // clang-format error.
*4e366538SXin Li
*4e366538SXin Li      : "+r"(dst_argb),    // %0
*4e366538SXin Li        "+r"(src_argb),    // %1
*4e366538SXin Li        "+rm"(dst_width),  // %2
*4e366538SXin Li        "=&r"(x0),         // %3
*4e366538SXin Li        "=&r"(x1)          // %4
*4e366538SXin Li      : "rm"(x),           // %5
*4e366538SXin Li        "rm"(dx)           // %6
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6");
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Divide num by div and return as 16.16 fixed point result.
*4e366538SXin Liint FixedDiv_X86(int num, int div) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "cdq                                       \n"
*4e366538SXin Li      "shld        $0x10,%%eax,%%edx             \n"
*4e366538SXin Li      "shl         $0x10,%%eax                   \n"
*4e366538SXin Li      "idiv        %1                            \n"
*4e366538SXin Li      "mov         %0, %%eax                     \n"
*4e366538SXin Li      : "+a"(num)  // %0
*4e366538SXin Li      : "c"(div)   // %1
*4e366538SXin Li      : "memory", "cc", "edx");
*4e366538SXin Li  return num;
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li// Divide num - 1 by div - 1 and return as 16.16 fixed point result.
*4e366538SXin Liint FixedDiv1_X86(int num, int div) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "cdq                                       \n"
*4e366538SXin Li      "shld        $0x10,%%eax,%%edx             \n"
*4e366538SXin Li      "shl         $0x10,%%eax                   \n"
*4e366538SXin Li      "sub         $0x10001,%%eax                \n"
*4e366538SXin Li      "sbb         $0x0,%%edx                    \n"
*4e366538SXin Li      "sub         $0x1,%1                       \n"
*4e366538SXin Li      "idiv        %1                            \n"
*4e366538SXin Li      "mov         %0, %%eax                     \n"
*4e366538SXin Li      : "+a"(num)  // %0
*4e366538SXin Li      : "c"(div)   // %1
*4e366538SXin Li      : "memory", "cc", "edx");
*4e366538SXin Li  return num;
*4e366538SXin Li}
*4e366538SXin Li
*4e366538SXin Li#if defined(HAS_SCALEUVROWDOWN2BOX_SSSE3) || \
*4e366538SXin Li    defined(HAS_SCALEUVROWDOWN2BOX_AVX2)
*4e366538SXin Li
*4e366538SXin Li// Shuffle table for splitting UV into upper and lower part of register.
*4e366538SXin Listatic const uvec8 kShuffleSplitUV = {0u, 2u, 4u, 6u, 8u, 10u, 12u, 14u,
*4e366538SXin Li                                      1u, 3u, 5u, 7u, 9u, 11u, 13u, 15u};
*4e366538SXin Listatic const uvec8 kShuffleMergeUV = {0u,   8u,   2u,   10u,  4u,   12u,
*4e366538SXin Li                                      6u,   14u,  0x80, 0x80, 0x80, 0x80,
*4e366538SXin Li                                      0x80, 0x80, 0x80, 0x80};
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWDOWN2BOX_SSSE3
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowDown2Box_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                              ptrdiff_t src_stride,
*4e366538SXin Li                              uint8_t* dst_ptr,
*4e366538SXin Li                              int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqb     %%xmm4,%%xmm4                 \n"  // 01010101
*4e366538SXin Li      "psrlw       $0xf,%%xmm4                   \n"
*4e366538SXin Li      "packuswb    %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "pxor        %%xmm5, %%xmm5                \n"  // zero
*4e366538SXin Li      "movdqa      %4,%%xmm1                     \n"  // split shuffler
*4e366538SXin Li      "movdqa      %5,%%xmm3                     \n"  // merge shuffler
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movdqu      (%0),%%xmm0                   \n"  // 8 UV row 0
*4e366538SXin Li      "movdqu      0x00(%0,%3,1),%%xmm2          \n"  // 8 UV row 1
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "pshufb      %%xmm1,%%xmm0                 \n"  // uuuuvvvv
*4e366538SXin Li      "pshufb      %%xmm1,%%xmm2                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm0                 \n"  // horizontal add
*4e366538SXin Li      "pmaddubsw   %%xmm4,%%xmm2                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"  // vertical add
*4e366538SXin Li      "psrlw       $0x1,%%xmm0                   \n"  // round
*4e366538SXin Li      "pavgw       %%xmm5,%%xmm0                 \n"
*4e366538SXin Li      "pshufb      %%xmm3,%%xmm0                 \n"  // merge uv
*4e366538SXin Li      "movq        %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x8(%1),%1                    \n"  // 4 UV
*4e366538SXin Li      "sub         $0x4,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "m"(kShuffleSplitUV),         // %4
*4e366538SXin Li        "m"(kShuffleMergeUV)          // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif  // HAS_SCALEUVROWDOWN2BOX_SSSE3
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWDOWN2BOX_AVX2
*4e366538SXin Livoid ScaleUVRowDown2Box_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                             ptrdiff_t src_stride,
*4e366538SXin Li                             uint8_t* dst_ptr,
*4e366538SXin Li                             int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqb    %%ymm4,%%ymm4,%%ymm4          \n"  // 01010101
*4e366538SXin Li      "vpsrlw      $0xf,%%ymm4,%%ymm4            \n"
*4e366538SXin Li      "vpackuswb   %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpxor       %%ymm5,%%ymm5,%%ymm5          \n"  // zero
*4e366538SXin Li      "vbroadcastf128 %4,%%ymm1                  \n"  // split shuffler
*4e366538SXin Li      "vbroadcastf128 %5,%%ymm3                  \n"  // merge shuffler
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%ymm0                   \n"  // 16 UV row 0
*4e366538SXin Li      "vmovdqu     0x00(%0,%3,1),%%ymm2          \n"  // 16 UV row 1
*4e366538SXin Li      "lea         0x20(%0),%0                   \n"
*4e366538SXin Li      "vpshufb     %%ymm1,%%ymm0,%%ymm0          \n"  // uuuuvvvv
*4e366538SXin Li      "vpshufb     %%ymm1,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm0,%%ymm0          \n"  // horizontal add
*4e366538SXin Li      "vpmaddubsw  %%ymm4,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm0,%%ymm0          \n"  // vertical add
*4e366538SXin Li      "vpsrlw      $0x1,%%ymm0,%%ymm0            \n"  // round
*4e366538SXin Li      "vpavgw      %%ymm5,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpshufb     %%ymm3,%%ymm0,%%ymm0          \n"  // merge uv
*4e366538SXin Li      "vpermq      $0xd8,%%ymm0,%%ymm0           \n"  // combine qwords
*4e366538SXin Li      "vmovdqu     %%xmm0,(%1)                   \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 8 UV
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "m"(kShuffleSplitUV),         // %4
*4e366538SXin Li        "m"(kShuffleMergeUV)          // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif  // HAS_SCALEUVROWDOWN2BOX_AVX2
*4e366538SXin Li
*4e366538SXin Listatic const uvec8 kUVLinearMadd31 = {3, 1, 3, 1, 1, 3, 1, 3,
*4e366538SXin Li                                      3, 1, 3, 1, 1, 3, 1, 3};
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_LINEAR_SSSE3
*4e366538SXin Livoid ScaleUVRowUp2_Linear_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                uint8_t* dst_ptr,
*4e366538SXin Li                                int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqw     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm4                    \n"
*4e366538SXin Li      "psllw       $1,%%xmm4                     \n"  // all 2
*4e366538SXin Li      "movdqa      %3,%%xmm3                     \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 00112233 (1u1v)
*4e366538SXin Li      "movq        2(%0),%%xmm1                  \n"  // 11223344 (1u1v)
*4e366538SXin Li      "punpcklbw   %%xmm1,%%xmm0                 \n"  // 0101121223233434 (2u2v)
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm0,%%xmm2                 \n"  // 2323232334343434 (2u2v)
*4e366538SXin Li      "punpckldq   %%xmm0,%%xmm0                 \n"  // 0101010112121212 (2u2v)
*4e366538SXin Li      "pmaddubsw   %%xmm3,%%xmm2                 \n"  // 3*near+far (1u1v16, hi)
*4e366538SXin Li      "pmaddubsw   %%xmm3,%%xmm0                 \n"  // 3*near+far (1u1v16, lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm0                 \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "paddw       %%xmm4,%%xmm2                 \n"  // 3*near+far+2 (hi)
*4e366538SXin Li      "psrlw       $2,%%xmm0                     \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "psrlw       $2,%%xmm2                     \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "packuswb    %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 4 uv to 8 uv
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),        // %0
*4e366538SXin Li        "+r"(dst_ptr),        // %1
*4e366538SXin Li        "+r"(dst_width)       // %2
*4e366538SXin Li      : "m"(kUVLinearMadd31)  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_BILINEAR_SSSE3
*4e366538SXin Livoid ScaleUVRowUp2_Bilinear_SSSE3(const uint8_t* src_ptr,
*4e366538SXin Li                                  ptrdiff_t src_stride,
*4e366538SXin Li                                  uint8_t* dst_ptr,
*4e366538SXin Li                                  ptrdiff_t dst_stride,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pcmpeqw     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrlw       $15,%%xmm6                    \n"
*4e366538SXin Li      "psllw       $3,%%xmm6                     \n"  // all 8
*4e366538SXin Li      "movdqa      %5,%%xmm7                     \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 00112233 (1u1v)
*4e366538SXin Li      "movq        2(%0),%%xmm1                  \n"  // 11223344 (1u1v)
*4e366538SXin Li      "punpcklbw   %%xmm1,%%xmm0                 \n"  // 0101121223233434 (2u2v)
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm0,%%xmm2                 \n"  // 2323232334343434 (2u2v)
*4e366538SXin Li      "punpckldq   %%xmm0,%%xmm0                 \n"  // 0101010112121212 (2u2v)
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm2                 \n"  // 3*near+far (1u1v16, hi)
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm0                 \n"  // 3*near+far (1u1v16, lo)
*4e366538SXin Li
*4e366538SXin Li      "movq        (%0,%3),%%xmm1                \n"
*4e366538SXin Li      "movq        2(%0,%3),%%xmm4               \n"
*4e366538SXin Li      "punpcklbw   %%xmm4,%%xmm1                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "punpckhdq   %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "punpckldq   %%xmm1,%%xmm1                 \n"
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm3                 \n"  // 3*near+far (2, hi)
*4e366538SXin Li      "pmaddubsw   %%xmm7,%%xmm1                 \n"  // 3*near+far (2, lo)
*4e366538SXin Li
*4e366538SXin Li      // xmm0 xmm2
*4e366538SXin Li      // xmm1 xmm3
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm0,%%xmm4                 \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm5                 \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm4                 \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "paddw       %%xmm5,%%xmm4                 \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm4                     \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "paddw       %%xmm1,%%xmm5                 \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm0                 \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm5                 \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "paddw       %%xmm0,%%xmm5                 \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "psrlw       $4,%%xmm5                     \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm0                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm1                 \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm0                 \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "paddw       %%xmm1,%%xmm0                 \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm0                     \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm1                 \n"
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm6,%%xmm2                 \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "paddw       %%xmm3,%%xmm1                 \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "paddw       %%xmm2,%%xmm1                 \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "psrlw       $4,%%xmm1                     \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "packuswb    %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqu      %%xmm4,(%1)                   \n"  // store above
*4e366538SXin Li      "packuswb    %%xmm1,%%xmm5                 \n"
*4e366538SXin Li      "movdqu      %%xmm5,(%1,%4)                \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 4 uv to 8 uv
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride)),  // %4
*4e366538SXin Li        "m"(kUVLinearMadd31)          // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_LINEAR_AVX2
*4e366538SXin Li
*4e366538SXin Livoid ScaleUVRowUp2_Linear_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                               uint8_t* dst_ptr,
*4e366538SXin Li                               int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqw    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrlw      $15,%%ymm4,%%ymm4             \n"
*4e366538SXin Li      "vpsllw      $1,%%ymm4,%%ymm4              \n"  // all 2
*4e366538SXin Li      "vbroadcastf128 %3,%%ymm3                  \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"
*4e366538SXin Li      "vmovdqu     2(%0),%%xmm1                  \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"
*4e366538SXin Li      "vpunpcklbw  %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpunpckhdq  %%ymm0,%%ymm0,%%ymm2          \n"
*4e366538SXin Li      "vpunpckldq  %%ymm0,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm3,%%ymm2,%%ymm1          \n"  // 3*near+far (hi)
*4e366538SXin Li      "vpmaddubsw  %%ymm3,%%ymm0,%%ymm0          \n"  // 3*near+far (lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm0,%%ymm0          \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm1,%%ymm1          \n"  // 3*near+far+2 (hi)
*4e366538SXin Li      "vpsrlw      $2,%%ymm0,%%ymm0              \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "vpsrlw      $2,%%ymm1,%%ymm1              \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "vpackuswb   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 uv to 16 uv
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),        // %0
*4e366538SXin Li        "+r"(dst_ptr),        // %1
*4e366538SXin Li        "+r"(dst_width)       // %2
*4e366538SXin Li      : "m"(kUVLinearMadd31)  // %3
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_BILINEAR_AVX2
*4e366538SXin Livoid ScaleUVRowUp2_Bilinear_AVX2(const uint8_t* src_ptr,
*4e366538SXin Li                                 ptrdiff_t src_stride,
*4e366538SXin Li                                 uint8_t* dst_ptr,
*4e366538SXin Li                                 ptrdiff_t dst_stride,
*4e366538SXin Li                                 int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqw    %%ymm6,%%ymm6,%%ymm6          \n"
*4e366538SXin Li      "vpsrlw      $15,%%ymm6,%%ymm6             \n"
*4e366538SXin Li      "vpsllw      $3,%%ymm6,%%ymm6              \n"  // all 8
*4e366538SXin Li      "vbroadcastf128 %5,%%ymm7                  \n"
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"
*4e366538SXin Li      "vmovdqu     2(%0),%%xmm1                  \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm0,%%ymm0     \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm1,%%ymm1     \n"
*4e366538SXin Li      "vpunpcklbw  %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpunpckhdq  %%ymm0,%%ymm0,%%ymm2          \n"
*4e366538SXin Li      "vpunpckldq  %%ymm0,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm2,%%ymm1          \n"  // 3*near+far (1, hi)
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm0,%%ymm0          \n"  // 3*near+far (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0,%3),%%xmm2                \n"  // 0123456789ABCDEF
*4e366538SXin Li      "vmovdqu     2(%0,%3),%%xmm3               \n"  // 123456789ABCDEF0
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm2,%%ymm2     \n"
*4e366538SXin Li      "vpermq      $0b11011000,%%ymm3,%%ymm3     \n"
*4e366538SXin Li      "vpunpcklbw  %%ymm3,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpunpckhdq  %%ymm2,%%ymm2,%%ymm4          \n"
*4e366538SXin Li      "vpunpckldq  %%ymm2,%%ymm2,%%ymm2          \n"
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm4,%%ymm3          \n"  // 3*near+far (2, hi)
*4e366538SXin Li      "vpmaddubsw  %%ymm7,%%ymm2,%%ymm2          \n"  // 3*near+far (2, lo)
*4e366538SXin Li
*4e366538SXin Li      // ymm0 ymm1
*4e366538SXin Li      // ymm2 ymm3
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm0,%%ymm4          \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm2,%%ymm5          \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm0,%%ymm4          \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "vpaddw      %%ymm4,%%ymm5,%%ymm4          \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "vpsrlw      $4,%%ymm4,%%ymm4              \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm2,%%ymm5          \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm0,%%ymm0          \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "vpaddw      %%ymm5,%%ymm2,%%ymm5          \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "vpaddw      %%ymm5,%%ymm0,%%ymm5          \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "vpsrlw      $4,%%ymm5,%%ymm5              \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm1,%%ymm1,%%ymm0          \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm3,%%ymm2          \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm1,%%ymm0          \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "vpaddw      %%ymm0,%%ymm2,%%ymm0          \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "vpsrlw      $4,%%ymm0,%%ymm0              \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpaddw      %%ymm3,%%ymm3,%%ymm2          \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "vpaddw      %%ymm6,%%ymm1,%%ymm1          \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm3,%%ymm2          \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "vpaddw      %%ymm2,%%ymm1,%%ymm2          \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "vpsrlw      $4,%%ymm2,%%ymm2              \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpackuswb   %%ymm0,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vmovdqu     %%ymm4,(%1)                   \n"  // store above
*4e366538SXin Li      "vpackuswb   %%ymm2,%%ymm5,%%ymm5          \n"
*4e366538SXin Li      "vmovdqu     %%ymm5,(%1,%4)                \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 8 uv to 16 uv
*4e366538SXin Li      "sub         $0x10,%2                      \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride)),  // %4
*4e366538SXin Li        "m"(kUVLinearMadd31)          // %5
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_LINEAR_16_SSE41
*4e366538SXin Livoid ScaleUVRowUp2_Linear_16_SSE41(const uint16_t* src_ptr,
*4e366538SXin Li                                   uint16_t* dst_ptr,
*4e366538SXin Li                                   int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pxor        %%xmm5,%%xmm5                 \n"
*4e366538SXin Li      "pcmpeqd     %%xmm4,%%xmm4                 \n"
*4e366538SXin Li      "psrld       $31,%%xmm4                    \n"
*4e366538SXin Li      "pslld       $1,%%xmm4                     \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 0011 (16b, 1u1v)
*4e366538SXin Li      "movq        4(%0),%%xmm1                  \n"  // 1122 (16b, 1u1v)
*4e366538SXin Li
*4e366538SXin Li      "punpcklwd   %%xmm5,%%xmm0                 \n"  // 0011 (32b, 1u1v)
*4e366538SXin Li      "punpcklwd   %%xmm5,%%xmm1                 \n"  // 1122 (32b, 1u1v)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm2,%%xmm2     \n"  // 1100 (lo, far)
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm3,%%xmm3     \n"  // 2211 (hi, far)
*4e366538SXin Li
*4e366538SXin Li      "paddd       %%xmm4,%%xmm2                 \n"  // far+2 (lo)
*4e366538SXin Li      "paddd       %%xmm4,%%xmm3                 \n"  // far+2 (hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"  // near+far+2 (lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm3                 \n"  // near+far+2 (hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm0                 \n"  // 2*near (lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm1                 \n"  // 2*near (hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm1                 \n"  // 3*near+far+2 (hi)
*4e366538SXin Li
*4e366538SXin Li      "psrld       $2,%%xmm0                     \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "psrld       $2,%%xmm1                     \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "packusdw    %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqu      %%xmm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 2 uv to 4 uv
*4e366538SXin Li      "sub         $0x4,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_BILINEAR_16_SSE41
*4e366538SXin Livoid ScaleUVRowUp2_Bilinear_16_SSE41(const uint16_t* src_ptr,
*4e366538SXin Li                                     ptrdiff_t src_stride,
*4e366538SXin Li                                     uint16_t* dst_ptr,
*4e366538SXin Li                                     ptrdiff_t dst_stride,
*4e366538SXin Li                                     int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "pxor        %%xmm7,%%xmm7                 \n"
*4e366538SXin Li      "pcmpeqd     %%xmm6,%%xmm6                 \n"
*4e366538SXin Li      "psrld       $31,%%xmm6                    \n"
*4e366538SXin Li      "pslld       $3,%%xmm6                     \n"  // all 8
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "movq        (%0),%%xmm0                   \n"  // 0011 (16b, 1u1v)
*4e366538SXin Li      "movq        4(%0),%%xmm1                  \n"  // 1122 (16b, 1u1v)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm0                 \n"  // 0011 (near) (32b, 1u1v)
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm1                 \n"  // 1122 (near) (32b, 1u1v)
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm2                 \n"
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm3                 \n"
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm2,%%xmm2     \n"  // 1100 (far) (1, lo)
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm3,%%xmm3     \n"  // 2211 (far) (1, hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm2                 \n"  // near+far (1, lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm3                 \n"  // near+far (1, hi)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm0                 \n"  // 2*near (1, lo)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm1                 \n"  // 2*near (1, hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 3*near+far (1, lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm1                 \n"  // 3*near+far (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movq        (%0,%3,2),%%xmm2              \n"
*4e366538SXin Li      "movq        4(%0,%3,2),%%xmm3             \n"
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm2                 \n"
*4e366538SXin Li      "punpcklwd   %%xmm7,%%xmm3                 \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm5                 \n"
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm4,%%xmm4     \n"  // 1100 (far) (2, lo)
*4e366538SXin Li      "pshufd      $0b01001110,%%xmm5,%%xmm5     \n"  // 2211 (far) (2, hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm4                 \n"  // near+far (2, lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm5                 \n"  // near+far (2, hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm2                 \n"  // 2*near (2, lo)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm3                 \n"  // 2*near (2, hi)
*4e366538SXin Li      "paddd       %%xmm4,%%xmm2                 \n"  // 3*near+far (2, lo)
*4e366538SXin Li      "paddd       %%xmm5,%%xmm3                 \n"  // 3*near+far (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "paddd       %%xmm0,%%xmm4                 \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm5                 \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm4                 \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "paddd       %%xmm5,%%xmm4                 \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "psrld       $4,%%xmm4                     \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "paddd       %%xmm2,%%xmm5                 \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm0                 \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm5                 \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "paddd       %%xmm0,%%xmm5                 \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "psrld       $4,%%xmm5                     \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm1,%%xmm0                 \n"
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "paddd       %%xmm1,%%xmm0                 \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm2                 \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm0                 \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "paddd       %%xmm2,%%xmm0                 \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "psrld       $4,%%xmm0                     \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "movdqa      %%xmm3,%%xmm2                 \n"
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "paddd       %%xmm6,%%xmm1                 \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "paddd       %%xmm3,%%xmm2                 \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "paddd       %%xmm1,%%xmm2                 \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "psrld       $4,%%xmm2                     \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "packusdw    %%xmm0,%%xmm4                 \n"
*4e366538SXin Li      "movdqu      %%xmm4,(%1)                   \n"  // store above
*4e366538SXin Li      "packusdw    %%xmm2,%%xmm5                 \n"
*4e366538SXin Li      "movdqu      %%xmm5,(%1,%4,2)              \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x8(%0),%0                    \n"
*4e366538SXin Li      "lea         0x10(%1),%1                   \n"  // 2 uv to 4 uv
*4e366538SXin Li      "sub         $0x4,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride))   // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6",
*4e366538SXin Li        "xmm7");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_LINEAR_16_AVX2
*4e366538SXin Livoid ScaleUVRowUp2_Linear_16_AVX2(const uint16_t* src_ptr,
*4e366538SXin Li                                  uint16_t* dst_ptr,
*4e366538SXin Li                                  int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqd    %%ymm4,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vpsrld      $31,%%ymm4,%%ymm4             \n"
*4e366538SXin Li      "vpslld      $1,%%ymm4,%%ymm4              \n"  // all 2
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 00112233 (16b, 1u1v)
*4e366538SXin Li      "vmovdqu     4(%0),%%xmm1                  \n"  // 11223344 (16b, 1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vpmovzxwd   %%xmm0,%%ymm0                 \n"  // 01234567 (32b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm1,%%ymm1                 \n"  // 12345678 (32b, 1u1v)
*4e366538SXin Li
*4e366538SXin Li      "vpshufd     $0b01001110,%%ymm0,%%ymm2     \n"  // 11003322 (lo, far)
*4e366538SXin Li      "vpshufd     $0b01001110,%%ymm1,%%ymm3     \n"  // 22114433 (hi, far)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm2,%%ymm2          \n"  // far+2 (lo)
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm3,%%ymm3          \n"  // far+2 (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm2          \n"  // near+far+2 (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm3          \n"  // near+far+2 (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm1,%%ymm1          \n"  // 2*near (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm0          \n"  // 3*near+far+2 (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm1          \n"  // 3*near+far+2 (hi)
*4e366538SXin Li
*4e366538SXin Li      "vpsrld      $2,%%ymm0,%%ymm0              \n"  // 3/4*near+1/4*far (lo)
*4e366538SXin Li      "vpsrld      $2,%%ymm1,%%ymm1              \n"  // 3/4*near+1/4*far (hi)
*4e366538SXin Li      "vpackusdw   %%ymm1,%%ymm0,%%ymm0          \n"
*4e366538SXin Li      "vmovdqu     %%ymm0,(%1)                   \n"
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 4 uv to 8 uv
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),   // %0
*4e366538SXin Li        "+r"(dst_ptr),   // %1
*4e366538SXin Li        "+r"(dst_width)  // %2
*4e366538SXin Li      :
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#ifdef HAS_SCALEUVROWUP2_BILINEAR_16_AVX2
*4e366538SXin Livoid ScaleUVRowUp2_Bilinear_16_AVX2(const uint16_t* src_ptr,
*4e366538SXin Li                                    ptrdiff_t src_stride,
*4e366538SXin Li                                    uint16_t* dst_ptr,
*4e366538SXin Li                                    ptrdiff_t dst_stride,
*4e366538SXin Li                                    int dst_width) {
*4e366538SXin Li  asm volatile(
*4e366538SXin Li      "vpcmpeqd    %%ymm6,%%ymm6,%%ymm6          \n"
*4e366538SXin Li      "vpsrld      $31,%%ymm6,%%ymm6             \n"
*4e366538SXin Li      "vpslld      $3,%%ymm6,%%ymm6              \n"  // all 8
*4e366538SXin Li
*4e366538SXin Li      LABELALIGN
*4e366538SXin Li      "1:                                        \n"
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0),%%xmm0                   \n"  // 00112233 (16b, 1u1v)
*4e366538SXin Li      "vmovdqu     4(%0),%%xmm1                  \n"  // 11223344 (16b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm0,%%ymm0                 \n"  // 01234567 (32b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm1,%%ymm1                 \n"  // 12345678 (32b, 1u1v)
*4e366538SXin Li      "vpshufd     $0b01001110,%%ymm0,%%ymm2     \n"  // 11003322 (lo, far)
*4e366538SXin Li      "vpshufd     $0b01001110,%%ymm1,%%ymm3     \n"  // 22114433 (hi, far)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm2          \n"  // near+far (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm3          \n"  // near+far (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm0,%%ymm0          \n"  // 2*near (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm1,%%ymm1          \n"  // 2*near (hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm0          \n"  // 3*near+far (lo)
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm3,%%ymm1          \n"  // 3*near+far (hi)
*4e366538SXin Li
*4e366538SXin Li      "vmovdqu     (%0,%3,2),%%xmm2              \n"  // 00112233 (16b, 1u1v)
*4e366538SXin Li      "vmovdqu     4(%0,%3,2),%%xmm3             \n"  // 11223344 (16b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm2,%%ymm2                 \n"  // 01234567 (32b, 1u1v)
*4e366538SXin Li      "vpmovzxwd   %%xmm3,%%ymm3                 \n"  // 12345678 (32b, 1u1v)
*4e366538SXin Li      "vpshufd     $0b01001110,%%ymm2,%%ymm4     \n"  // 11003322 (lo, far)
*4e366538SXin Li      "vpshufd     $0b01001110,%%ymm3,%%ymm5     \n"  // 22114433 (hi, far)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm4,%%ymm4          \n"  // near+far (lo)
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm5,%%ymm5          \n"  // near+far (hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm2,%%ymm2          \n"  // 2*near (lo)
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm3,%%ymm3          \n"  // 2*near (hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm4,%%ymm2          \n"  // 3*near+far (lo)
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm5,%%ymm3          \n"  // 3*near+far (hi)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm0,%%ymm4          \n"  // 6*near+2*far (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm2,%%ymm5          \n"  // 3*near+far+8 (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm0,%%ymm4          \n"  // 9*near+3*far (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm4,%%ymm5,%%ymm4          \n"  // 9 3 3 1 + 8 (1, lo)
*4e366538SXin Li      "vpsrld      $4,%%ymm4,%%ymm4              \n"  // ^ div by 16 (1, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm2,%%ymm5          \n"  // 6*near+2*far (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm0,%%ymm0          \n"  // 3*near+far+8 (1, lo)
*4e366538SXin Li      "vpaddd      %%ymm5,%%ymm2,%%ymm5          \n"  // 9*near+3*far (2, lo)
*4e366538SXin Li      "vpaddd      %%ymm5,%%ymm0,%%ymm5          \n"  // 9 3 3 1 + 8 (2, lo)
*4e366538SXin Li      "vpsrld      $4,%%ymm5,%%ymm5              \n"  // ^ div by 16 (2, lo)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm1,%%ymm1,%%ymm0          \n"  // 6*near+2*far (1, hi)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm3,%%ymm2          \n"  // 3*near+far+8 (2, hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm1,%%ymm0          \n"  // 9*near+3*far (1, hi)
*4e366538SXin Li      "vpaddd      %%ymm0,%%ymm2,%%ymm0          \n"  // 9 3 3 1 + 8 (1, hi)
*4e366538SXin Li      "vpsrld      $4,%%ymm0,%%ymm0              \n"  // ^ div by 16 (1, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpaddd      %%ymm3,%%ymm3,%%ymm2          \n"  // 6*near+2*far (2, hi)
*4e366538SXin Li      "vpaddd      %%ymm6,%%ymm1,%%ymm1          \n"  // 3*near+far+8 (1, hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm3,%%ymm2          \n"  // 9*near+3*far (2, hi)
*4e366538SXin Li      "vpaddd      %%ymm2,%%ymm1,%%ymm2          \n"  // 9 3 3 1 + 8 (2, hi)
*4e366538SXin Li      "vpsrld      $4,%%ymm2,%%ymm2              \n"  // ^ div by 16 (2, hi)
*4e366538SXin Li
*4e366538SXin Li      "vpackusdw   %%ymm0,%%ymm4,%%ymm4          \n"
*4e366538SXin Li      "vmovdqu     %%ymm4,(%1)                   \n"  // store above
*4e366538SXin Li      "vpackusdw   %%ymm2,%%ymm5,%%ymm5          \n"
*4e366538SXin Li      "vmovdqu     %%ymm5,(%1,%4,2)              \n"  // store below
*4e366538SXin Li
*4e366538SXin Li      "lea         0x10(%0),%0                   \n"
*4e366538SXin Li      "lea         0x20(%1),%1                   \n"  // 4 uv to 8 uv
*4e366538SXin Li      "sub         $0x8,%2                       \n"
*4e366538SXin Li      "jg          1b                            \n"
*4e366538SXin Li      "vzeroupper                                \n"
*4e366538SXin Li      : "+r"(src_ptr),                // %0
*4e366538SXin Li        "+r"(dst_ptr),                // %1
*4e366538SXin Li        "+r"(dst_width)               // %2
*4e366538SXin Li      : "r"((intptr_t)(src_stride)),  // %3
*4e366538SXin Li        "r"((intptr_t)(dst_stride))   // %4
*4e366538SXin Li      : "memory", "cc", "xmm0", "xmm1", "xmm2", "xmm3", "xmm4", "xmm5", "xmm6");
*4e366538SXin Li}
*4e366538SXin Li#endif
*4e366538SXin Li
*4e366538SXin Li#endif  // defined(__x86_64__) || defined(__i386__)
*4e366538SXin Li
*4e366538SXin Li#ifdef __cplusplus
*4e366538SXin Li}  // extern "C"
*4e366538SXin Li}  // namespace libyuv
*4e366538SXin Li#endif