src/x86/looprestoration_avx512.asm

; Copyright © 2021, VideoLAN and dav1d authors
; Copyright © 2021, Two Orioles, LLC
; All rights reserved.
;
; Redistribution and use in source and binary forms, with or without
; modification, are permitted provided that the following conditions are met:
;
; 1. Redistributions of source code must retain the above copyright notice, this
;    list of conditions and the following disclaimer.
;
; 2. Redistributions in binary form must reproduce the above copyright notice,
;    this list of conditions and the following disclaimer in the documentation
;    and/or other materials provided with the distribution.
;
; THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
; ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
; WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
; DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR
; ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
; (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
; ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
; (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
; SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

%include "config.asm"
%include "ext/x86/x86inc.asm"

%if ARCH_X86_64

SECTION_RODATA 32

wiener_shufA:  db  1,  2,  7,  6,  3,  4,  9,  8,  5,  6, 11, 10,  7,  8, 13, 12
wiener_shufB:  db  2,  3,  8,  7,  4,  5, 10,  9,  6,  7, 12, 11,  8,  9, 14, 13
wiener_shufC:  db  3,  4,  4,  5,  5,  6,  6,  7,  7,  8,  8,  9,  9, 10, 10, 11
wiener_shufD:  db  4,  5,  5,  6,  6,  7,  7,  8,  8,  9,  9, 10, 10, 11, 11, 12
wiener_perm32: db  1,  9,  3, 11,  5, 13,  7, 15, 33, 41, 35, 43, 37, 45, 39, 47
               db 17, 25, 19, 27, 21, 29, 23, 31, 49, 57, 51, 59, 53, 61, 55, 63
sgr_shuf:      db 128, 1, -1,  2,132,  3, -1,  4,136,  5, -1,  6,140,  7, -1,  8
               db 129, 9, -1, 10,133, 11, -1, 12,137, -1, -1, -1,141, -1,  0,128
sgr_mix_perm:  db  1,  3,  5,  7, 17, 19, 21, 23, 33, 35, 37, 39, 49, 51, 53, 55
r_ext_mask:    times 68 db -1
               times  4 db  0
wiener_x_shuf: db  0,  2, -1,  0
wiener_x_add:  db  0,  1,127,  0

pw_61448:      times 2 dw 61448
pw_164_455:    dw 164, 455
pd_m16380:     dd -16380
pd_m4096:      dd -4096
pd_m25         dd -25
pd_m9:         dd -9
pd_34816:      dd 34816
pd_8421376:    dd 8421376

cextern sgr_x_by_x

SECTION .text

DECLARE_REG_TMP 8, 7, 9, 11, 12, 13, 14 ; ring buffer pointers

INIT_ZMM avx512icl
cglobal wiener_filter7_8bpc, 4, 15, 20, -384*12-16, dst, stride, left, lpf, \
                                                    w, h, edge, flt
    mov           fltq, r6mp
    mov             wd, wm
    movifnidn       hd, hm
    mov          edged, r7m
    vbroadcasti32x4 m6, [wiener_shufA]
    vbroadcasti32x4 m7, [wiener_shufB]
    mov           r10d, 0xfffe
    vbroadcasti32x4 m8, [wiener_shufC]
    vbroadcasti32x4 m9, [wiener_shufD]
    kmovw           k1, r10d
    vpbroadcastd    m0, [wiener_x_shuf]
    vpbroadcastd    m1, [wiener_x_add]
    mov            r10, 0xaaaaaaaaaaaaaaaa
    vpbroadcastd   m11, [fltq+ 0]
    vpbroadcastd   m12, [fltq+ 4]
    kmovq           k2, r10
    vpbroadcastd   m10, [pd_m16380]
    packsswb       m11, m11 ; x0   x1   x0   x1
    vpbroadcastd   m14, [fltq+16]
    pshufb         m12, m0
    vpbroadcastd   m15, [fltq+20]
    paddb          m12, m1  ; x2   x3+1 x2   127
    vpbroadcastd   m13, [pd_8421376]
    psllw          m14, 5   ; y0 y1
    psllw          m15, 5   ; y2 y3
    cmp             wd, 32  ; the minimum lr unit size for chroma in 4:2:0 is 32
    jle .w32                ; pixels, so we need a special case for small widths
    lea             t1, [rsp+wq*2+16]
    add           lpfq, wq
    add           dstq, wq
    neg             wq
    test         edgeb, 4 ; LR_HAVE_TOP
    jz .no_top
    call .h_top
    add           lpfq, strideq
    mov             t6, t1
    mov             t5, t1
    add             t1, 384*2
    call .h_top
    lea            r10, [lpfq+strideq*4]
    mov           lpfq, dstq
    mov             t4, t1
    add             t1, 384*2
    add            r10, strideq
    mov          [rsp], r10 ; below
    call .h
    mov             t3, t1
    mov             t2, t1
    dec             hd
    jz .v1
    add           lpfq, strideq
    add             t1, 384*2
    call .h
    mov             t2, t1
    dec             hd
    jz .v2
    add           lpfq, strideq
    add             t1, 384*2
    call .h
    dec             hd
    jz .v3
.main:
    lea             t0, [t1+384*2]
.main_loop:
    call .hv
    dec             hd
    jnz .main_loop
    test         edgeb, 8 ; LR_HAVE_BOTTOM
    jz .v3
    mov           lpfq, [rsp]
    call .hv_bottom
    add           lpfq, strideq
    call .hv_bottom
.v1:
    call .v
    RET
.no_top:
    lea            r10, [lpfq+strideq*4]
    mov           lpfq, dstq
    lea            r10, [r10+strideq*2]
    mov          [rsp], r10
    call .h
    mov             t6, t1
    mov             t5, t1
    mov             t4, t1
    mov             t3, t1
    mov             t2, t1
    dec             hd
    jz .v1
    add           lpfq, strideq
    add             t1, 384*2
    call .h
    mov             t2, t1
    dec             hd
    jz .v2
    add           lpfq, strideq
    add             t1, 384*2
    call .h
    dec             hd
    jz .v3
    lea             t0, [t1+384*2]
    call .hv
    dec             hd
    jz .v3
    add             t0, 384*8
    call .hv
    dec             hd
    jnz .main
.v3:
    call .v
.v2:
    call .v
    jmp .v1
.h:
    mov            r10, wq
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
    movd          xm16, [leftq]
    vmovdqu32  m16{k1}, [lpfq+r10-4]
    add          leftq, 4
    jmp .h_main
.h_extend_left:
    vpbroadcastb  xm16, [lpfq+r10]   ; the masked load ensures that no exception
    vmovdqu32  m16{k1}, [lpfq+r10-4] ; gets raised from accessing invalid memory
    jmp .h_main
.h_top:
    mov            r10, wq
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
.h_loop:
    movu           m16, [lpfq+r10-4]
.h_main:
    movu           m17, [lpfq+r10+4]
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .h_have_right
    cmp           r10d, -66
    jl .h_have_right
    push            r0
    lea             r0, [r_ext_mask+65]
    vpbroadcastb    m0, [lpfq-1]
    vpternlogd     m16, m0, [r0+r10+0], 0xe4 ; c ? a : b
    vpternlogd     m17, m0, [r0+r10+8], 0xe4
    pop             r0
.h_have_right:
    pshufb          m4, m16, m6
    mova            m0, m10
    vpdpbusd        m0, m4, m11
    pshufb          m4, m16, m7
    mova            m2, m10
    vpdpbusd        m2, m4, m11
    pshufb          m4, m17, m6
    mova            m1, m10
    vpdpbusd        m1, m4, m11
    pshufb          m4, m17, m7
    mova            m3, m10
    vpdpbusd        m3, m4, m11
    pshufb          m4, m16, m8
    vpdpbusd        m0, m4, m12
    pshufb         m16, m9
    vpdpbusd        m2, m16, m12
    pshufb          m4, m17, m8
    vpdpbusd        m1, m4, m12
    pshufb         m17, m9
    vpdpbusd        m3, m17, m12
    packssdw        m0, m2
    packssdw        m1, m3
    psraw           m0, 3
    psraw           m1, 3
    mova [t1+r10*2+ 0], m0
    mova [t1+r10*2+64], m1
    add            r10, 64
    jl .h_loop
    ret
ALIGN function_align
.hv:
    add           lpfq, strideq
    mov            r10, wq
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv_extend_left
    movd          xm16, [leftq]
    vmovdqu32  m16{k1}, [lpfq+r10-4]
    add          leftq, 4
    jmp .hv_main
.hv_extend_left:
    vpbroadcastb  xm16, [lpfq+r10]
    vmovdqu32  m16{k1}, [lpfq+r10-4]
    jmp .hv_main
.hv_bottom:
    mov            r10, wq
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv_extend_left
.hv_loop:
    movu           m16, [lpfq+r10-4]
.hv_main:
    movu           m17, [lpfq+r10+4]
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .hv_have_right
    cmp           r10d, -66
    jl .hv_have_right
    push            r0
    lea             r0, [r_ext_mask+65]
    vpbroadcastb    m0, [lpfq-1]
    vpternlogd     m16, m0, [r0+r10+0], 0xe4 ; c ? a : b
    vpternlogd     m17, m0, [r0+r10+8], 0xe4
    pop             r0
.hv_have_right:
    pshufb          m4, m16, m6
    mova            m0, m10
    vpdpbusd        m0, m4, m11
    pshufb          m4, m16, m7
    mova            m2, m10
    vpdpbusd        m2, m4, m11
    pshufb          m4, m17, m6
    mova            m1, m10
    vpdpbusd        m1, m4, m11
    pshufb          m4, m17, m7
    mova            m3, m10
    vpdpbusd        m3, m4, m11
    pshufb          m4, m16, m8
    vpdpbusd        m0, m4, m12
    pshufb         m16, m9
    vpdpbusd        m2, m16, m12
    pshufb          m4, m17, m8
    vpdpbusd        m1, m4, m12
    pshufb         m17, m9
    vpdpbusd        m3, m17, m12
    packssdw        m0, m2
    packssdw        m1, m3
    psraw           m0, 3
    psraw           m1, 3
    mova           m16, [t4+r10*2]
    paddw          m16, [t2+r10*2]
    mova            m3, [t3+r10*2]
    mova           m17, [t4+r10*2+64]
    paddw          m17, [t2+r10*2+64]
    mova            m5, [t3+r10*2+64]
    punpcklwd       m4, m16, m3
    mova            m2, m13
    vpdpwssd        m2, m4, m15
    punpcklwd      m18, m17, m5
    mova            m4, m13
    vpdpwssd        m4, m18, m15
    punpckhwd      m16, m3
    mova            m3, m13
    vpdpwssd        m3, m16, m15
    punpckhwd      m17, m5
    mova            m5, m13
    vpdpwssd        m5, m17, m15
    mova           m17, [t5+r10*2]
    paddw          m17, [t1+r10*2]
    paddw          m16, m0, [t6+r10*2]
    mova           m19, [t5+r10*2+64]
    paddw          m19, [t1+r10*2+64]
    paddw          m18, m1, [t6+r10*2+64]
    mova [t0+r10*2+ 0], m0
    mova [t0+r10*2+64], m1
    punpcklwd       m0, m16, m17
    vpdpwssd        m2, m0, m14
    punpcklwd       m1, m18, m19
    vpdpwssd        m4, m1, m14
    punpckhwd      m16, m17
    vpdpwssd        m3, m16, m14
    punpckhwd      m18, m19
    vpdpwssd        m5, m18, m14
    packuswb        m2, m4
    psrlw           m2, 8
    vpackuswb   m2{k2}, m3, m5
    movu    [dstq+r10], m2 ; We don't have a separate 5-tap version so the 7-tap
    add            r10, 64 ; function is used for chroma as well, and in some
    jl .hv_loop            ; esoteric edge cases chroma dst pointers may only
    mov             t6, t5 ; have a 32-byte alignment despite having a width
    mov             t5, t4 ; larger than 32, so use an unaligned store here.
    mov             t4, t3
    mov             t3, t2
    mov             t2, t1
    mov             t1, t0
    mov             t0, t6
    add           dstq, strideq
    ret
.v:
    mov            r10, wq
.v_loop:
    mova            m4, [t4+r10*2+ 0]
    paddw           m4, [t2+r10*2+ 0]
    mova            m1, [t3+r10*2+ 0]
    mova            m5, [t4+r10*2+64]
    paddw           m5, [t2+r10*2+64]
    mova            m3, [t3+r10*2+64]
    punpcklwd       m6, m4, m1
    mova            m0, m13
    vpdpwssd        m0, m6, m15
    punpcklwd       m6, m5, m3
    mova            m2, m13
    vpdpwssd        m2, m6, m15
    punpckhwd       m4, m1
    mova            m1, m13
    vpdpwssd        m1, m4, m15
    punpckhwd       m5, m3
    mova            m3, m13
    vpdpwssd        m3, m5, m15
    mova            m5, [t1+r10*2+ 0]
    paddw           m4, m5, [t6+r10*2+ 0]
    paddw           m5, [t5+r10*2+ 0]
    mova            m7, [t1+r10*2+64]
    paddw           m6, m7, [t6+r10*2+64]
    paddw           m7, [t5+r10*2+64]
    punpcklwd       m8, m4, m5
    vpdpwssd        m0, m8, m14
    punpcklwd       m8, m6, m7
    vpdpwssd        m2, m8, m14
    punpckhwd       m4, m5
    vpdpwssd        m1, m4, m14
    punpckhwd       m6, m7
    vpdpwssd        m3, m6, m14
    packuswb        m0, m2
    psrlw           m0, 8
    vpackuswb   m0{k2}, m1, m3
    movu    [dstq+r10], m0
    add            r10, 64
    jl .v_loop
    mov             t6, t5
    mov             t5, t4
    mov             t4, t3
    mov             t3, t2
    mov             t2, t1
    add           dstq, strideq
    ret
.w32:
    lea            r10, [r_ext_mask+73]
    mova          ym18, [wiener_perm32]
    lea             t1, [rsp+16]
    sub            r10, wq
    test         edgeb, 4 ; LR_HAVE_TOP
    jz .w32_no_top
    call .w32_h_top
    add           lpfq, strideq
    mov             t6, t1
    mov             t5, t1
    add             t1, 32*2
    call .w32_h_top
    lea             r9, [lpfq+strideq*4]
    mov           lpfq, dstq
    mov             t4, t1
    add             t1, 32*2
    add             r9, strideq
    mov          [rsp], r9 ; below
    call .w32_h
    mov             t3, t1
    mov             t2, t1
    dec             hd
    jz .w32_v1
    add           lpfq, strideq
    add             t1, 32*2
    call .w32_h
    mov             t2, t1
    dec             hd
    jz .w32_v2
    add           lpfq, strideq
    add             t1, 32*2
    call .w32_h
    dec             hd
    jz .w32_v3
.w32_main:
    lea             t0, [t1+32*2]
.w32_main_loop:
    call .w32_hv
    dec             hd
    jnz .w32_main_loop
    test         edgeb, 8 ; LR_HAVE_BOTTOM
    jz .w32_v3
    mov           lpfq, [rsp]
    call .w32_hv_bottom
    add           lpfq, strideq
    call .w32_hv_bottom
.w32_v1:
    call .w32_v
    RET
.w32_no_top:
    lea             r9, [lpfq+strideq*4]
    mov           lpfq, dstq
    lea             r9, [r9+strideq*2]
    mov          [rsp], r9
    call .w32_h
    mov             t6, t1
    mov             t5, t1
    mov             t4, t1
    mov             t3, t1
    mov             t2, t1
    dec             hd
    jz .w32_v1
    add           lpfq, strideq
    add             t1, 32*2
    call .w32_h
    mov             t2, t1
    dec             hd
    jz .w32_v2
    add           lpfq, strideq
    add             t1, 32*2
    call .w32_h
    dec             hd
    jz .w32_v3
    lea             t0, [t1+32*2]
    call .w32_hv
    dec             hd
    jz .w32_v3
    add             t0, 32*8
    call .w32_hv
    dec             hd
    jnz .w32_main
.w32_v3:
    call .w32_v
.w32_v2:
    call .w32_v
    jmp .w32_v1
.w32_h:
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .w32_h_extend_left
    movd          xm16, [leftq]
    vmovdqu32 ym16{k1}, [lpfq-4]
    add          leftq, 4
    jmp .w32_h_main
.w32_h_extend_left:
    vpbroadcastb  xm16, [lpfq]   ; the masked load ensures that no exception
    vmovdqu32 ym16{k1}, [lpfq-4] ; gets raised from accessing invalid memory
    jmp .w32_h_main
.w32_h_top:
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .w32_h_extend_left
    movu          ym16, [lpfq-4]
.w32_h_main:
    vinserti32x8   m16, [lpfq+4], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .w32_h_have_right
    vpbroadcastb    m0, [lpfq+wq-1]
    movu          ym17, [r10-8]
    vinserti32x8   m17, [r10+0], 1
    vpternlogd     m16, m0, m17, 0xe4 ; c ? a : b
.w32_h_have_right:
    pshufb          m2, m16, m6
    mova            m0, m10
    vpdpbusd        m0, m2, m11
    pshufb          m2, m16, m7
    mova            m1, m10
    vpdpbusd        m1, m2, m11
    pshufb          m2, m16, m8
    vpdpbusd        m0, m2, m12
    pshufb         m16, m9
    vpdpbusd        m1, m16, m12
    packssdw        m0, m1
    psraw           m0, 3
    mova          [t1], m0
    ret
.w32_hv:
    add           lpfq, strideq
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .w32_hv_extend_left
    movd          xm16, [leftq]
    vmovdqu32 ym16{k1}, [lpfq-4]
    add          leftq, 4
    jmp .w32_hv_main
.w32_hv_extend_left:
    vpbroadcastb  xm16, [lpfq]
    vmovdqu32 ym16{k1}, [lpfq-4]
    jmp .w32_hv_main
.w32_hv_bottom:
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .w32_hv_extend_left
    movu          ym16, [lpfq-4]
.w32_hv_main:
    vinserti32x8   m16, [lpfq+4], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .w32_hv_have_right
    vpbroadcastb    m0, [lpfq+wq-1]
    movu          ym17, [r10-8]
    vinserti32x8   m17, [r10+0], 1
    vpternlogd     m16, m0, m17, 0xe4
.w32_hv_have_right:
    mova            m3, [t4]
    paddw           m3, [t2]
    mova            m2, [t3]
    pshufb          m4, m16, m6
    mova            m0, m10
    vpdpbusd        m0, m4, m11
    pshufb          m4, m16, m7
    mova            m5, m10
    vpdpbusd        m5, m4, m11
    punpcklwd       m4, m3, m2
    mova            m1, m13
    vpdpwssd        m1, m4, m15
    punpckhwd       m3, m2
    mova            m2, m13
    vpdpwssd        m2, m3, m15
    pshufb          m4, m16, m8
    vpdpbusd        m0, m4, m12
    pshufb         m16, m9
    vpdpbusd        m5, m16, m12
    packssdw        m0, m5
    psraw           m0, 3
    mova            m4, [t5]
    paddw           m4, [t1]
    paddw           m3, m0, [t6]
    mova          [t0], m0
    punpcklwd       m0, m3, m4
    vpdpwssd        m1, m0, m14
    punpckhwd       m3, m4
    vpdpwssd        m2, m3, m14
    packuswb        m1, m2
    vpermb         m16, m18, m1
    mova        [dstq], ym16
    mov             t6, t5
    mov             t5, t4
    mov             t4, t3
    mov             t3, t2
    mov             t2, t1
    mov             t1, t0
    mov             t0, t6
    add           dstq, strideq
    ret
.w32_v:
    mova            m2, [t4]
    paddw           m2, [t2]
    mova            m1, [t3]
    mova            m4, [t1]
    paddw           m3, m4, [t6]
    paddw           m4, [t5]
    punpcklwd       m5, m2, m1
    mova            m0, m13
    vpdpwssd        m0, m5, m15
    punpckhwd       m2, m1
    mova            m1, m13
    vpdpwssd        m1, m2, m15
    punpcklwd       m2, m3, m4
    vpdpwssd        m0, m2, m14
    punpckhwd       m3, m4
    vpdpwssd        m1, m3, m14
    packuswb        m0, m1
    vpermb         m16, m18, m0
    mova        [dstq], ym16
    mov             t6, t5
    mov             t5, t4
    mov             t4, t3
    mov             t3, t2
    mov             t2, t1
    add           dstq, strideq
    ret

cglobal sgr_filter_5x5_8bpc, 4, 13, 23, 416*24+16, dst, stride, left, lpf, \
                                                   w, h, edge, params
    mov        paramsq, r6mp
    mov             wd, wm
    mov             hd, hm
    mov          edged, r7m
    vbroadcasti32x4 m5, [sgr_shuf+1]
    add           lpfq, wq
    vbroadcasti32x4 m6, [sgr_shuf+9]
    add           dstq, wq
    vbroadcasti32x4 m7, [sgr_shuf+3]
    lea             t3, [rsp+wq*4+16+416*12]
    vbroadcasti32x4 m8, [sgr_shuf+7]
    pxor            m4, m4
    vpbroadcastd    m9, [pd_m25]
    vpsubd         m11, m4, [paramsq+0] {1to16} ; -s0
    vpbroadcastw   m15, [paramsq+8]             ; w0
    lea             t1, [rsp+wq*2+20]
    vpbroadcastd   m10, [pw_164_455]
    neg             wq
    vpbroadcastd   m12, [pw_61448]              ; (15 << 12) + (1 << 3)
    mov           r10d, 0xfe
    vpbroadcastd   m13, [pd_m4096]
    kmovb           k1, r10d
    vpbroadcastd   m14, [pd_34816]              ; (1 << 11) + (1 << 15)
    mov            r10, 0x3333333333333333
    mova           m18, [sgr_x_by_x+64*0]
    kmovq           k2, r10
    mova           m19, [sgr_x_by_x+64*1]
    lea            r12, [r_ext_mask+75]
    mova           m20, [sgr_x_by_x+64*2]
    psllw          m15, 4
    mova           m21, [sgr_x_by_x+64*3]
    lea            r10, [lpfq+strideq*4]
    mova          ym22, [sgr_shuf]
    add            r10, strideq
    mov          [rsp], r10 ; below
    test         edgeb, 4 ; LR_HAVE_TOP
    jz .no_top
    call .h_top
    add           lpfq, strideq
    mov             t2, t1
    call .top_fixup
    add             t1, 416*6
    call .h_top
    lea            r10, [lpfq+strideq*4]
    mov           lpfq, dstq
    add            r10, strideq
    mov          [rsp], r10 ; below
    mov             t0, t2
    dec             hd
    jz .height1
    or           edged, 16
    call .h
.main:
    add           lpfq, strideq
    call .hv
    call .prep_n
    sub             hd, 2
    jl .extend_bottom
.main_loop:
    add           lpfq, strideq
    test            hd, hd
    jz .odd_height
    call .h
    add           lpfq, strideq
    call .hv
    call .n0
    call .n1
    sub             hd, 2
    jge .main_loop
    test         edgeb, 8 ; LR_HAVE_BOTTOM
    jz .extend_bottom
    mov           lpfq, [rsp]
    call .h_top
    add           lpfq, strideq
    call .hv_bottom
.end:
    call .n0
    call .n1
.end2:
    RET
.height1:
    call .hv
    call .prep_n
    jmp .odd_height_end
.odd_height:
    call .hv
    call .n0
    call .n1
.odd_height_end:
    call .v
    call .n0
    jmp .end2
.extend_bottom:
    call .v
    jmp .end
.no_top:
    lea            r10, [lpfq+strideq*4]
    mov           lpfq, dstq
    lea            r10, [r10+strideq*2]
    mov          [rsp], r10
    call .h
    lea             t2, [t1+416*6]
    call .top_fixup
    dec             hd
    jz .no_top_height1
    or           edged, 16
    mov             t0, t1
    mov             t1, t2
    jmp .main
.no_top_height1:
    call .v
    call .prep_n
    jmp .odd_height_end
.h: ; horizontal boxsum
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .h_main
.h_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .h_main
.h_top:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
.h_loop:
    movu          ym17, [lpfq+r10-2]
.h_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .h_have_right
    cmp           r10d, -34
    jl .h_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r12+r10-8]
    vinserti32x8   m16, [r12+r10+0], 1
    vpternlogd     m17, m0, m16, 0xe4
.h_have_right:
    pshufb          m3, m17, m5
    pmullw          m2, m3, m3
    pshufb          m1, m17, m6
    paddw           m0, m3, m1
    shufps          m3, m1, q2121
    paddw           m0, m3
    punpcklwd      m16, m3, m1
    punpckhwd       m3, m1
    punpcklwd       m1, m2, m4
    vpdpwssd        m1, m16, m16
    punpckhwd       m2, m4
    vpdpwssd        m2, m3, m3
    pshufb         m16, m17, m7
    paddw           m0, m16
    pshufb         m17, m8
    paddw           m0, m17              ; sum
    punpcklwd       m3, m16, m17
    vpdpwssd        m1, m3, m3           ; sumsq
    punpckhwd      m16, m17
    vpdpwssd        m2, m16, m16
    test         edgeb, 16 ; y > 0
    jz .h_loop_end
    paddw           m0, [t1+r10*2+416*0]
    paddd           m1, [t1+r10*2+416*2]
    paddd           m2, [t1+r10*2+416*4]
.h_loop_end:
    mova [t1+r10*2+416*0], m0
    mova [t1+r10*2+416*2], m1
    mova [t1+r10*2+416*4], m2
    add            r10, 32
    jl .h_loop
    ret
.top_fixup:
    lea            r10, [wq-2]
.top_fixup_loop: ; the sums of the first row needs to be doubled
    mova            m0, [t1+r10*2+416*0]
    mova            m1, [t1+r10*2+416*2]
    mova            m2, [t1+r10*2+416*4]
    paddw           m0, m0
    paddd           m1, m1
    paddd           m2, m2
    mova [t2+r10*2+416*0], m0
    mova [t2+r10*2+416*2], m1
    mova [t2+r10*2+416*4], m2
    add            r10, 32
    jl .top_fixup_loop
    ret
ALIGN function_align
.hv: ; horizontal boxsum + vertical boxsum + ab
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .hv_main
.hv_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .hv_main
.hv_bottom:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv_extend_left
.hv_loop:
    movu          ym17, [lpfq+r10-2]
.hv_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .hv_have_right
    cmp           r10d, -34
    jl .hv_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r12+r10-8]
    vinserti32x8   m16, [r12+r10+0], 1
    vpternlogd     m17, m0, m16, 0xe4
.hv_have_right:
    pshufb          m1, m17, m5
    pmullw          m3, m1, m1
    pshufb          m2, m17, m6
    paddw           m0, m1, m2
    shufps          m1, m2, q2121
    paddw           m0, m1
    punpcklwd      m16, m1, m2
    punpckhwd       m1, m2
    punpcklwd       m2, m3, m4
    vpdpwssd        m2, m16, m16
    punpckhwd       m3, m4
    vpdpwssd        m3, m1, m1
    pshufb         m16, m17, m7
    paddw           m0, m16
    pshufb         m17, m8
    paddw           m0, m17              ; h sum
    punpcklwd       m1, m16, m17
    vpdpwssd        m2, m1, m1           ; h sumsq
    punpckhwd      m16, m17
    vpdpwssd        m3, m16, m16
    paddw           m1, m0, [t1+r10*2+416*0]
    paddd          m16, m2, [t1+r10*2+416*2]
    paddd          m17, m3, [t1+r10*2+416*4]
    test            hd, hd
    jz .hv_last_row
.hv_main2:
    paddd          m16, [t2+r10*2+416*2] ; hv sumsq
    paddd          m17, [t2+r10*2+416*4]
    paddw           m1, [t2+r10*2+416*0] ; hv sum
    mova [t0+r10*2+416*2], m2
    mova [t0+r10*2+416*4], m3
    mova [t0+r10*2+416*0], m0
    pmulld         m16, m9               ; -a * 25
    pmulld         m17, m9
    punpcklwd       m0, m1, m4           ; b
    vpdpwssd       m16, m0, m0           ; -p
    punpckhwd       m1, m4
    vpdpwssd       m17, m1, m1
    pmaddwd         m0, m10              ; b * 164
    pmaddwd         m1, m10
    pmulld         m16, m11              ; p * s
    pmulld         m17, m11
    vpalignr   m17{k2}, m16, m16, 2
    mova           m16, m20
    paddusw        m17, m12
    psraw          m17, 4                ; min(z, 255) - 256
    vpermt2b       m16, m17, m21         ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m18, m19         ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16              ; x
    pandn          m16, m13, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    paddd           m0, m14              ; x * b * 164 + (1 << 11) + (1 << 15)
    paddd           m1, m14
    vpternlogd     m16, m0, m13, 0xd8    ; a | (b << 12)
    vpternlogd     m17, m1, m13, 0xd8
    mova          [t3+r10*4+  8], m16    ; The neighbor calculations requires
    mova          [t3+r10*4+ 24], xm17   ; 13 bits for a and 21 bits for b.
    vextracti32x4 [t3+r10*4+ 56], m17, 2 ; Packing them allows for 12+20, but
    mova          [t3+r10*4+ 72], m17    ; that gets us most of the way.
    vextracti128  [t3+r10*4+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+104], m16, 3
    add            r10, 32
    jl .hv_loop
    mov             t2, t1
    mov             t1, t0
    mov             t0, t2
    ret
.hv_last_row: ; esoteric edge case for odd heights
    mova [t1+r10*2+416*0], m1
    paddw              m1, m0
    mova [t1+r10*2+416*2], m16
    paddd             m16, m2
    mova [t1+r10*2+416*4], m17
    paddd             m17, m3
    jmp .hv_main2
.v: ; vertical boxsum + ab
    lea            r10, [wq-2]
.v_loop:
    mova            m2, [t1+r10*2+416*2]
    paddd          m16, m2, [t2+r10*2+416*2]
    mova            m3, [t1+r10*2+416*4]
    paddd          m17, m3, [t2+r10*2+416*4]
    paddd           m2, m2
    paddd           m3, m3
    paddd          m16, m2               ; hv sumsq
    paddd          m17, m3
    pmulld         m16, m9               ; -a * 25
    pmulld         m17, m9
    mova            m0, [t1+r10*2+416*0]
    paddw           m1, m0, [t2+r10*2+416*0]
    paddw           m0, m0
    paddw           m1, m0               ; hv sum
    punpcklwd       m0, m1, m4           ; b
    vpdpwssd       m16, m0, m0           ; -p
    punpckhwd       m1, m4
    vpdpwssd       m17, m1, m1
    pmaddwd         m0, m10              ; b * 164
    pmaddwd         m1, m10
    pmulld         m16, m11              ; p * s
    pmulld         m17, m11
    vpalignr   m17{k2}, m16, m16, 2
    mova           m16, m20
    paddusw        m17, m12
    psraw          m17, 4                ; min(z, 255) - 256
    vpermt2b       m16, m17, m21         ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m18, m19         ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16              ; x
    pandn          m16, m13, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    paddd           m0, m14              ; x * b * 164 + (1 << 11) + (1 << 15)
    paddd           m1, m14
    vpternlogd     m16, m0, m13, 0xd8    ; a | (b << 12)
    vpternlogd     m17, m1, m13, 0xd8
    mova          [t3+r10*4+  8], m16
    mova          [t3+r10*4+ 24], xm17
    vextracti32x4 [t3+r10*4+ 56], m17, 2
    mova          [t3+r10*4+ 72], m17
    vextracti128  [t3+r10*4+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+104], m16, 3
    add            r10, 32
    jl .v_loop
    ret
.prep_n: ; initial neighbor setup
    mov            r10, wq
.prep_n_loop:
    movu            m0, [t3+r10*4+ 4]
    movu            m1, [t3+r10*4+68]
    paddd           m2, m0, [t3+r10*4+ 0]
    paddd           m3, m1, [t3+r10*4+64]
    paddd           m2, [t3+r10*4+ 8]
    paddd           m3, [t3+r10*4+72]
    paddd           m0, m2
    pslld           m2, 2
    paddd           m1, m3
    pslld           m3, 2
    paddd           m2, m0                ; ab 565
    paddd           m3, m1
    pandn           m0, m13, m2           ; a
    psrld           m2, 12                ; b
    pandn           m1, m13, m3
    psrld           m3, 12
    mova [t3+r10*4+416*4+ 0], m0
    mova [t3+r10*4+416*8+ 0], m2
    mova [t3+r10*4+416*4+64], m1
    mova [t3+r10*4+416*8+64], m3
    add            r10, 32
    jl .prep_n_loop
    ret
ALIGN function_align
.n0: ; neighbor + output (even rows)
    mov            r10, wq
.n0_loop:
    movu           m16, [t3+r10*4+ 4]
    movu           m17, [t3+r10*4+68]
    paddd           m0, m16, [t3+r10*4+ 0]
    paddd           m1, m17, [t3+r10*4+64]
    paddd           m0, [t3+r10*4+ 8]
    paddd           m1, [t3+r10*4+72]
    paddd          m16, m0
    pslld           m0, 2
    paddd          m17, m1
    pslld           m1, 2
    paddd           m0, m16
    paddd           m1, m17
    pandn          m16, m13, m0
    psrld           m0, 12
    pandn          m17, m13, m1
    psrld           m1, 12
    paddd           m2, m16, [t3+r10*4+416*4+ 0] ; a
    paddd           m3, m17, [t3+r10*4+416*4+64]
    mova [t3+r10*4+416*4+ 0], m16
    mova [t3+r10*4+416*4+64], m17
    paddd          m16, m0, [t3+r10*4+416*8+ 0] ; b + (1 << 8)
    paddd          m17, m1, [t3+r10*4+416*8+64]
    mova [t3+r10*4+416*8+ 0], m0
    mova [t3+r10*4+416*8+64], m1
    pmovzxbd        m0, [dstq+r10+ 0]
    pmovzxbd        m1, [dstq+r10+16]
    pmaddwd         m2, m0                      ; a * src
    pmaddwd         m3, m1
    packssdw        m0, m1
    psubd          m16, m2                      ; b - a * src + (1 << 8)
    psubd          m17, m3
    psrad          m16, 9
    psrad          m17, 9
    packssdw       m16, m17
    pmulhrsw       m16, m15
    paddw          m16, m0
    packuswb       m16, m16
    vpermd         m16, m22, m16
    mova    [dstq+r10], ym16
    add            r10, 32
    jl .n0_loop
    add           dstq, strideq
    ret
ALIGN function_align
.n1: ; neighbor + output (odd rows)
    mov            r10, wq
.n1_loop:
    pmovzxbd        m0, [dstq+r10+ 0]
    pmovzxbd        m1, [dstq+r10+16]
    pmaddwd         m2, m0, [t3+r10*4+416*4+ 0] ; a * src
    pmaddwd         m3, m1, [t3+r10*4+416*4+64]
    mova           m16, [t3+r10*4+416*8+ 0]     ; b + (1 << 7)
    mova           m17, [t3+r10*4+416*8+64]
    packssdw        m0, m1
    psubd          m16, m2                      ; b - a * src + (1 << 7)
    psubd          m17, m3
    psrad          m16, 8
    psrad          m17, 8
    packssdw       m16, m17
    pmulhrsw       m16, m15
    paddw          m16, m0
    packuswb       m16, m16
    vpermd         m16, m22, m16
    mova    [dstq+r10], ym16
    add            r10, 32
    jl .n1_loop
    add           dstq, strideq
    ret

cglobal sgr_filter_3x3_8bpc, 4, 15, 22, -416*28-16, dst, stride, left, lpf, \
                                                    w, h, edge, params
    mov        paramsq, r6mp
    mov             wd, wm
    movifnidn       hd, hm
    mov          edged, r7m
    vbroadcasti32x4 m5, [sgr_shuf+3]
    add           lpfq, wq
    vbroadcasti32x4 m6, [sgr_shuf+5]
    add           dstq, wq
    vbroadcasti32x4 m7, [sgr_shuf+7]
    pxor            m4, m4
    vpbroadcastd    m8, [pd_m9]
    vpsubd         m11, m4, [paramsq+4] {1to16} ; -s1
    vpbroadcastw   m15, [paramsq+10]            ; w1
    lea             t1, [rsp+wq*2+20]
    vpbroadcastd   m10, [pw_164_455]
    lea             t3, [rsp+wq*4+16+416*12]
    vpbroadcastd   m12, [pw_61448]              ; (15 << 12) + (1 << 3)
    neg             wq
    vpbroadcastd   m13, [pd_m4096]
    mov           r10d, 0xfe
    vpbroadcastd   m14, [pd_34816]              ; (1 << 11) + (1 << 15)
    kmovb           k1, r10d
    mova           m18, [sgr_x_by_x+64*0]
    mov            r10, 0x3333333333333333
    mova           m19, [sgr_x_by_x+64*1]
    kmovq           k2, r10
    mova           m20, [sgr_x_by_x+64*2]
    psllw          m15, 4
    mova           m21, [sgr_x_by_x+64*3]
    lea            r14, [r_ext_mask+75]
    mova           ym9, [sgr_shuf]
    test         edgeb, 4 ; LR_HAVE_TOP
    jz .no_top
    call .h_top
    add           lpfq, strideq
    mov             t2, t1
    add             t1, 416*6
    call .h_top
    lea             t4, [lpfq+strideq*4]
    mov           lpfq, dstq
    add             t4, strideq
    mov          [rsp], t4 ; below
    mov             t0, t2
    call .hv
.main:
    mov             t5, t3
    add             t3, 416*4
    dec             hd
    jz .height1
    add           lpfq, strideq
    call .hv
    call .prep_n
    dec             hd
    jz .extend_bottom
.main_loop:
    add           lpfq, strideq
    call .hv
    call .n
    dec             hd
    jnz .main_loop
    test         edgeb, 8 ; LR_HAVE_BOTTOM
    jz .extend_bottom
    mov           lpfq, [rsp]
    call .hv_bottom
    call .n
    add           lpfq, strideq
    call .hv_bottom
.end:
    call .n
    RET
.height1:
    call .v
    call .prep_n
    mov             t2, t1
    call .v
    jmp .end
.extend_bottom:
    call .v
    call .n
    mov             t2, t1
    call .v
    jmp .end
.no_top:
    lea             t4, [lpfq+strideq*4]
    mov           lpfq, dstq
    lea             t4, [t4+strideq*2]
    mov          [rsp], t4
    call .h
    lea             t0, [t1+416*6]
    mov             t2, t1
    call .v
    jmp .main
.h: ; horizontal boxsum
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .h_main
.h_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .h_main
.h_top:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
.h_loop:
    movu          ym17, [lpfq+r10-2]
.h_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .h_have_right
    cmp           r10d, -33
    jl .h_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r14+r10-8]
    vinserti32x8   m16, [r14+r10+0], 1
    vpternlogd     m17, m0, m16, 0xe4
.h_have_right:
    pshufb          m0, m17, m5
    pmullw          m2, m0, m0
    pshufb         m16, m17, m6
    paddw           m0, m16
    pshufb         m17, m7
    paddw           m0, m17    ; sum
    punpcklwd       m3, m16, m17
    punpcklwd       m1, m2, m4
    vpdpwssd        m1, m3, m3 ; sumsq
    punpckhwd      m16, m17
    punpckhwd       m2, m4
    vpdpwssd        m2, m16, m16
    mova [t1+r10*2+416*0], m0
    mova [t1+r10*2+416*2], m1
    mova [t1+r10*2+416*4], m2
    add            r10, 32
    jl .h_loop
    ret
ALIGN function_align
.hv: ; horizontal boxsum + vertical boxsum + ab
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .hv_main
.hv_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .hv_main
.hv_bottom:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv_extend_left
.hv_loop:
    movu          ym17, [lpfq+r10-2]
.hv_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .hv_have_right
    cmp           r10d, -33
    jl .hv_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r14+r10-8]
    vinserti32x8   m16, [r14+r10+0], 1
    vpternlogd     m17, m0, m16, 0xe4
.hv_have_right:
    pshufb          m0, m17, m5
    pmullw          m3, m0, m0
    pshufb          m1, m17, m6
    paddw           m0, m1
    pshufb         m17, m7
    paddw           m0, m17              ; h sum
    punpcklwd      m16, m17, m1
    punpcklwd       m2, m3, m4
    vpdpwssd        m2, m16, m16         ; h sumsq
    punpckhwd      m17, m1
    punpckhwd       m3, m4
    vpdpwssd        m3, m17, m17
    paddw           m1, m0, [t2+r10*2+416*0]
    paddw           m1, [t1+r10*2+416*0] ; hv sum
    paddd          m16, m2, [t2+r10*2+416*2]
    paddd          m17, m3, [t2+r10*2+416*4]
    paddd          m16, [t1+r10*2+416*2] ; hv sumsq
    paddd          m17, [t1+r10*2+416*4]
    mova [t0+r10*2+416*0], m0
    mova [t0+r10*2+416*2], m2
    mova [t0+r10*2+416*4], m3
    pmulld         m16, m8               ; -a * 9
    pmulld         m17, m8
    punpcklwd       m0, m4, m1           ; b
    vpdpwssd       m16, m0, m0           ; -p
    punpckhwd       m1, m4, m1
    vpdpwssd       m17, m1, m1
    pmaddwd         m0, m10              ; b * 455
    pmaddwd         m1, m10
    pmulld         m16, m11              ; p * s
    pmulld         m17, m11
    vpalignr   m17{k2}, m16, m16, 2
    mova           m16, m20
    paddusw        m17, m12
    psraw          m17, 4                ; min(z, 255) - 256
    vpermt2b       m16, m17, m21         ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m18, m19         ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16              ; x
    pandn          m16, m13, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    paddd           m0, m14              ; x * b * 455 + (1 << 11) + (1 << 15)
    paddd           m1, m14
    vpternlogd     m16, m0, m13, 0xd8    ; a | (b << 12)
    vpternlogd     m17, m1, m13, 0xd8
    mova          [t3+r10*4+  8], m16
    mova          [t3+r10*4+ 24], xm17
    vextracti32x4 [t3+r10*4+ 56], m17, 2
    mova          [t3+r10*4+ 72], m17
    vextracti128  [t3+r10*4+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+104], m16, 3
    add            r10, 32
    jl .hv_loop
    mov             t2, t1
    mov             t1, t0
    mov             t0, t2
    ret
.v: ; vertical boxsum + ab
    lea            r10, [wq-2]
.v_loop:
    mova           m16, [t1+r10*2+416*2]
    mova           m17, [t1+r10*2+416*4]
    paddd          m16, m16
    paddd          m17, m17
    paddd          m16, [t2+r10*2+416*2] ; hv sumsq
    paddd          m17, [t2+r10*2+416*4]
    pmulld         m16, m8               ; -a * 9
    pmulld         m17, m8
    mova            m1, [t1+r10*2+416*0]
    paddw           m1, m1
    paddw           m1, [t2+r10*2+416*0] ; hv sum
    punpcklwd       m0, m4, m1           ; b
    vpdpwssd       m16, m0, m0           ; -p
    punpckhwd       m1, m4, m1
    vpdpwssd       m17, m1, m1
    pmaddwd         m0, m10              ; b * 455
    pmaddwd         m1, m10
    pmulld         m16, m11              ; p * s
    pmulld         m17, m11
    vpalignr   m17{k2}, m16, m16, 2
    mova           m16, m20
    paddusw        m17, m12
    psraw          m17, 4                ; min(z, 255) - 256
    vpermt2b       m16, m17, m21         ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m18, m19         ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16              ; x
    pandn          m16, m13, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    paddd           m0, m14              ; x * b * 455 + (1 << 11) + (1 << 15)
    paddd           m1, m14
    vpternlogd     m16, m0, m13, 0xd8    ; a | (b << 12)
    vpternlogd     m17, m1, m13, 0xd8
    mova          [t3+r10*4+  8], m16
    mova          [t3+r10*4+ 24], xm17
    vextracti32x4 [t3+r10*4+ 56], m17, 2
    mova          [t3+r10*4+ 72], m17
    vextracti128  [t3+r10*4+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+104], m16, 3
    add            r10, 32
    jl .v_loop
    ret
.prep_n: ; initial neighbor setup
    mov            r10, wq
    mov             t4, t3
    add             t3, 416*4
.prep_n_loop:
    mova            m2, [t5+r10*4+0]
    mova            m3, [t4+r10*4+0]
    paddd           m2, [t5+r10*4+8]
    paddd           m3, [t4+r10*4+8]
    paddd           m0, m2, [t5+r10*4+4]
    paddd           m1, m3, [t4+r10*4+4]
    pslld           m0, 2
    paddd           m1, m1                ; ab[ 0] 222
    psubd           m0, m2                ; ab[-1] 343
    mova [t3+r10*4+416*4], m1
    paddd           m1, m1
    mova    [t5+r10*4], m0
    psubd           m1, m3                ; ab[ 0] 343
    mova    [t4+r10*4], m1
    add            r10, 16
    jl .prep_n_loop
    ret
; a+b are packed together in a single dword, but we can't do the
; full neighbor calculations before splitting them since we don't
; have sufficient precision. The solution is to do the calculations
; in two equal halves and split a and b before doing the final sum.
ALIGN function_align
.n: ; neighbor + output
    mov            r10, wq
.n_loop:
    mova           m16, [t3+r10*4+ 0]
    paddd          m16, [t3+r10*4+ 8]
    paddd          m17, m16, [t3+r10*4+ 4]
    paddd          m17, m17               ; ab[+1] 222
    mova            m2, [t3+r10*4+416*4+ 0]
    paddd           m0, m2, [t5+r10*4+ 0] ; ab[ 0] 222 + ab[-1] 343
    mova            m3, [t3+r10*4+416*4+64]
    paddd           m1, m3, [t5+r10*4+64]
    mova [t3+r10*4+416*4+ 0], m17
    paddd          m17, m17
    psubd          m17, m16               ; ab[+1] 343
    mova [t5+r10*4+ 0], m17
    paddd           m2, m17               ; ab[ 0] 222 + ab[+1] 343
    mova           m16, [t3+r10*4+64]
    paddd          m16, [t3+r10*4+72]
    paddd          m17, m16, [t3+r10*4+68]
    paddd          m17, m17
    mova [t3+r10*4+416*4+64], m17
    paddd          m17, m17
    psubd          m17, m16
    mova [t5+r10*4+64], m17
    pandn          m16, m13, m0
    psrld           m0, 12
    paddd           m3, m17
    pandn          m17, m13, m2
    psrld           m2, 12
    paddd          m16, m17               ; a
    pandn          m17, m13, m1
    psrld           m1, 12
    paddd           m0, m2                ; b + (1 << 8)
    pandn           m2, m13, m3
    psrld           m3, 12
    paddd          m17, m2
    pmovzxbd        m2, [dstq+r10+ 0]
    paddd           m1, m3
    pmovzxbd        m3, [dstq+r10+16]
    pmaddwd        m16, m2                ; a * src
    pmaddwd        m17, m3
    packssdw        m2, m3
    psubd           m0, m16               ; b - a * src + (1 << 8)
    psubd           m1, m17
    psrad           m0, 9
    psrad           m1, 9
    packssdw        m0, m1
    pmulhrsw        m0, m15
    paddw           m0, m2
    packuswb        m0, m0
    vpermd         m16, m9, m0
    mova    [dstq+r10], ym16
    add            r10, 32
    jl .n_loop
    mov            r10, t5
    mov             t5, t4
    mov             t4, r10
    add           dstq, strideq
    ret

cglobal sgr_filter_mix_8bpc, 4, 13, 28, 416*56+8, dst, stride, left, lpf, \
                                                  w, h, edge, params
    mov        paramsq, r6mp
    mov             wd, wm
    movifnidn       hd, hm
    mov          edged, r7m
    vbroadcasti128  m5, [sgr_shuf+1]
    add           lpfq, wq
    vbroadcasti128  m6, [sgr_shuf+9]
    add           dstq, wq
    vbroadcasti128  m7, [sgr_shuf+3]
    lea             t3, [rsp+wq*4+416*24+8]
    vbroadcasti128  m8, [sgr_shuf+7]
    pxor            m4, m4
    vpbroadcastd    m9, [pd_m9]
    vpsubd         m11, m4, [paramsq+0] {1to16} ; -s0
    vpbroadcastd   m14, [pw_61448]
    vpsubd         m12, m4, [paramsq+4] {1to16} ; -s1
    vpbroadcastd   m26, [paramsq+8]             ; w0 w1
    lea             t1, [rsp+wq*2+12]
    vpbroadcastd   m10, [pd_m25]
    neg             wq
    vpbroadcastd   m13, [pw_164_455]
    mov           r10d, 0xfe
    vpbroadcastd   m15, [pd_34816]
    kmovb           k1, r10d
    mova           m20, [sgr_x_by_x+64*0]
    mov            r10, 0x3333333333333333
    mova           m21, [sgr_x_by_x+64*1]
    kmovq           k2, r10
    mova           m22, [sgr_x_by_x+64*2]
    lea            r12, [r_ext_mask+75]
    mova           m23, [sgr_x_by_x+64*3]
    vpbroadcastd   m24, [pd_m4096]
    vpbroadcastd   m25, [sgr_shuf+28]           ; 0x8000____
    psllw          m26, 5
    mova          xm27, [sgr_mix_perm]
    test         edgeb, 4 ; LR_HAVE_TOP
    jz .no_top
    call .h_top
    add           lpfq, strideq
    mov             t2, t1
    call mangle(private_prefix %+ _sgr_filter_5x5_8bpc_avx512icl).top_fixup
    add             t1, 416*12
    call .h_top
    lea            r10, [lpfq+strideq*4]
    mov           lpfq, dstq
    add            r10, strideq
    mov          [rsp], r10 ; below
    call .hv0
.main:
    dec             hd
    jz .height1
    add           lpfq, strideq
    call .hv1
    call .prep_n
    sub             hd, 2
    jl .extend_bottom
.main_loop:
    add           lpfq, strideq
    call .hv0
    test            hd, hd
    jz .odd_height
    add           lpfq, strideq
    call .hv1
    call .n0
    call .n1
    sub             hd, 2
    jge .main_loop
    test         edgeb, 8 ; LR_HAVE_BOTTOM
    jz .extend_bottom
    mov           lpfq, [rsp]
    call .hv0_bottom
    add           lpfq, strideq
    call .hv1_bottom
.end:
    call .n0
    call .n1
.end2:
    RET
.height1:
    call .v1
    call .prep_n
    jmp .odd_height_end
.odd_height:
    call .v1
    call .n0
    call .n1
.odd_height_end:
    call .v0
    call .v1
    call .n0
    jmp .end2
.extend_bottom:
    call .v0
    call .v1
    jmp .end
.no_top:
    lea            r10, [lpfq+strideq*4]
    mov           lpfq, dstq
    lea            r10, [r10+strideq*2]
    mov          [rsp], r10
    call .h
    lea             t2, [t1+416*12]
    lea            r10, [wq-2]
.top_fixup_loop:
    mova            m0, [t1+r10*2+416* 0]
    mova            m1, [t1+r10*2+416* 2]
    mova            m2, [t1+r10*2+416* 4]
    paddw           m0, m0
    mova            m3, [t1+r10*2+416* 6]
    paddd           m1, m1
    mova           m16, [t1+r10*2+416* 8]
    paddd           m2, m2
    mova           m17, [t1+r10*2+416*10]
    mova [t2+r10*2+416* 0], m0
    mova [t2+r10*2+416* 2], m1
    mova [t2+r10*2+416* 4], m2
    mova [t2+r10*2+416* 6], m3
    mova [t2+r10*2+416* 8], m16
    mova [t2+r10*2+416*10], m17
    add            r10, 32
    jl .top_fixup_loop
    call .v0
    jmp .main
.h: ; horizontal boxsums
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .h_main
.h_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .h_main
.h_top:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .h_extend_left
.h_loop:
    movu          ym17, [lpfq+r10-2]
.h_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .h_have_right
    cmp           r10d, -34
    jl .h_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r12+r10-8]
    vinserti32x8   m16, [r12+r10+0], 1
    vpternlogd     m17, m0, m16, 0xe4
.h_have_right:
    pshufb          m3, m17, m5
    pshufb         m18, m17, m6
    shufps          m0, m3, m18, q2121
    pmullw          m2, m0, m0
    pshufb         m19, m17, m7
    paddw           m0, m19
    pshufb         m17, m8
    paddw           m0, m17           ; sum3
    punpcklwd      m16, m19, m17
    punpcklwd       m1, m2, m4
    vpdpwssd        m1, m16, m16      ; sumsq3
    punpckhwd      m19, m17
    punpckhwd       m2, m4
    vpdpwssd        m2, m19, m19
    mova [t1+r10*2+416* 6], m0
    mova [t1+r10*2+416* 8], m1
    mova [t1+r10*2+416*10], m2
    punpcklwd      m19, m3, m18
    paddw           m0, m3
    vpdpwssd        m1, m19, m19      ; sumsq5
    punpckhwd       m3, m18
    paddw           m0, m18           ; sum5
    vpdpwssd        m2, m3, m3
    mova [t1+r10*2+416* 0], m0
    mova [t1+r10*2+416* 2], m1
    mova [t1+r10*2+416* 4], m2
    add            r10, 32
    jl .h_loop
    ret
ALIGN function_align
.hv0: ; horizontal boxsums + vertical boxsum3 + ab3 (even rows)
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv0_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .hv0_main
.hv0_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .hv0_main
.hv0_bottom:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv0_extend_left
.hv0_loop:
    movu          ym17, [lpfq+r10-2]
.hv0_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .hv0_have_right
    cmp           r10d, -34
    jl .hv0_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r12+r10-8]
    vinserti32x8   m16, [r12+r10+0], 1
    vpternlogd     m17, m0, m16, 0xe4
.hv0_have_right:
    pshufb         m18, m17, m5
    pshufb         m19, m17, m6
    shufps          m1, m18, m19, q2121
    pmullw          m3, m1, m1
    pshufb          m0, m17, m7
    paddw           m1, m0
    pshufb         m17, m8
    paddw           m1, m17           ; sum3
    punpcklwd      m16, m0, m17
    punpcklwd       m2, m3, m4
    vpdpwssd        m2, m16, m16      ; sumsq3
    punpckhwd       m0, m17
    punpckhwd       m3, m4
    vpdpwssd        m3, m0, m0
    paddw           m0, m1, [t1+r10*2+416* 6]
    paddd          m16, m2, [t1+r10*2+416* 8]
    paddd          m17, m3, [t1+r10*2+416*10]
    mova [t1+r10*2+416* 6], m1
    mova [t1+r10*2+416* 8], m2
    mova [t1+r10*2+416*10], m3
    paddw           m1, m18
    paddw           m1, m19           ; sum5
    mova [t3+r10*4+416*8+ 8], m1
    paddw           m1, [t1+r10*2+416* 0]
    mova [t1+r10*2+416* 0], m1
    punpcklwd       m1, m18, m19
    vpdpwssd        m2, m1, m1        ; sumsq5
    punpckhwd      m18, m19
    vpdpwssd        m3, m18, m18
    mova [t3+r10*4+416*0+ 8], m2      ; we need a clean copy of the last row
    mova [t3+r10*4+416*0+72], m3      ; in case height is odd
    paddd           m2, [t1+r10*2+416* 2]
    paddd           m3, [t1+r10*2+416* 4]
    mova [t1+r10*2+416* 2], m2
    mova [t1+r10*2+416* 4], m3
    paddw           m1, m0, [t2+r10*2+416* 6]
    paddd           m2, m16, [t2+r10*2+416* 8]
    paddd           m3, m17, [t2+r10*2+416*10]
    mova [t2+r10*2+416* 6], m0
    mova [t2+r10*2+416* 8], m16
    mova [t2+r10*2+416*10], m17
    pmulld         m16, m2, m9        ; -a3 * 9
    pmulld         m17, m3, m9
    punpcklwd       m0, m4, m1        ; b3
    vpdpwssd       m16, m0, m0        ; -p3
    punpckhwd       m1, m4, m1
    vpdpwssd       m17, m1, m1
    pmulld         m16, m12           ; p3 * s1
    pmulld         m17, m12
    pmaddwd         m0, m13           ; b3 * 455
    pmaddwd         m1, m13
    vpalignr   m17{k2}, m16, m16, 2
    mova           m16, m22
    paddusw        m17, m14
    psraw          m17, 4             ; min(z3, 255) - 256
    vpermt2b       m16, m17, m23      ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m20, m21      ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16           ; x3
    pandn          m16, m24, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    paddd           m0, m15           ; x3 * b3 * 455 + (1 << 11) + (1 << 15)
    paddd           m1, m15
    vpternlogd     m16, m0, m24, 0xd8 ; a3 | (b3 << 12)
    vpternlogd     m17, m1, m24, 0xd8
    mova          [t3+r10*4+416*4+  8], m16
    mova          [t3+r10*4+416*4+ 24], xm17
    vextracti32x4 [t3+r10*4+416*4+ 56], m17, 2
    mova          [t3+r10*4+416*4+ 72], m17
    vextracti128  [t3+r10*4+416*4+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+416*4+104], m16, 3
    add            r10, 32
    jl .hv0_loop
    ret
ALIGN function_align
.hv1: ; horizontal boxsums + vertical boxsums + ab (odd rows)
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv1_extend_left
    movd          xm17, [leftq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    add          leftq, 4
    jmp .hv1_main
.hv1_extend_left:
    vpbroadcastb  xm17, [lpfq+wq]
    vmovdqu32 ym17{k1}, [lpfq+wq-4]
    jmp .hv1_main
.hv1_bottom:
    lea            r10, [wq-2]
    test         edgeb, 1 ; LR_HAVE_LEFT
    jz .hv1_extend_left
.hv1_loop:
    movu          ym17, [lpfq+r10-2]
.hv1_main:
    vinserti32x8   m17, [lpfq+r10+6], 1
    test         edgeb, 2 ; LR_HAVE_RIGHT
    jnz .hv1_have_right
    cmp           r10d, -34
    jl .hv1_have_right
    vpbroadcastb    m0, [lpfq-1]
    movu          ym16, [r12+r10-8]
    vinserti32x8   m16, [r12+r10+0], 1
    vpternlogd    m17, m0, m16, 0xe4
.hv1_have_right:
    pshufb          m3, m17, m5
    pshufb         m19, m17, m6
    shufps          m2, m3, m19, q2121
    pmullw          m1, m2, m2
    pshufb         m18, m17, m7
    paddw           m2, m18
    pshufb         m17, m8
    paddw           m2, m17           ; sum3
    punpcklwd      m16, m17, m18
    punpcklwd       m0, m1, m4
    vpdpwssd        m0, m16, m16      ; sumsq3
    punpckhwd      m17, m18
    punpckhwd       m1, m4
    vpdpwssd        m1, m17, m17
    paddd          m16, m0, [t2+r10*2+416* 8]
    paddd          m17, m1, [t2+r10*2+416*10]
    mova [t2+r10*2+416* 8], m0
    mova [t2+r10*2+416*10], m1
    punpcklwd      m18, m3, m19
    vpdpwssd        m0, m18, m18      ; sumsq5
    punpckhwd      m18, m3, m19
    vpdpwssd        m1, m18, m18
    paddw           m3, m19
    pmulld         m16, m9            ; -a3 * 9
    pmulld         m17, m9
    paddd          m18, m0, [t2+r10*2+416*2]
    paddd          m19, m1, [t2+r10*2+416*4]
    paddd          m18, [t1+r10*2+416*2]
    paddd          m19, [t1+r10*2+416*4]
    mova [t2+r10*2+416*2], m0
    mova [t2+r10*2+416*4], m1
    pmulld         m18, m10           ; -a5 * 25
    pmulld         m19, m10
    paddw           m1, m2, [t2+r10*2+416* 6]
    mova [t2+r10*2+416* 6], m2
    paddw           m2, m3            ; sum5
    paddw           m3, m2, [t2+r10*2+416*0]
    paddw           m3, [t1+r10*2+416*0]
    mova [t2+r10*2+416*0], m2
    punpcklwd       m0, m4, m1        ; b3
    vpdpwssd       m16, m0, m0        ; -p3
    punpckhwd       m1, m4, m1
    vpdpwssd       m17, m1, m1
    punpcklwd       m2, m3, m4        ; b5
    vpdpwssd       m18, m2, m2        ; -p5
    punpckhwd       m3, m4
    vpdpwssd       m19, m3, m3
    pmulld         m16, m12           ; p3 * s1
    pmulld         m17, m12
    pmulld         m18, m11           ; p5 * s0
    pmulld         m19, m11
    pmaddwd         m0, m13           ; b3 * 455
    pmaddwd         m1, m13
    pmaddwd         m2, m13           ; b5 * 164
    pmaddwd         m3, m13
    vpalignr   m17{k2}, m16, m16, 2
    vpalignr   m19{k2}, m18, m18, 2
    paddusw        m17, m14
    mova           m16, m22
    psraw          m17, 4             ; min(z3, 255) - 256
    vpermt2b       m16, m17, m23      ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m20, m21      ; sgr_x_by_x[  0..127]
    paddusw        m19, m14
    mova           m18, m22
    psraw          m19, 4             ; min(z5, 255) - 256
    vpermt2b       m18, m19, m23      ; sgr_x_by_x[128..255]
    vpmovb2m        k4, m19
    vpermi2b       m19, m20, m21      ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16           ; x3
    vmovdqu8   m19{k4}, m18           ; x5
    pandn          m16, m24, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    pandn          m18, m24, m19
    psrld          m19, 16
    pmulld          m2, m18
    pmulld          m3, m19
    paddd           m0, m15           ; x3 * b3 * 455 + (1 << 11) + (1 << 15)
    paddd           m1, m15
    vpternlogd     m16, m0, m24, 0xd8 ; a3 | (b3 << 12)
    vpternlogd     m17, m1, m24, 0xd8
    mova          [t3+r10*4+416*8+  8], m16
    mova          [t3+r10*4+416*8+ 24], xm17
    vextracti32x4 [t3+r10*4+416*8+ 56], m17, 2
    paddd           m2, m15           ; x5 * b5 * 164 + (1 << 11) + (1 << 15)
    paddd           m3, m15
    mova          [t3+r10*4+416*8+ 72], m17
    vextracti128  [t3+r10*4+416*8+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+416*8+104], m16, 3
    vpternlogd     m18, m2, m24, 0xd8 ; a5 | (b5 << 12)
    vpternlogd     m19, m3, m24, 0xd8
    mova          [t3+r10*4+416*0+  8], m18
    mova          [t3+r10*4+416*0+ 24], xm19
    vextracti32x4 [t3+r10*4+416*0+ 56], m19, 2
    mova          [t3+r10*4+416*0+ 72], m19
    vextracti128  [t3+r10*4+416*0+ 72], ym18, 1
    vextracti32x4 [t3+r10*4+416*0+104], m18, 3
    add            r10, 32
    jl .hv1_loop
    mov            r10, t2
    mov             t2, t1
    mov             t1, r10
    ret
.v0: ; vertical boxsums + ab3 (even rows)
    lea            r10, [wq-2]
.v0_loop:
    mova            m2, [t1+r10*2+416* 8]
    mova            m3, [t1+r10*2+416*10]
    paddd           m2, m2
    paddd           m3, m3
    paddd          m16, m2, [t2+r10*2+416* 8]
    paddd          m17, m3, [t2+r10*2+416*10]
    mova            m0, [t1+r10*2+416* 6]
    paddw           m0, m0
    paddw           m1, m0, [t2+r10*2+416* 6]
    pmulld         m16, m9            ; -a3 * 9
    pmulld         m17, m9
    mova [t2+r10*2+416* 6], m0
    mova [t2+r10*2+416* 8], m2
    mova [t2+r10*2+416*10], m3
    mova            m2, [t1+r10*2+416*0]
    mova            m3, [t1+r10*2+416*2]
    mova           m18, [t1+r10*2+416*4]
    punpcklwd       m0, m4, m1        ; b3
    vpdpwssd       m16, m0, m0        ; -p3
    punpckhwd       m1, m4, m1
    vpdpwssd       m17, m1, m1
    pmulld         m16, m12           ; p3 * s1
    pmulld         m17, m12
    pmaddwd         m0, m13           ; b3 * 455
    pmaddwd         m1, m13
    mova [t3+r10*4+416*8+ 8], m2
    mova [t3+r10*4+416*0+ 8], m3
    mova [t3+r10*4+416*0+72], m18
    vpalignr   m17{k2}, m16, m16, 2
    mova           m16, m22
    paddusw        m17, m14
    psraw          m17, 4             ; min(z3, 255) - 256
    vpermt2b       m16, m17, m23      ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m20, m21      ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16           ; x3
    pandn          m16, m24, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    paddw           m2, m2            ; cc5
    paddd           m3, m3
    paddd          m18, m18
    mova [t1+r10*2+416*0], m2
    mova [t1+r10*2+416*2], m3
    mova [t1+r10*2+416*4], m18
    paddd           m0, m15           ; x3 * b3 * 455 + (1 << 11) + (1 << 15)
    paddd           m1, m15
    vpternlogd     m16, m0, m24, 0xd8 ; a3 | (b3 << 12)
    vpternlogd     m17, m1, m24, 0xd8
    mova          [t3+r10*4+416*4+  8], m16
    mova          [t3+r10*4+416*4+ 24], xm17
    vextracti32x4 [t3+r10*4+416*4+ 56], m17, 2
    mova          [t3+r10*4+416*4+ 72], m17
    vextracti128  [t3+r10*4+416*4+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+416*4+104], m16, 3
    add            r10, 32
    jl .v0_loop
    ret
.v1: ; vertical boxsums + ab (odd rows)
    lea            r10, [wq-2]
.v1_loop:
    mova            m0, [t1+r10*2+416* 8]
    paddd          m16, m0, [t2+r10*2+416* 8]
    mova            m1, [t1+r10*2+416*10]
    paddd          m17, m1, [t2+r10*2+416*10]
    mova            m2, [t3+r10*4+416*0+ 8]
    paddd          m18, m2, [t2+r10*2+416* 2]
    mova            m3, [t3+r10*4+416*0+72]
    paddd          m19, m3, [t2+r10*2+416* 4]
    paddd          m18, [t1+r10*2+416* 2]
    paddd          m19, [t1+r10*2+416* 4]
    mova [t2+r10*2+416* 8], m0
    mova [t2+r10*2+416*10], m1
    mova [t2+r10*2+416* 2], m2
    mova [t2+r10*2+416* 4], m3
    pmulld         m16, m9            ; -a3 * 9
    pmulld         m17, m9
    pmulld         m18, m10           ; -a5 * 25
    pmulld         m19, m10
    mova            m0, [t1+r10*2+416* 6]
    paddw           m1, m0, [t2+r10*2+416* 6]
    mova            m2, [t3+r10*4+416*8+ 8]
    paddw           m3, m2, [t2+r10*2+416*0]
    paddw           m3, [t1+r10*2+416*0]
    mova [t2+r10*2+416* 6], m0
    mova [t2+r10*2+416*0], m2
    punpcklwd       m0, m4, m1        ; b3
    vpdpwssd       m16, m0, m0        ; -p3
    punpckhwd       m1, m4, m1
    vpdpwssd       m17, m1, m1
    punpcklwd       m2, m3, m4        ; b5
    vpdpwssd       m18, m2, m2        ; -p5
    punpckhwd       m3, m4
    vpdpwssd       m19, m3, m3
    pmulld         m16, m12           ; p3 * s1
    pmulld         m17, m12
    pmulld         m18, m11           ; p5 * s0
    pmulld         m19, m11
    pmaddwd         m0, m13           ; b3 * 455
    pmaddwd         m1, m13
    pmaddwd         m2, m13           ; b5 * 164
    pmaddwd         m3, m13
    vpalignr   m17{k2}, m16, m16, 2
    vpalignr   m19{k2}, m18, m18, 2
    paddusw        m17, m14
    mova           m16, m22
    psraw          m17, 4             ; min(z3, 255) - 256
    vpermt2b       m16, m17, m23      ; sgr_x_by_x[128..255]
    vpmovb2m        k3, m17
    vpermi2b       m17, m20, m21      ; sgr_x_by_x[  0..127]
    paddusw        m19, m14
    mova           m18, m22
    psraw          m19, 4             ; min(z5, 255) - 256
    vpermt2b       m18, m19, m23      ; sgr_x_by_x[128..255]
    vpmovb2m        k4, m19
    vpermi2b       m19, m20, m21      ; sgr_x_by_x[  0..127]
    vmovdqu8   m17{k3}, m16           ; x3
    vmovdqu8   m19{k4}, m18           ; x5
    pandn          m16, m24, m17
    psrld          m17, 16
    pmulld          m0, m16
    pmulld          m1, m17
    pandn          m18, m24, m19
    psrld          m19, m19, 16
    pmulld          m2, m18
    pmulld          m3, m19
    paddd           m0, m15           ; x3 * b3 * 455 + (1 << 11) + (1 << 15)
    paddd           m1, m15
    vpternlogd     m16, m0, m24, 0xd8 ; a3 | (b3 << 12)
    vpternlogd     m17, m1, m24, 0xd8
    mova          [t3+r10*4+416*8+  8], m16
    mova          [t3+r10*4+416*8+ 24], xm17
    vextracti32x4 [t3+r10*4+416*8+ 56], m17, 2
    paddd           m2, m15           ; x5 * b5 * 164 + (1 << 11) + (1 << 15)
    paddd           m3, m15
    mova          [t3+r10*4+416*8+ 72], m17
    vextracti128  [t3+r10*4+416*8+ 72], ym16, 1
    vextracti32x4 [t3+r10*4+416*8+104], m16, 3
    vpternlogd     m18, m2, m24, 0xd8 ; a5 | (b5 << 12)
    vpternlogd     m19, m3, m24, 0xd8
    mova          [t3+r10*4+416*0+  8], m18
    mova          [t3+r10*4+416*0+ 24], xm19
    vextracti32x4 [t3+r10*4+416*0+ 56], m19, 2
    mova          [t3+r10*4+416*0+ 72], m19
    vextracti128  [t3+r10*4+416*0+ 72], ym18, 1
    vextracti32x4 [t3+r10*4+416*0+104], m18, 3
    add            r10, 32
    jl .v1_loop
    mov            r10, t2
    mov             t2, t1
    mov             t1, r10
    ret
.prep_n: ; initial neighbor setup
    mov            r10, wq
.prep_n_loop:
    movu            m0, [t3+r10*4+416*0+4]
    paddd           m1, m0, [t3+r10*4+416*0+0]
    mova           m16, [t3+r10*4+416*4+0]
    paddd           m1, [t3+r10*4+416*0+8]
    mova           m17, [t3+r10*4+416*8+0]
    paddd          m16, [t3+r10*4+416*4+8]
    paddd          m17, [t3+r10*4+416*8+8]
    paddd           m2, m16, [t3+r10*4+416*4+4]
    paddd           m3, m17, [t3+r10*4+416*8+4]
    paddd           m0, m1
    pslld           m1, 2
    pslld           m2, 2
    paddd           m1, m0            ; ab5 565
    paddd           m3, m3            ; ab3[ 0] 222
    psubd           m2, m16           ; ab3[-1] 343
    mova [t3+r10*4+416*20], m3
    pandn           m0, m24, m1       ; a5 565
    mova [t3+r10*4+416*24], m2
    psrld           m1, 12            ; b5 565
    mova [t3+r10*4+416*12], m0
    paddd           m3, m3
    mova [t3+r10*4+416*16], m1
    psubd           m3, m17           ; ab3[ 0] 343
    mova [t3+r10*4+416*28], m3
    add            r10, 16
    jl .prep_n_loop
    ret
ALIGN function_align
.n0: ; neighbor + output (even rows)
    mov            r10, wq
.n0_loop:
    movu            m2, [t3+r10*4+4]
    paddd           m3, m2, [t3+r10*4+0]
    paddd           m3, [t3+r10*4+8]
    mova            m1, [t3+r10*4+416*4+0]
    paddd           m2, m3
    pslld           m3, 2
    paddd           m1, [t3+r10*4+416*4+8]
    paddd           m3, m2
    pandn           m2, m24, m3
    psrld           m3, 12
    paddd           m0, m2, [t3+r10*4+416*12] ; a5
    paddd          m16, m3, [t3+r10*4+416*16] ; b5 + (1 << 8)
    mova [t3+r10*4+416*12], m2
    mova [t3+r10*4+416*16], m3
    paddd           m2, m1, [t3+r10*4+416*4+4]
    paddd           m2, m2                    ; ab3[ 1] 222
    mova            m3, [t3+r10*4+416*20]
    paddd          m17, m3, [t3+r10*4+416*24] ; ab3[ 0] 222 + ab3[-1] 343
    mova [t3+r10*4+416*20], m2
    paddd           m2, m2
    psubd           m2, m1                    ; ab3[ 1] 343
    mova [t3+r10*4+416*24], m2
    paddd           m2, m3                    ; ab3[ 0] 222 + ab3[ 1] 343
    pandn           m1, m24, m17
    psrld          m17, 12
    pandn           m3, m24, m2
    psrld           m2, 12
    paddd           m1, m3                    ; a3
    pmovzxbd        m3, [dstq+r10]
    paddd          m17, m2                    ; b3 + (1 << 8)
    pmaddwd         m0, m3                    ; a5 * src
    pmaddwd         m1, m3                    ; a3 * src
    vpshldd         m3, m25, 16               ; (dst << 16) + (1 << 15)
    psubd          m16, m0                    ; b5 - a5 * src + (1 << 8)
    psubd          m17, m1                    ; b3 - a3 * src + (1 << 8)
    psrld          m16, 9
    pslld          m17, 7
    vmovdqu8   m17{k2}, m16
    vpdpwssd        m3, m17, m26
    packuswb        m3, m2
    vpermb         m16, m27, m3
    mova    [dstq+r10], xm16
    add            r10, 16
    jl .n0_loop
    add           dstq, strideq
    ret
ALIGN function_align
.n1: ; neighbor + output (odd rows)
    mov            r10, wq
.n1_loop:
    mova            m1, [t3+r10*4+416*8+0]
    paddd           m1, [t3+r10*4+416*8+8]
    paddd           m2, m1, [t3+r10*4+416*8+4]
    paddd           m2, m2                    ; ab3[ 1] 222
    mova            m0, [t3+r10*4+416*20]
    paddd          m17, m0, [t3+r10*4+416*28] ; ab3[ 0] 222 + ab3[-1] 343
    pmovzxbd        m3, [dstq+r10]
    mova [t3+r10*4+416*20], m2
    paddd           m2, m2
    psubd           m2, m1                    ; ab3[ 1] 343
    mova [t3+r10*4+416*28], m2
    paddd           m0, m2                    ; ab3[ 0] 222 + ab3[ 1] 343
    pandn           m1, m24, m17
    psrld          m17, 12
    pandn           m2, m24, m0
    psrld           m0, 12
    paddd           m1, m2                    ; a3
    paddd          m17, m0                    ; b3 + (1 << 8)
    mova           m16, [t3+r10*4+416*16]     ; b5 + (1 << 7)
    pmaddwd         m1, m3                    ; a3 * src
    pmaddwd         m0, m3, [t3+r10*4+416*12] ; a5 * src
    vpshldd         m3, m25, 16               ; (dst << 16) + (1 << 15)
    psubd          m17, m1                    ; b3 - a3 * src + (1 << 8)
    psubd          m16, m0                    ; b5 - a5 * src + (1 << 7)
    pslld          m17, 7
    palignr    m17{k2}, m16, m16, 1
    vpdpwssd        m3, m17, m26
    packuswb        m3, m3
    vpermb         m16, m27, m3
    mova    [dstq+r10], xm16
    add            r10, 16
    jl .n1_loop
    add           dstq, strideq
    ret

%endif ; ARCH_X86_64