common/arm/impeg2_inter_pred.s

*a97c2a1fSXin Li@/******************************************************************************
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * Copyright (C) 2015 The Android Open Source Project
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * Licensed under the Apache License, Version 2.0 (the "License");
*a97c2a1fSXin Li@ * you may not use this file except in compliance with the License.
*a97c2a1fSXin Li@ * You may obtain a copy of the License at:
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * http://www.apache.org/licenses/LICENSE-2.0
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * Unless required by applicable law or agreed to in writing, software
*a97c2a1fSXin Li@ * distributed under the License is distributed on an "AS IS" BASIS,
*a97c2a1fSXin Li@ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*a97c2a1fSXin Li@ * See the License for the specific language governing permissions and
*a97c2a1fSXin Li@ * limitations under the License.
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ *****************************************************************************
*a97c2a1fSXin Li@ * Originally developed and contributed by Ittiam Systems Pvt. Ltd, Bangalore
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@//----------------------------------------------------------------------------
*a97c2a1fSXin Li@// File Name            : impeg2_inter_pred.s
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Description          : This file has motion compensation related
*a97c2a1fSXin Li@//                        interpolation functions on Neon + CortexA-8 platform
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Reference Document   :
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Revision History     :
*a97c2a1fSXin Li@//      Date            Author                  Detail Description
*a97c2a1fSXin Li@//   ------------    ----------------    ----------------------------------
*a97c2a1fSXin Li@//   18 jun 2010     S Hamsalekha              Created
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@//-------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@// Include Files
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li.text
*a97c2a1fSXin Li.p2align 2
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@// Struct/Union Types and Define
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@// Static Global Data section variables
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li@// -------------------------- NONE --------------------------------------------
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@// Static Prototype Functions
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li@// -------------------------- NONE --------------------------------------------
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@// Exported functions
*a97c2a1fSXin Li@// ----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li@//---------------------------------------------------------------------------
*a97c2a1fSXin Li@// Function Name      :   impeg2_copy_mb_a9q()
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Detail Description : Copies one MB worth of data from src to the dst
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Inputs             : r0 - pointer to src
*a97c2a1fSXin Li@//                      r1 - pointer to dst
*a97c2a1fSXin Li@//                      r2 - source width
*a97c2a1fSXin Li@//                      r3 - destination width
*a97c2a1fSXin Li@// Registers Used     : r4, r5, d0, d1
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Stack Usage        : 12 bytes
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Outputs            :
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Return Data        : None
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Programming Note   : <program limitation>
*a97c2a1fSXin Li@//-----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li        .global impeg2_copy_mb_a9q
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Liimpeg2_copy_mb_a9q:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd           sp!, {r4, r5, r14}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r4, [r0]            @src->y
*a97c2a1fSXin Li    ldr             r5, [r1]            @dst->y
*a97c2a1fSXin Li    @Read one row of data from the src
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @//Repeat 15 times for y
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4], r2  @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r5], r3  @Store and increment dst
*a97c2a1fSXin Li
*a97c2a1fSXin Li    mov             r2, r2, lsr #1      @src_offset /= 2
*a97c2a1fSXin Li    mov             r3, r3, lsr #1      @dst_offset /= 2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r4, [r0, #4]        @src->u
*a97c2a1fSXin Li    ldr             r5, [r1, #4]        @dst->u
*a97c2a1fSXin Li    @Read one row of data from the src
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @//Repeat 7 times for u
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r4, [r0, #8]        @src->v
*a97c2a1fSXin Li    ldr             r5, [r1, #8]        @dst->v
*a97c2a1fSXin Li    @Read one row of data from the src
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @//Repeat 7 times for v
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li    vld1.8          {d0}, [r4], r2      @Load and increment src
*a97c2a1fSXin Li    vst1.8          {d0}, [r5], r3      @Store and increment dst
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldmfd           sp!, {r4, r5, pc}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@//---------------------------------------------------------------------------
*a97c2a1fSXin Li@// Function Name      :   impeg2_mc_fullx_halfy_8x8_a9q()
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Detail Description : This function pastes the reference block in the
*a97c2a1fSXin Li@//                      current frame buffer.This function is called for
*a97c2a1fSXin Li@//                      blocks that are not coded and have motion vectors
*a97c2a1fSXin Li@//                      with a half pel resolution.
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Inputs             : r0 - out    : Current Block Pointer
*a97c2a1fSXin Li@//                      r1 - ref     : Refernce Block Pointer
*a97c2a1fSXin Li@//                      r2 - ref_wid   : Refernce Block Width
*a97c2a1fSXin Li@//                      r3 - out_wid   ; Current Block Width
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Registers Used     : D0-D9
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Stack Usage        : 4 bytes
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Outputs            : The Motion Compensated Block
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Return Data        : None
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Programming Note   : <program limitation>
*a97c2a1fSXin Li@//-----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li        .global impeg2_mc_fullx_halfy_8x8_a9q
*a97c2a1fSXin Li
*a97c2a1fSXin Liimpeg2_mc_fullx_halfy_8x8_a9q:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd           sp!, {r14}
*a97c2a1fSXin Li    vpush           {d8-d9}
*a97c2a1fSXin Li    add             r14, r1, r2
*a97c2a1fSXin Li    mov             r2, r2, lsl #1
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/* Load 8 + 1 rows from reference block */
*a97c2a1fSXin Li@/* Do the addition with out rounding off as rounding value is 1 */
*a97c2a1fSXin Li    vld1.8          {d0}, [r1], r2      @// first row hence r1 = D0
*a97c2a1fSXin Li    vld1.8          {d2}, [r14], r2     @// second row hence r2 = D2
*a97c2a1fSXin Li    vld1.8          {d4}, [r1], r2      @// third row hence r3 = D4
*a97c2a1fSXin Li    vld1.8          {d6}, [r14], r2     @// fourth row hence r4 = D6
*a97c2a1fSXin Li    vld1.8          {d1}, [r1], r2      @// fifth row hence r5 = D1
*a97c2a1fSXin Li    vld1.8          {d3}, [r14], r2     @// sixth row hence r6 = D3
*a97c2a1fSXin Li    vrhadd.u8       d9, d1, d6          @// estimated row 4 = D9
*a97c2a1fSXin Li    vld1.8          {d5}, [r1], r2      @// seventh row hence r7 = D5
*a97c2a1fSXin Li    vrhadd.u8       q0, q0, q1          @// estimated row 1 = D0, row 5 = D1
*a97c2a1fSXin Li    vld1.8          {d7}, [r14], r2     @// eighth row hence r8 = D7
*a97c2a1fSXin Li    vrhadd.u8       q1, q1, q2          @// estimated row 2 = D2, row 6 = D3
*a97c2a1fSXin Li    vld1.8          {d8}, [r1], r2      @// ninth row hence r9 = D8
*a97c2a1fSXin Li    vrhadd.u8       q2, q2, q3          @// estimated row 3 = D4, row 7 = D5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r14, r0, r3
*a97c2a1fSXin Li    mov             r3, r3, lsl #1
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/* Store the eight rows calculated above */
*a97c2a1fSXin Li    vst1.8          {d2}, [r14], r3     @// second row hence D2
*a97c2a1fSXin Li    vrhadd.u8       d7, d7, d8          @// estimated row 8 = D7
*a97c2a1fSXin Li    vst1.8          {d0}, [r0], r3      @// first row hence D0
*a97c2a1fSXin Li    vst1.8          {d9}, [r14], r3     @// fourth row hence D9
*a97c2a1fSXin Li    vst1.8          {d4}, [r0], r3      @// third row hence D4
*a97c2a1fSXin Li    vst1.8          {d3}, [r14], r3     @// sixth row hence r6 = D3
*a97c2a1fSXin Li    vst1.8          {d1}, [r0], r3      @// fifth row hence r5 = D1
*a97c2a1fSXin Li    vst1.8          {d7}, [r14], r3     @// eighth row hence r8 = D7
*a97c2a1fSXin Li    vst1.8          {d5}, [r0], r3      @// seventh row hence r7 = D5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpop            {d8-d9}
*a97c2a1fSXin Li    ldmfd           sp!, {pc}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@//---------------------------------------------------------------------------
*a97c2a1fSXin Li@// Function Name      :   impeg2_mc_halfx_fully_8x8_a9q()
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Detail Description : This function pastes the reference block in the
*a97c2a1fSXin Li@//                      current frame buffer.This function is called for
*a97c2a1fSXin Li@//                      blocks that are not coded and have motion vectors
*a97c2a1fSXin Li@//                      with a half pel resolutionand VopRoundingType is 0 ..
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Inputs             : r0 - out    : Current Block Pointer
*a97c2a1fSXin Li@//                      r1 - ref     : Refernce Block Pointer
*a97c2a1fSXin Li@//                      r2 - ref_wid   : Refernce Block Width
*a97c2a1fSXin Li@//                      r3 - out_wid   ; Current Block Width
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Registers Used     : r12, r14, d0-d10, d12-d14, d16-d18, d20-d22
*a97c2a1fSXin Li
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Stack Usage        : 8 bytes
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Outputs            : The Motion Compensated Block
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Return Data        : None
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Programming Note   : <program limitation>
*a97c2a1fSXin Li@//-----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li        .global impeg2_mc_halfx_fully_8x8_a9q
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Liimpeg2_mc_halfx_fully_8x8_a9q:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd           sp!, {r12, lr}
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r14, r1, r2, lsl #2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r12, r0, r3, lsl#2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r1], r2  @load 16 pixels of  row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d2, d3}, [r14], r2 @ row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d4, d5}, [r1], r2  @load 16 pixels row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d6, d7}, [r14], r2 @row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d24, d0, d1, #1     @Extract pixels (1-8) of row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d28, d2, d3, #1     @Extract pixels (1-8) of row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d16, d4, d5, #1     @Extract pixels (1-8) of row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d20, d6, d7, #1     @Extract pixels (1-8) of row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d25, d26}, [r1], r2 @load row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d29, d30}, [r14], r2 @load row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d17, d18}, [r1], r2 @load  row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d21, d22}, [r14], r2 @load  row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d1, d25, d26, #1    @Extract pixels (1-8) of row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d3, d29, d30, #1    @Extract pixels (1-8) of row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d5, d17, d18, #1    @Extract pixels (1-8) of row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d7, d21, d22, #1    @Extract pixels (1-8) of row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q0, q0, q12         @operate on row1 and row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q1, q1, q14         @operate on row5 and row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q2, q2, q8          @operate on row2 and row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q3, q3, q10         @operate on row6 and row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d0, [r0], r3        @store row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d2, [r12], r3       @store row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d4, [r0], r3        @store row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d6, [r12], r3       @store row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d1, [r0], r3        @store row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d3, [r12], r3       @store row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d5, [r0], r3        @store row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d7, [r12], r3       @store row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldmfd           sp!, {r12, pc}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@//---------------------------------------------------------------------------
*a97c2a1fSXin Li@// Function Name      :   impeg2_mc_halfx_halfy_8x8_a9q()
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Detail Description : This function pastes the reference block in the
*a97c2a1fSXin Li@//                      current frame buffer.This function is called for
*a97c2a1fSXin Li@//                      blocks that are not coded and have motion vectors
*a97c2a1fSXin Li@//                      with a half pel resolutionand VopRoundingType is 0 ..
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Inputs             : r0 - out    : Current Block Pointer
*a97c2a1fSXin Li@//                      r1 - ref     : Refernce Block Pointer
*a97c2a1fSXin Li@//                      r2 - ref_wid   : Refernce Block Width
*a97c2a1fSXin Li@//                      r3 - out_wid   ; Current Block Width
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Registers Used     : r14, q0-q15
*a97c2a1fSXin Li
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Stack Usage        : 4 bytes
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Outputs            : The Motion Compensated Block
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Return Data        : None
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Programming Note   : <program limitation>
*a97c2a1fSXin Li@//-----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li        .global impeg2_mc_halfx_halfy_8x8_a9q
*a97c2a1fSXin Li
*a97c2a1fSXin Liimpeg2_mc_halfx_halfy_8x8_a9q:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd           sp!, {r14}
*a97c2a1fSXin Li    vpush           {d8-d15}
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r14, r1, r2, lsl #2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r1], r2  @load 16 pixels of  row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d2, d3}, [r14], r2 @ row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d4, d5}, [r1], r2  @load 16 pixels row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d6, d7}, [r14], r2 @row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d1, d0, d1, #1      @Extract pixels (1-8) of row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d3, d2, d3, #1      @Extract pixels (1-8) of row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d5, d4, d5, #1      @Extract pixels (1-8) of row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d7, d6, d7, #1      @Extract pixels (1-8) of row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d8, d9}, [r1], r2  @load row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d10, d11}, [r14], r2 @load row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d12, d13}, [r1], r2 @load  row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d14, d15}, [r14], r2 @load  row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d9, d8, d9, #1      @Extract pixels (1-8) of row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d16, d17}, [r14], r2 @load  row9
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d11, d10, d11, #1   @Extract pixels (1-8) of row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d13, d12, d13, #1   @Extract pixels (1-8) of row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d15, d14, d15, #1   @Extract pixels (1-8) of row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vext.8          d17, d16, d17, #1   @Extract pixels (1-8) of row9
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @interpolation in x direction
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q0, d0, d1          @operate row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q1, d2, d3          @operate row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q2, d4, d5          @operate row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q3, d6, d7          @operate row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q4, d8, d9          @operate row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q5, d10, d11        @operate row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q6, d12, d13        @operate row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q7, d14, d15        @operate row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vaddl.u8        q8, d16, d17        @operate row9
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @interpolation in y direction
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r14, r0, r3, lsl #2
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q9, q0, q2          @operate row1 and row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q13, q1, q3         @operate row5 and row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q10, q2, q4         @operate row2 and row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q14, q3, q5         @operate row6 and row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d18, q9, #2         @row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d26, q13, #2        @row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d20, q10, #2        @row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d28, q14, #2        @row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q11, q4, q6         @operate row3 and row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d18, [r0], r3       @store row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q15, q5, q7         @operate row7 and row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d26, [r14], r3      @store row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q12, q6, q1         @operate row4 and row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d20, [r0], r3       @store row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u16        q7, q7, q8          @operate row8 and row9
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d28, [r14], r3      @store row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d22, q11, #2        @row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d30, q15, #2        @row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d24, q12, #2        @row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrshrn.u16      d14, q7, #2         @row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d22, [r0], r3       @store row3
*a97c2a1fSXin Li    vst1.8          d30, [r14], r3      @store row7
*a97c2a1fSXin Li    vst1.8          d24, [r0], r3       @store row4
*a97c2a1fSXin Li    vst1.8          d14, [r14], r3      @store row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpop            {d8-d15}
*a97c2a1fSXin Li    ldmfd           sp!, {pc}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@//---------------------------------------------------------------------------
*a97c2a1fSXin Li@// Function Name      :   impeg2_mc_fullx_fully_8x8_a9q()
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Detail Description : This function pastes the reference block in the
*a97c2a1fSXin Li@//                      current frame buffer.This function is called for
*a97c2a1fSXin Li@//                      blocks that are not coded and have motion vectors
*a97c2a1fSXin Li@//                      with a half pel resolutionand ..
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Inputs             : r0 - out    : Current Block Pointer
*a97c2a1fSXin Li@//                      r1 - ref     : Refernce Block Pointer
*a97c2a1fSXin Li@//                      r2 - ref_wid   : Refernce Block Width
*a97c2a1fSXin Li@//                      r3 - out_wid   ; Current Block Width
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Registers Used     : r12, r14, d0-d3
*a97c2a1fSXin Li
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Stack Usage        : 8 bytes
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Outputs            : The Motion Compensated Block
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Return Data        : None
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Programming Note   : <program limitation>
*a97c2a1fSXin Li@//-----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li        .global impeg2_mc_fullx_fully_8x8_a9q
*a97c2a1fSXin Liimpeg2_mc_fullx_fully_8x8_a9q:
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd           sp!, {r12, lr}
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r14, r1, r2, lsl #2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    add             r12, r0, r3, lsl #2
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d0, [r1], r2        @load row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d1, [r14], r2       @load row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d2, [r1], r2        @load row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d3, [r14], r2       @load row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d0, [r0], r3        @store row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d1, [r12], r3       @store row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d2, [r0], r3        @store row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d3, [r12], r3       @store row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d0, [r1], r2        @load row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d1, [r14], r2       @load row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d2, [r1], r2        @load row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          d3, [r14], r2       @load row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d0, [r0], r3        @store row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d1, [r12], r3       @store row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d2, [r0], r3        @store row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          d3, [r12], r3       @store row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldmfd           sp!, {r12, pc}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@/*
*a97c2a1fSXin Li@//---------------------------------------------------------------------------
*a97c2a1fSXin Li@// Function Name      :   impeg2_interpolate_a9q()
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Detail Description : interpolates two buffers and adds pred
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Inputs             : r0 - pointer to src1
*a97c2a1fSXin Li@//                      r1 - pointer to src2
*a97c2a1fSXin Li@//                      r2 - dest buf
*a97c2a1fSXin Li@//                      r3 - dst stride
*a97c2a1fSXin Li@// Registers Used     : r4, r5, r7, r14, d0-d15
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Stack Usage        : 20 bytes
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Outputs            : The Motion Compensated Block
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Return Data        : None
*a97c2a1fSXin Li@//
*a97c2a1fSXin Li@// Programming Note   : <program limitation>
*a97c2a1fSXin Li@//-----------------------------------------------------------------------------
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li        .global impeg2_interpolate_a9q
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Liimpeg2_interpolate_a9q:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd           sp!, {r4, r5, r7, r12, r14}
*a97c2a1fSXin Li    vpush           {d8-d15}
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r4, [r0, #0]        @ptr_y src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r5, [r1, #0]        @ptr_y src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r7, [r2, #0]        @ptr_y dst buf
*a97c2a1fSXin Li
*a97c2a1fSXin Li    mov             r12, #4             @counter for number of blocks
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Liinterp_lumablocks_stride:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4]!     @row1 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d2, d3}, [r4]!     @row2 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d4, d5}, [r4]!     @row3 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d6, d7}, [r4]!     @row4 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d8, d9}, [r5]!     @row1 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d10, d11}, [r5]!   @row2 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d12, d13}, [r5]!   @row3 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d14, d15}, [r5]!   @row4 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q0, q0, q4          @operate on row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q1, q1, q5          @operate on row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q2, q2, q6          @operate on row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q3, q3, q7          @operate on row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d0, d1}, [r7], r3  @row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d2, d3}, [r7], r3  @row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d4, d5}, [r7], r3  @row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d6, d7}, [r7], r3  @row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    subs            r12, r12, #1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    bne             interp_lumablocks_stride
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    mov             r3, r3, lsr #1      @stride >> 1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r4, [r0, #4]        @ptr_u src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r5, [r1, #4]        @ptr_u src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r7 , [r2, #4]       @ptr_u dst buf
*a97c2a1fSXin Li
*a97c2a1fSXin Li    mov             r12, #2             @counter for number of blocks
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@chroma blocks
*a97c2a1fSXin Li
*a97c2a1fSXin Liinterp_chromablocks_stride:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d0, d1}, [r4]!     @row1 & 2 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d2, d3}, [r4]!     @row3 & 4 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d4, d5}, [r4]!     @row5 & 6 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d6, d7}, [r4]!     @row7 & 8 src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d8, d9}, [r5]!     @row1 & 2 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d10, d11}, [r5]!   @row3 & 4 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d12, d13}, [r5]!   @row5 & 6 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vld1.8          {d14, d15}, [r5]!   @row7 & 8 src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q0, q0, q4          @operate on row1 & 2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q1, q1, q5          @operate on row3 & 4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q2, q2, q6          @operate on row5 & 6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8       q3, q3, q7          @operate on row7 & 8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d0}, [r7], r3      @row1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d1}, [r7], r3      @row2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d2}, [r7], r3      @row3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d3}, [r7], r3      @row4
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d4}, [r7], r3      @row5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d5}, [r7], r3      @row6
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d6}, [r7], r3      @row7
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vst1.8          {d7}, [r7], r3      @row8
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r4, [r0, #8]        @ptr_v src1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r5, [r1, #8]        @ptr_v src2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    ldr             r7, [r2, #8]        @ptr_v dst buf
*a97c2a1fSXin Li
*a97c2a1fSXin Li    subs            r12, r12, #1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    bne             interp_chromablocks_stride
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpop            {d8-d15}
*a97c2a1fSXin Li    ldmfd           sp!, {r4, r5, r7, r12, pc}
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li