string/arm/memcpy.S

*412f47f9SXin Li/*
*412f47f9SXin Li * memcpy - copy memory area
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2013-2022, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li/*
*412f47f9SXin Li   This memcpy routine is optimised for Cortex-A15 cores and takes advantage
*412f47f9SXin Li   of VFP or NEON when built with the appropriate flags.
*412f47f9SXin Li
*412f47f9SXin Li   Assumptions:
*412f47f9SXin Li
*412f47f9SXin Li    ARMv6 (ARMv7-a if using Neon)
*412f47f9SXin Li    ARM state
*412f47f9SXin Li    Unaligned accesses
*412f47f9SXin Li
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "asmdefs.h"
*412f47f9SXin Li
*412f47f9SXin Li	.syntax unified
*412f47f9SXin Li	/* This implementation requires ARM state.  */
*412f47f9SXin Li	.arm
*412f47f9SXin Li
*412f47f9SXin Li#ifdef __ARM_NEON__
*412f47f9SXin Li
*412f47f9SXin Li	.fpu	neon
*412f47f9SXin Li	.arch	armv7-a
*412f47f9SXin Li# define FRAME_SIZE	4
*412f47f9SXin Li# define USE_VFP
*412f47f9SXin Li# define USE_NEON
*412f47f9SXin Li
*412f47f9SXin Li#elif !defined (__SOFTFP__)
*412f47f9SXin Li
*412f47f9SXin Li	.arch	armv6
*412f47f9SXin Li	.fpu	vfpv2
*412f47f9SXin Li# define FRAME_SIZE	32
*412f47f9SXin Li# define USE_VFP
*412f47f9SXin Li
*412f47f9SXin Li#else
*412f47f9SXin Li	.arch	armv6
*412f47f9SXin Li# define FRAME_SIZE    32
*412f47f9SXin Li
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin Li/* Old versions of GAS incorrectly implement the NEON align semantics.  */
*412f47f9SXin Li#ifdef BROKEN_ASM_NEON_ALIGN
*412f47f9SXin Li#define ALIGN(addr, align) addr,:align
*412f47f9SXin Li#else
*412f47f9SXin Li#define ALIGN(addr, align) addr:align
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin Li#define PC_OFFSET	8	/* PC pipeline compensation.  */
*412f47f9SXin Li#define INSN_SIZE	4
*412f47f9SXin Li
*412f47f9SXin Li/* Call parameters.  */
*412f47f9SXin Li#define dstin	r0
*412f47f9SXin Li#define src	r1
*412f47f9SXin Li#define count	r2
*412f47f9SXin Li
*412f47f9SXin Li/* Locals.  */
*412f47f9SXin Li#define tmp1	r3
*412f47f9SXin Li#define dst	ip
*412f47f9SXin Li#define tmp2	r10
*412f47f9SXin Li
*412f47f9SXin Li#ifndef USE_NEON
*412f47f9SXin Li/* For bulk copies using GP registers.  */
*412f47f9SXin Li#define	A_l	r2		/* Call-clobbered.  */
*412f47f9SXin Li#define	A_h	r3		/* Call-clobbered.  */
*412f47f9SXin Li#define	B_l	r4
*412f47f9SXin Li#define	B_h	r5
*412f47f9SXin Li#define	C_l	r6
*412f47f9SXin Li#define	C_h	r7
*412f47f9SXin Li#define	D_l	r8
*412f47f9SXin Li#define	D_h	r9
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin Li/* Number of lines ahead to pre-fetch data.  If you change this the code
*412f47f9SXin Li   below will need adjustment to compensate.  */
*412f47f9SXin Li
*412f47f9SXin Li#define prefetch_lines	5
*412f47f9SXin Li
*412f47f9SXin Li#ifdef USE_VFP
*412f47f9SXin Li	.macro	cpy_line_vfp vreg, base
*412f47f9SXin Li	vstr	\vreg, [dst, #\base]
*412f47f9SXin Li	vldr	\vreg, [src, #\base]
*412f47f9SXin Li	vstr	d0, [dst, #\base + 8]
*412f47f9SXin Li	vldr	d0, [src, #\base + 8]
*412f47f9SXin Li	vstr	d1, [dst, #\base + 16]
*412f47f9SXin Li	vldr	d1, [src, #\base + 16]
*412f47f9SXin Li	vstr	d2, [dst, #\base + 24]
*412f47f9SXin Li	vldr	d2, [src, #\base + 24]
*412f47f9SXin Li	vstr	\vreg, [dst, #\base + 32]
*412f47f9SXin Li	vldr	\vreg, [src, #\base + prefetch_lines * 64 - 32]
*412f47f9SXin Li	vstr	d0, [dst, #\base + 40]
*412f47f9SXin Li	vldr	d0, [src, #\base + 40]
*412f47f9SXin Li	vstr	d1, [dst, #\base + 48]
*412f47f9SXin Li	vldr	d1, [src, #\base + 48]
*412f47f9SXin Li	vstr	d2, [dst, #\base + 56]
*412f47f9SXin Li	vldr	d2, [src, #\base + 56]
*412f47f9SXin Li	.endm
*412f47f9SXin Li
*412f47f9SXin Li	.macro	cpy_tail_vfp vreg, base
*412f47f9SXin Li	vstr	\vreg, [dst, #\base]
*412f47f9SXin Li	vldr	\vreg, [src, #\base]
*412f47f9SXin Li	vstr	d0, [dst, #\base + 8]
*412f47f9SXin Li	vldr	d0, [src, #\base + 8]
*412f47f9SXin Li	vstr	d1, [dst, #\base + 16]
*412f47f9SXin Li	vldr	d1, [src, #\base + 16]
*412f47f9SXin Li	vstr	d2, [dst, #\base + 24]
*412f47f9SXin Li	vldr	d2, [src, #\base + 24]
*412f47f9SXin Li	vstr	\vreg, [dst, #\base + 32]
*412f47f9SXin Li	vstr	d0, [dst, #\base + 40]
*412f47f9SXin Li	vldr	d0, [src, #\base + 40]
*412f47f9SXin Li	vstr	d1, [dst, #\base + 48]
*412f47f9SXin Li	vldr	d1, [src, #\base + 48]
*412f47f9SXin Li	vstr	d2, [dst, #\base + 56]
*412f47f9SXin Li	vldr	d2, [src, #\base + 56]
*412f47f9SXin Li	.endm
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin LiENTRY (__memcpy_arm)
*412f47f9SXin Li
*412f47f9SXin Li	mov	dst, dstin	/* Preserve dstin, we need to return it.  */
*412f47f9SXin Li	cmp	count, #64
*412f47f9SXin Li	bhs	L(cpy_not_short)
*412f47f9SXin Li	/* Deal with small copies quickly by dropping straight into the
*412f47f9SXin Li	   exit block.  */
*412f47f9SXin Li
*412f47f9SXin LiL(tail63unaligned):
*412f47f9SXin Li#ifdef USE_NEON
*412f47f9SXin Li	and	tmp1, count, #0x38
*412f47f9SXin Li	rsb	tmp1, tmp1, #(56 - PC_OFFSET + INSN_SIZE)
*412f47f9SXin Li	add	pc, pc, tmp1
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 14 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 12 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 10 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 8 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 6 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 4 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li	vld1.8	{d0}, [src]!	/* 2 words to go.  */
*412f47f9SXin Li	vst1.8	{d0}, [dst]!
*412f47f9SXin Li
*412f47f9SXin Li	tst	count, #4
*412f47f9SXin Li	ldrne	tmp1, [src], #4
*412f47f9SXin Li	strne	tmp1, [dst], #4
*412f47f9SXin Li#else
*412f47f9SXin Li	/* Copy up to 15 full words of data.  May not be aligned.  */
*412f47f9SXin Li	/* Cannot use VFP for unaligned data.  */
*412f47f9SXin Li	and	tmp1, count, #0x3c
*412f47f9SXin Li	add	dst, dst, tmp1
*412f47f9SXin Li	add	src, src, tmp1
*412f47f9SXin Li	rsb	tmp1, tmp1, #(60 - PC_OFFSET/2 + INSN_SIZE/2)
*412f47f9SXin Li	/* Jump directly into the sequence below at the correct offset.  */
*412f47f9SXin Li	add	pc, pc, tmp1, lsl #1
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-60]	/* 15 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-60]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-56]	/* 14 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-56]
*412f47f9SXin Li	ldr	tmp1, [src, #-52]
*412f47f9SXin Li	str	tmp1, [dst, #-52]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-48]	/* 12 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-48]
*412f47f9SXin Li	ldr	tmp1, [src, #-44]
*412f47f9SXin Li	str	tmp1, [dst, #-44]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-40]	/* 10 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-40]
*412f47f9SXin Li	ldr	tmp1, [src, #-36]
*412f47f9SXin Li	str	tmp1, [dst, #-36]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-32]	/* 8 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-32]
*412f47f9SXin Li	ldr	tmp1, [src, #-28]
*412f47f9SXin Li	str	tmp1, [dst, #-28]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-24]	/* 6 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-24]
*412f47f9SXin Li	ldr	tmp1, [src, #-20]
*412f47f9SXin Li	str	tmp1, [dst, #-20]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-16]	/* 4 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-16]
*412f47f9SXin Li	ldr	tmp1, [src, #-12]
*412f47f9SXin Li	str	tmp1, [dst, #-12]
*412f47f9SXin Li
*412f47f9SXin Li	ldr	tmp1, [src, #-8]	/* 2 words to go.  */
*412f47f9SXin Li	str	tmp1, [dst, #-8]
*412f47f9SXin Li	ldr	tmp1, [src, #-4]
*412f47f9SXin Li	str	tmp1, [dst, #-4]
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin Li	lsls	count, count, #31
*412f47f9SXin Li	ldrhcs	tmp1, [src], #2
*412f47f9SXin Li	ldrbne	src, [src]		/* Src is dead, use as a scratch.  */
*412f47f9SXin Li	strhcs	tmp1, [dst], #2
*412f47f9SXin Li	strbne	src, [dst]
*412f47f9SXin Li	bx	lr
*412f47f9SXin Li
*412f47f9SXin LiL(cpy_not_short):
*412f47f9SXin Li	/* At least 64 bytes to copy, but don't know the alignment yet.  */
*412f47f9SXin Li	str	tmp2, [sp, #-FRAME_SIZE]!
*412f47f9SXin Li	and	tmp2, src, #7
*412f47f9SXin Li	and	tmp1, dst, #7
*412f47f9SXin Li	cmp	tmp1, tmp2
*412f47f9SXin Li	bne	L(cpy_notaligned)
*412f47f9SXin Li
*412f47f9SXin Li#ifdef USE_VFP
*412f47f9SXin Li	/* Magic dust alert!  Force VFP on Cortex-A9.  Experiments show
*412f47f9SXin Li	   that the FP pipeline is much better at streaming loads and
*412f47f9SXin Li	   stores.  This is outside the critical loop.  */
*412f47f9SXin Li	vmov.f32	s0, s0
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin Li	/* SRC and DST have the same mutual 64-bit alignment, but we may
*412f47f9SXin Li	   still need to pre-copy some bytes to get to natural alignment.
*412f47f9SXin Li	   We bring SRC and DST into full 64-bit alignment.  */
*412f47f9SXin Li	lsls	tmp2, dst, #29
*412f47f9SXin Li	beq	1f
*412f47f9SXin Li	rsbs	tmp2, tmp2, #0
*412f47f9SXin Li	sub	count, count, tmp2, lsr #29
*412f47f9SXin Li	ldrmi	tmp1, [src], #4
*412f47f9SXin Li	strmi	tmp1, [dst], #4
*412f47f9SXin Li	lsls	tmp2, tmp2, #2
*412f47f9SXin Li	ldrhcs	tmp1, [src], #2
*412f47f9SXin Li	ldrbne	tmp2, [src], #1
*412f47f9SXin Li	strhcs	tmp1, [dst], #2
*412f47f9SXin Li	strbne	tmp2, [dst], #1
*412f47f9SXin Li
*412f47f9SXin Li1:
*412f47f9SXin Li	subs	tmp2, count, #64	/* Use tmp2 for count.  */
*412f47f9SXin Li	blo	L(tail63aligned)
*412f47f9SXin Li
*412f47f9SXin Li	cmp	tmp2, #512
*412f47f9SXin Li	bhs	L(cpy_body_long)
*412f47f9SXin Li
*412f47f9SXin LiL(cpy_body_medium):			/* Count in tmp2.  */
*412f47f9SXin Li#ifdef USE_VFP
*412f47f9SXin Li1:
*412f47f9SXin Li	vldr	d0, [src, #0]
*412f47f9SXin Li	subs	tmp2, tmp2, #64
*412f47f9SXin Li	vldr	d1, [src, #8]
*412f47f9SXin Li	vstr	d0, [dst, #0]
*412f47f9SXin Li	vldr	d0, [src, #16]
*412f47f9SXin Li	vstr	d1, [dst, #8]
*412f47f9SXin Li	vldr	d1, [src, #24]
*412f47f9SXin Li	vstr	d0, [dst, #16]
*412f47f9SXin Li	vldr	d0, [src, #32]
*412f47f9SXin Li	vstr	d1, [dst, #24]
*412f47f9SXin Li	vldr	d1, [src, #40]
*412f47f9SXin Li	vstr	d0, [dst, #32]
*412f47f9SXin Li	vldr	d0, [src, #48]
*412f47f9SXin Li	vstr	d1, [dst, #40]
*412f47f9SXin Li	vldr	d1, [src, #56]
*412f47f9SXin Li	vstr	d0, [dst, #48]
*412f47f9SXin Li	add	src, src, #64
*412f47f9SXin Li	vstr	d1, [dst, #56]
*412f47f9SXin Li	add	dst, dst, #64
*412f47f9SXin Li	bhs	1b
*412f47f9SXin Li	tst	tmp2, #0x3f
*412f47f9SXin Li	beq	L(done)
*412f47f9SXin Li
*412f47f9SXin LiL(tail63aligned):			/* Count in tmp2.  */
*412f47f9SXin Li	and	tmp1, tmp2, #0x38
*412f47f9SXin Li	add	dst, dst, tmp1
*412f47f9SXin Li	add	src, src, tmp1
*412f47f9SXin Li	rsb	tmp1, tmp1, #(56 - PC_OFFSET + INSN_SIZE)
*412f47f9SXin Li	add	pc, pc, tmp1
*412f47f9SXin Li
*412f47f9SXin Li	vldr	d0, [src, #-56]	/* 14 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-56]
*412f47f9SXin Li	vldr	d0, [src, #-48]	/* 12 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-48]
*412f47f9SXin Li	vldr	d0, [src, #-40]	/* 10 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-40]
*412f47f9SXin Li	vldr	d0, [src, #-32]	/* 8 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-32]
*412f47f9SXin Li	vldr	d0, [src, #-24]	/* 6 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-24]
*412f47f9SXin Li	vldr	d0, [src, #-16]	/* 4 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-16]
*412f47f9SXin Li	vldr	d0, [src, #-8]	/* 2 words to go.  */
*412f47f9SXin Li	vstr	d0, [dst, #-8]
*412f47f9SXin Li#else
*412f47f9SXin Li	sub	src, src, #8
*412f47f9SXin Li	sub	dst, dst, #8
*412f47f9SXin Li1:
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #8]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #8]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #16]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #16]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #24]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #24]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #32]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #32]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #40]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #40]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #48]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #48]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #56]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #56]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #64]!
*412f47f9SXin Li	strd	A_l, A_h, [dst, #64]!
*412f47f9SXin Li	subs	tmp2, tmp2, #64
*412f47f9SXin Li	bhs	1b
*412f47f9SXin Li	tst	tmp2, #0x3f
*412f47f9SXin Li	bne	1f
*412f47f9SXin Li	ldr	tmp2,[sp], #FRAME_SIZE
*412f47f9SXin Li	bx	lr
*412f47f9SXin Li1:
*412f47f9SXin Li	add	src, src, #8
*412f47f9SXin Li	add	dst, dst, #8
*412f47f9SXin Li
*412f47f9SXin LiL(tail63aligned):			/* Count in tmp2.  */
*412f47f9SXin Li	/* Copy up to 7 d-words of data.  Similar to Ltail63unaligned, but
*412f47f9SXin Li	   we know that the src and dest are 64-bit aligned so we can use
*412f47f9SXin Li	   LDRD/STRD to improve efficiency.  */
*412f47f9SXin Li	/* TMP2 is now negative, but we don't care about that.  The bottom
*412f47f9SXin Li	   six bits still tell us how many bytes are left to copy.  */
*412f47f9SXin Li
*412f47f9SXin Li	and	tmp1, tmp2, #0x38
*412f47f9SXin Li	add	dst, dst, tmp1
*412f47f9SXin Li	add	src, src, tmp1
*412f47f9SXin Li	rsb	tmp1, tmp1, #(56 - PC_OFFSET + INSN_SIZE)
*412f47f9SXin Li	add	pc, pc, tmp1
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-56]	/* 14 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-56]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-48]	/* 12 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-48]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-40]	/* 10 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-40]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-32]	/* 8 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-32]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-24]	/* 6 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-24]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-16]	/* 4 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-16]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #-8]	/* 2 words to go.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #-8]
*412f47f9SXin Li
*412f47f9SXin Li#endif
*412f47f9SXin Li	tst	tmp2, #4
*412f47f9SXin Li	ldrne	tmp1, [src], #4
*412f47f9SXin Li	strne	tmp1, [dst], #4
*412f47f9SXin Li	lsls	tmp2, tmp2, #31		/* Count (tmp2) now dead. */
*412f47f9SXin Li	ldrhcs	tmp1, [src], #2
*412f47f9SXin Li	ldrbne	tmp2, [src]
*412f47f9SXin Li	strhcs	tmp1, [dst], #2
*412f47f9SXin Li	strbne	tmp2, [dst]
*412f47f9SXin Li
*412f47f9SXin LiL(done):
*412f47f9SXin Li	ldr	tmp2, [sp], #FRAME_SIZE
*412f47f9SXin Li	bx	lr
*412f47f9SXin Li
*412f47f9SXin LiL(cpy_body_long):			/* Count in tmp2.  */
*412f47f9SXin Li
*412f47f9SXin Li	/* Long copy.  We know that there's at least (prefetch_lines * 64)
*412f47f9SXin Li	   bytes to go.  */
*412f47f9SXin Li#ifdef USE_VFP
*412f47f9SXin Li	/* Don't use PLD.  Instead, read some data in advance of the current
*412f47f9SXin Li	   copy position into a register.  This should act like a PLD
*412f47f9SXin Li	   operation but we won't have to repeat the transfer.  */
*412f47f9SXin Li
*412f47f9SXin Li	vldr	d3, [src, #0]
*412f47f9SXin Li	vldr	d4, [src, #64]
*412f47f9SXin Li	vldr	d5, [src, #128]
*412f47f9SXin Li	vldr	d6, [src, #192]
*412f47f9SXin Li	vldr	d7, [src, #256]
*412f47f9SXin Li
*412f47f9SXin Li	vldr	d0, [src, #8]
*412f47f9SXin Li	vldr	d1, [src, #16]
*412f47f9SXin Li	vldr	d2, [src, #24]
*412f47f9SXin Li	add	src, src, #32
*412f47f9SXin Li
*412f47f9SXin Li	subs	tmp2, tmp2, #prefetch_lines * 64 * 2
*412f47f9SXin Li	blo	2f
*412f47f9SXin Li1:
*412f47f9SXin Li	cpy_line_vfp	d3, 0
*412f47f9SXin Li	cpy_line_vfp	d4, 64
*412f47f9SXin Li	cpy_line_vfp	d5, 128
*412f47f9SXin Li	add	dst, dst, #3 * 64
*412f47f9SXin Li	add	src, src, #3 * 64
*412f47f9SXin Li	cpy_line_vfp	d6, 0
*412f47f9SXin Li	cpy_line_vfp	d7, 64
*412f47f9SXin Li	add	dst, dst, #2 * 64
*412f47f9SXin Li	add	src, src, #2 * 64
*412f47f9SXin Li	subs	tmp2, tmp2, #prefetch_lines * 64
*412f47f9SXin Li	bhs	1b
*412f47f9SXin Li
*412f47f9SXin Li2:
*412f47f9SXin Li	cpy_tail_vfp	d3, 0
*412f47f9SXin Li	cpy_tail_vfp	d4, 64
*412f47f9SXin Li	cpy_tail_vfp	d5, 128
*412f47f9SXin Li	add	src, src, #3 * 64
*412f47f9SXin Li	add	dst, dst, #3 * 64
*412f47f9SXin Li	cpy_tail_vfp	d6, 0
*412f47f9SXin Li	vstr	d7, [dst, #64]
*412f47f9SXin Li	vldr	d7, [src, #64]
*412f47f9SXin Li	vstr	d0, [dst, #64 + 8]
*412f47f9SXin Li	vldr	d0, [src, #64 + 8]
*412f47f9SXin Li	vstr	d1, [dst, #64 + 16]
*412f47f9SXin Li	vldr	d1, [src, #64 + 16]
*412f47f9SXin Li	vstr	d2, [dst, #64 + 24]
*412f47f9SXin Li	vldr	d2, [src, #64 + 24]
*412f47f9SXin Li	vstr	d7, [dst, #64 + 32]
*412f47f9SXin Li	add	src, src, #96
*412f47f9SXin Li	vstr	d0, [dst, #64 + 40]
*412f47f9SXin Li	vstr	d1, [dst, #64 + 48]
*412f47f9SXin Li	vstr	d2, [dst, #64 + 56]
*412f47f9SXin Li	add	dst, dst, #128
*412f47f9SXin Li	add	tmp2, tmp2, #prefetch_lines * 64
*412f47f9SXin Li	b	L(cpy_body_medium)
*412f47f9SXin Li#else
*412f47f9SXin Li	/* Long copy.  Use an SMS style loop to maximize the I/O
*412f47f9SXin Li	   bandwidth of the core.  We don't have enough spare registers
*412f47f9SXin Li	   to synthesise prefetching, so use PLD operations.  */
*412f47f9SXin Li	/* Pre-bias src and dst.  */
*412f47f9SXin Li	sub	src, src, #8
*412f47f9SXin Li	sub	dst, dst, #8
*412f47f9SXin Li	pld	[src, #8]
*412f47f9SXin Li	pld	[src, #72]
*412f47f9SXin Li	subs	tmp2, tmp2, #64
*412f47f9SXin Li	pld	[src, #136]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #8]
*412f47f9SXin Li	strd	B_l, B_h, [sp, #8]
*412f47f9SXin Li	ldrd	B_l, B_h, [src, #16]
*412f47f9SXin Li	strd	C_l, C_h, [sp, #16]
*412f47f9SXin Li	ldrd	C_l, C_h, [src, #24]
*412f47f9SXin Li	strd	D_l, D_h, [sp, #24]
*412f47f9SXin Li	pld	[src, #200]
*412f47f9SXin Li	ldrd	D_l, D_h, [src, #32]!
*412f47f9SXin Li	b	1f
*412f47f9SXin Li	.p2align	6
*412f47f9SXin Li2:
*412f47f9SXin Li	pld	[src, #232]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #40]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #40]
*412f47f9SXin Li	strd	B_l, B_h, [dst, #48]
*412f47f9SXin Li	ldrd	B_l, B_h, [src, #48]
*412f47f9SXin Li	strd	C_l, C_h, [dst, #56]
*412f47f9SXin Li	ldrd	C_l, C_h, [src, #56]
*412f47f9SXin Li	strd	D_l, D_h, [dst, #64]!
*412f47f9SXin Li	ldrd	D_l, D_h, [src, #64]!
*412f47f9SXin Li	subs	tmp2, tmp2, #64
*412f47f9SXin Li1:
*412f47f9SXin Li	strd	A_l, A_h, [dst, #8]
*412f47f9SXin Li	ldrd	A_l, A_h, [src, #8]
*412f47f9SXin Li	strd	B_l, B_h, [dst, #16]
*412f47f9SXin Li	ldrd	B_l, B_h, [src, #16]
*412f47f9SXin Li	strd	C_l, C_h, [dst, #24]
*412f47f9SXin Li	ldrd	C_l, C_h, [src, #24]
*412f47f9SXin Li	strd	D_l, D_h, [dst, #32]
*412f47f9SXin Li	ldrd	D_l, D_h, [src, #32]
*412f47f9SXin Li	bcs	2b
*412f47f9SXin Li	/* Save the remaining bytes and restore the callee-saved regs.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #40]
*412f47f9SXin Li	add	src, src, #40
*412f47f9SXin Li	strd	B_l, B_h, [dst, #48]
*412f47f9SXin Li	ldrd	B_l, B_h, [sp, #8]
*412f47f9SXin Li	strd	C_l, C_h, [dst, #56]
*412f47f9SXin Li	ldrd	C_l, C_h, [sp, #16]
*412f47f9SXin Li	strd	D_l, D_h, [dst, #64]
*412f47f9SXin Li	ldrd	D_l, D_h, [sp, #24]
*412f47f9SXin Li	add	dst, dst, #72
*412f47f9SXin Li	tst	tmp2, #0x3f
*412f47f9SXin Li	bne	L(tail63aligned)
*412f47f9SXin Li	ldr	tmp2, [sp], #FRAME_SIZE
*412f47f9SXin Li	bx	lr
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin LiL(cpy_notaligned):
*412f47f9SXin Li	pld	[src]
*412f47f9SXin Li	pld	[src, #64]
*412f47f9SXin Li	/* There's at least 64 bytes to copy, but there is no mutual
*412f47f9SXin Li	   alignment.  */
*412f47f9SXin Li	/* Bring DST to 64-bit alignment.  */
*412f47f9SXin Li	lsls	tmp2, dst, #29
*412f47f9SXin Li	pld	[src, #(2 * 64)]
*412f47f9SXin Li	beq	1f
*412f47f9SXin Li	rsbs	tmp2, tmp2, #0
*412f47f9SXin Li	sub	count, count, tmp2, lsr #29
*412f47f9SXin Li	ldrmi	tmp1, [src], #4
*412f47f9SXin Li	strmi	tmp1, [dst], #4
*412f47f9SXin Li	lsls	tmp2, tmp2, #2
*412f47f9SXin Li	ldrbne	tmp1, [src], #1
*412f47f9SXin Li	ldrhcs	tmp2, [src], #2
*412f47f9SXin Li	strbne	tmp1, [dst], #1
*412f47f9SXin Li	strhcs	tmp2, [dst], #2
*412f47f9SXin Li1:
*412f47f9SXin Li	pld	[src, #(3 * 64)]
*412f47f9SXin Li	subs	count, count, #64
*412f47f9SXin Li	ldrlo	tmp2, [sp], #FRAME_SIZE
*412f47f9SXin Li	blo	L(tail63unaligned)
*412f47f9SXin Li	pld	[src, #(4 * 64)]
*412f47f9SXin Li
*412f47f9SXin Li#ifdef USE_NEON
*412f47f9SXin Li	vld1.8	{d0-d3}, [src]!
*412f47f9SXin Li	vld1.8	{d4-d7}, [src]!
*412f47f9SXin Li	subs	count, count, #64
*412f47f9SXin Li	blo	2f
*412f47f9SXin Li1:
*412f47f9SXin Li	pld	[src, #(4 * 64)]
*412f47f9SXin Li	vst1.8	{d0-d3}, [ALIGN (dst, 64)]!
*412f47f9SXin Li	vld1.8	{d0-d3}, [src]!
*412f47f9SXin Li	vst1.8	{d4-d7}, [ALIGN (dst, 64)]!
*412f47f9SXin Li	vld1.8	{d4-d7}, [src]!
*412f47f9SXin Li	subs	count, count, #64
*412f47f9SXin Li	bhs	1b
*412f47f9SXin Li2:
*412f47f9SXin Li	vst1.8	{d0-d3}, [ALIGN (dst, 64)]!
*412f47f9SXin Li	vst1.8	{d4-d7}, [ALIGN (dst, 64)]!
*412f47f9SXin Li	ands	count, count, #0x3f
*412f47f9SXin Li#else
*412f47f9SXin Li	/* Use an SMS style loop to maximize the I/O bandwidth.  */
*412f47f9SXin Li	sub	src, src, #4
*412f47f9SXin Li	sub	dst, dst, #8
*412f47f9SXin Li	subs	tmp2, count, #64	/* Use tmp2 for count.  */
*412f47f9SXin Li	ldr	A_l, [src, #4]
*412f47f9SXin Li	ldr	A_h, [src, #8]
*412f47f9SXin Li	strd	B_l, B_h, [sp, #8]
*412f47f9SXin Li	ldr	B_l, [src, #12]
*412f47f9SXin Li	ldr	B_h, [src, #16]
*412f47f9SXin Li	strd	C_l, C_h, [sp, #16]
*412f47f9SXin Li	ldr	C_l, [src, #20]
*412f47f9SXin Li	ldr	C_h, [src, #24]
*412f47f9SXin Li	strd	D_l, D_h, [sp, #24]
*412f47f9SXin Li	ldr	D_l, [src, #28]
*412f47f9SXin Li	ldr	D_h, [src, #32]!
*412f47f9SXin Li	b	1f
*412f47f9SXin Li	.p2align	6
*412f47f9SXin Li2:
*412f47f9SXin Li	pld	[src, #(5 * 64) - (32 - 4)]
*412f47f9SXin Li	strd	A_l, A_h, [dst, #40]
*412f47f9SXin Li	ldr	A_l, [src, #36]
*412f47f9SXin Li	ldr	A_h, [src, #40]
*412f47f9SXin Li	strd	B_l, B_h, [dst, #48]
*412f47f9SXin Li	ldr	B_l, [src, #44]
*412f47f9SXin Li	ldr	B_h, [src, #48]
*412f47f9SXin Li	strd	C_l, C_h, [dst, #56]
*412f47f9SXin Li	ldr	C_l, [src, #52]
*412f47f9SXin Li	ldr	C_h, [src, #56]
*412f47f9SXin Li	strd	D_l, D_h, [dst, #64]!
*412f47f9SXin Li	ldr	D_l, [src, #60]
*412f47f9SXin Li	ldr	D_h, [src, #64]!
*412f47f9SXin Li	subs	tmp2, tmp2, #64
*412f47f9SXin Li1:
*412f47f9SXin Li	strd	A_l, A_h, [dst, #8]
*412f47f9SXin Li	ldr	A_l, [src, #4]
*412f47f9SXin Li	ldr	A_h, [src, #8]
*412f47f9SXin Li	strd	B_l, B_h, [dst, #16]
*412f47f9SXin Li	ldr	B_l, [src, #12]
*412f47f9SXin Li	ldr	B_h, [src, #16]
*412f47f9SXin Li	strd	C_l, C_h, [dst, #24]
*412f47f9SXin Li	ldr	C_l, [src, #20]
*412f47f9SXin Li	ldr	C_h, [src, #24]
*412f47f9SXin Li	strd	D_l, D_h, [dst, #32]
*412f47f9SXin Li	ldr	D_l, [src, #28]
*412f47f9SXin Li	ldr	D_h, [src, #32]
*412f47f9SXin Li	bcs	2b
*412f47f9SXin Li
*412f47f9SXin Li	/* Save the remaining bytes and restore the callee-saved regs.  */
*412f47f9SXin Li	strd	A_l, A_h, [dst, #40]
*412f47f9SXin Li	add	src, src, #36
*412f47f9SXin Li	strd	B_l, B_h, [dst, #48]
*412f47f9SXin Li	ldrd	B_l, B_h, [sp, #8]
*412f47f9SXin Li	strd	C_l, C_h, [dst, #56]
*412f47f9SXin Li	ldrd	C_l, C_h, [sp, #16]
*412f47f9SXin Li	strd	D_l, D_h, [dst, #64]
*412f47f9SXin Li	ldrd	D_l, D_h, [sp, #24]
*412f47f9SXin Li	add	dst, dst, #72
*412f47f9SXin Li	ands	count, tmp2, #0x3f
*412f47f9SXin Li#endif
*412f47f9SXin Li	ldr	tmp2, [sp], #FRAME_SIZE
*412f47f9SXin Li	bne	L(tail63unaligned)
*412f47f9SXin Li	bx	lr
*412f47f9SXin Li
*412f47f9SXin LiEND (__memcpy_arm)