File: kernel-args.cu

package info (click to toggle)

llvm-toolchain-7 1%3A7.0.1-8

links: PTS, VCS
area: main
in suites: buster
size: 733,456 kB
sloc: cpp: 3,776,651; ansic: 633,271; asm: 350,301; python: 142,716; objc: 107,612; sh: 22,626; lisp: 11,056; perl: 7,999; pascal: 6,742; ml: 5,537; awk: 3,536; makefile: 2,557; cs: 2,027; xml: 841; ruby: 156

file content (39 lines) | stat: -rw-r--r-- 1,367 bytes

parent folder | download | duplicates (4)

// RUN: %clang_cc1 -triple amdgcn-amd-amdhsa -fcuda-is-device \
// RUN:     -emit-llvm %s -o - | FileCheck -check-prefix=AMDGCN %s
// RUN: %clang_cc1 -triple nvptx64-nvidia-cuda- -fcuda-is-device \
// RUN:     -emit-llvm %s -o - | FileCheck -check-prefix=NVPTX %s
#include "Inputs/cuda.h"

struct A {
  int a[32];
};

// AMDGCN: define amdgpu_kernel void @_Z6kernel1A(%struct.A %x.coerce)
// NVPTX: define void @_Z6kernel1A(%struct.A* byval align 4 %x)
__global__ void kernel(A x) {
}

class Kernel {
public:
  // AMDGCN: define amdgpu_kernel void @_ZN6Kernel12memberKernelE1A(%struct.A %x.coerce)
  // NVPTX: define void @_ZN6Kernel12memberKernelE1A(%struct.A* byval align 4 %x)
  static __global__ void memberKernel(A x){}
  template<typename T> static __global__ void templateMemberKernel(T x) {}
};


template <typename T>
__global__ void templateKernel(T x) {}

void launch(void*);

void test() {
  Kernel K;
  // AMDGCN: define amdgpu_kernel void @_Z14templateKernelI1AEvT_(%struct.A %x.coerce)
  // NVPTX: define void @_Z14templateKernelI1AEvT_(%struct.A* byval align 4 %x)
  launch((void*)templateKernel<A>);

  // AMDGCN: define amdgpu_kernel void @_ZN6Kernel20templateMemberKernelI1AEEvT_(%struct.A %x.coerce)
  // NVPTX: define void @_ZN6Kernel20templateMemberKernelI1AEEvT_(%struct.A* byval align 4 %x)
  launch((void*)Kernel::templateMemberKernel<A>);
}