File: manual_awkward_ByteMaskedArray_getitem_nextcarry.cu

package info (click to toggle)

python-awkward 2.6.5-1

links: PTS, VCS
area: main
in suites: sid
size: 23,088 kB
sloc: python: 148,689; cpp: 33,562; sh: 432; makefile: 21; javascript: 8

file content (60 lines) | stat: -rw-r--r-- 2,133 bytes

#define FILENAME(line) FILENAME_FOR_EXCEPTIONS_CUDA("src/cuda-kernels/manual_awkward_ByteMaskedArray_getitem_nextcarry.cu", line)

#include "standard_parallel_algorithms.h"
#include "awkward/kernels.h"

__global__ void
awkward_ByteMaskedArray_getitem_nextcarry_filter_mask(int8_t* mask,
                                                      bool validwhen,
                                                      int64_t length) {
  int64_t thread_id = blockIdx.x * blockDim.x + threadIdx.x;

  if(thread_id < length) {
    if ((mask[thread_id] != 0) == validwhen) {
      mask[thread_id] = 1;
    }
  }
}

__global__ void
awkward_ByteMaskedArray_getitem_nextcarry_kernel(int64_t* prefixed_mask,
                                                 int64_t* to_carry,
                                                 int8_t* mask,
                                                 int64_t length) {
  int64_t thread_id = blockIdx.x * blockDim.x + threadIdx.x;

  if(thread_id < length) {
    if (mask[thread_id] != 0) {
      to_carry[prefixed_mask[thread_id] - 1] = thread_id;
    }
  }
}

ERROR
awkward_ByteMaskedArray_getitem_nextcarry_64(int64_t* tocarry,
                                             const int8_t* mask,
                                             int64_t length,
                                             bool validwhen) {
  int64_t* res_temp;
  int8_t* filtered_mask;

  dim3 blocks_per_grid = blocks(length);
  dim3 threads_per_block = threads(length);

  HANDLE_ERROR(cudaMalloc((void**)&res_temp, sizeof(int64_t) * length));
  HANDLE_ERROR(cudaMalloc((void**)&filtered_mask, sizeof(int8_t) * length));
  HANDLE_ERROR(cudaMemcpy(
      filtered_mask, mask, sizeof(int8_t) * length, cudaMemcpyDeviceToDevice));

  awkward_ByteMaskedArray_getitem_nextcarry_filter_mask<<<blocks_per_grid, threads_per_block>>>(
      filtered_mask, validwhen, length);

  exclusive_scan<int64_t, int8_t>(res_temp, filtered_mask, length);

  awkward_ByteMaskedArray_getitem_nextcarry_kernel<<<blocks_per_grid, threads_per_block>>>(
      res_temp, tocarry, filtered_mask, length);

  cudaDeviceSynchronize();

  return success();
}