Cycles: Split kernel - sort shaders

Reduce thread divergence in kernel_shader_eval. Rays are sorted in blocks of 2048 according to shader->id. On R9 290 Classroom is ~30% faster, and Pabellon Barcelone is ~8% faster. No sorting for CUDA split kernel. Reviewers: sergey, maiself Reviewed By: maiself Differential Revision: https://developer.blender.org/D2598
author: Hristo Gueorguiev <prem.nirved@gmail.com> 2017-05-03 16:30:45 +0300
committer: Hristo Gueorguiev <prem.nirved@gmail.com> 2017-05-03 16:30:45 +0300
commit: 6bf4115c13962c99d1cdc97f2be92c4922f3fd33 (patch)
tree: 569c512a242caf2ea4465f2eef561933ed937a2f /intern/cycles/kernel/kernels/opencl/kernel_split.cl
parent: 6f9c839f444f92c4b0c336a6f5e31cb9660d7dbc (diff)
1 files changed, 2 insertions, 0 deletions
diff --git a/intern/cycles/kernel/kernels/opencl/kernel_split.cl b/intern/cycles/kernel/kernels/opencl/kernel_split.cl
index 732cda30115..8de82db7afe 100644
--- a/intern/cycles/kernel/kernels/opencl/kernel_split.cl
+++ b/intern/cycles/kernel/kernels/opencl/kernel_split.cl
@@ -23,6 +23,8 @@
 #include "kernel/kernels/opencl/kernel_do_volume.cl"
 #include "kernel/kernels/opencl/kernel_indirect_background.cl"
 #include "kernel/kernels/opencl/kernel_queue_enqueue.cl"
+#include "kernel/kernels/opencl/kernel_shader_setup.cl"
+#include "kernel/kernels/opencl/kernel_shader_sort.cl"
 #include "kernel/kernels/opencl/kernel_shader_eval.cl"
 #include "kernel/kernels/opencl/kernel_holdout_emission_blurring_pathtermination_ao.cl"
 #include "kernel/kernels/opencl/kernel_subsurface_scatter.cl"
author	Hristo Gueorguiev <prem.nirved@gmail.com>	2017-05-03 16:30:45 +0300
committer	Hristo Gueorguiev <prem.nirved@gmail.com>	2017-05-03 16:30:45 +0300
commit	6bf4115c13962c99d1cdc97f2be92c4922f3fd33 (patch)
tree	569c512a242caf2ea4465f2eef561933ed937a2f /intern/cycles/kernel/kernels/opencl/kernel_split.cl
parent	6f9c839f444f92c4b0c336a6f5e31cb9660d7dbc (diff)