Fix Cycles CUDA performance on CUDA 8.0.

Mostly this is making inlining match CUDA 7.5 in a few performance critical places. The end result is that performance is now better than before, possibly due to less register spilling or other CUDA 8.0 compiler improvements. On benchmarks scenes, there are 3% to 35% render time reductions. Stack memory usage is reduced a little too. Reviewed By: sergey Differential Revision: https://developer.blender.org/D2269
author: Brecht Van Lommel <brechtvanlommel@gmail.com> 2016-10-02 15:48:39 +0300
committer: Sergey Sharybin <sergey.vfx@gmail.com> 2016-10-19 15:26:38 +0300
commit: fd0dea585cfcb50a8b056f0d1101505f12b508bc (patch)
tree: 67d79231d48fa3af86e505022c27a1638f42a876 /intern/cycles/kernel/kernel_accumulate.h
parent: 4d14bd10c02db2b8dc53d6a6dc5f2d5d72fcbc88 (diff)
1 files changed, 1 insertions, 7 deletions
diff --git a/intern/cycles/kernel/kernel_accumulate.h b/intern/cycles/kernel/kernel_accumulate.h
index 0e13b22bd2c..2a215240248 100644
--- a/intern/cycles/kernel/kernel_accumulate.h
+++ b/intern/cycles/kernel/kernel_accumulate.h
@@ -54,13 +54,7 @@ ccl_device_inline void bsdf_eval_init(BsdfEval *eval, ClosureType type, float3 v
 #endif
 }
 
-/* TODO(sergey): This is just a workaround for annoying 6.5 compiler bug. */
-#if !defined(__KERNEL_CUDA__) || __CUDA_ARCH__ < 500
-ccl_device_inline
-#else
-ccl_device_noinline
-#endif
-void bsdf_eval_accum(BsdfEval *eval, ClosureType type, float3 value)
+ccl_device_inline void bsdf_eval_accum(BsdfEval *eval, ClosureType type, float3 value)
 {
 #ifdef __PASSES__
 	if(eval->use_light_pass) {
author	Brecht Van Lommel <brechtvanlommel@gmail.com>	2016-10-02 15:48:39 +0300
committer	Sergey Sharybin <sergey.vfx@gmail.com>	2016-10-19 15:26:38 +0300
commit	fd0dea585cfcb50a8b056f0d1101505f12b508bc (patch)
tree	67d79231d48fa3af86e505022c27a1638f42a876 /intern/cycles/kernel/kernel_accumulate.h
parent	4d14bd10c02db2b8dc53d6a6dc5f2d5d72fcbc88 (diff)