Activate F16

Nexesenex · Nexesenex · commit 64bfe6903bae · 2024-10-16T17:48:29.000+02:00
diff --git a/ggml/CMakeLists.txt b/ggml/CMakeLists.txt
@@ -128,7 +128,7 @@ option(GGML_CUDA_FORCE_MMQ                  "ggml: use mmq kernels instead of cu
 option(GGML_CUDA_FORCE_CUBLAS               "ggml: always use cuBLAS instead of mmq kernels"  OFF)
 set   (GGML_CUDA_DMMV_X   "32" CACHE STRING "ggml: x stride for dmmv CUDA kernels")
 set   (GGML_CUDA_MMV_Y     "1" CACHE STRING "ggml: y block size for mmv CUDA kernels")
-option(GGML_CUDA_F16                        "ggml: use 16 bit floats for some calculations"   OFF)
+option(GGML_CUDA_F16                        "ggml: use 16 bit floats for some calculations"   ON)
 set   (GGML_CUDA_KQUANTS_ITER "2" CACHE STRING
                                             "ggml: iters./thread per block for Q2_K/Q6_K")
 set   (GGML_CUDA_PEER_MAX_BATCH_SIZE "128" CACHE STRING
diff --git a/ggml/src/CMakeLists.txt b/ggml/src/CMakeLists.txt
@@ -2,6 +2,7 @@ include(CheckCXXCompilerFlag)
 
 unset(GGML_CDEF_PUBLIC)
 
+add_compile_definitions(LLAMA_SCHED_MAX_COPIES=${LLAMA_SCHED_MAX_COPIES})
 add_compile_definitions(GGML_SCHED_MAX_COPIES=${GGML_SCHED_MAX_COPIES})
 
 # enable libstdc++ assertions for debug builds
@@ -287,7 +288,7 @@ if (GGML_CUDA)
             # 61 == integer CUDA intrinsics
             # 70 == compute capability at which unrolling a loop in mul_mat_q kernels is faster
             if (GGML_CUDA_F16 OR GGML_CUDA_DMMV_F16)
-                set(CMAKE_CUDA_ARCHITECTURES "60;61;70;75;86")
+                set(CMAKE_CUDA_ARCHITECTURES "52;60;61;70;75;86")
             else()
                 set(CMAKE_CUDA_ARCHITECTURES "52;61;70;75;86")
                 #set(CMAKE_CUDA_ARCHITECTURES "OFF") # use this to compile much faster, but only F16 models work