YdrMaster
diff --git a/‎operators/src/rearrange/cuda/mod.rs
Lines changed: 48 additions & 265 deletions b/‎operators/src/rearrange/cuda/mod.rs
Lines changed: 48 additions & 265 deletions
@@ -17,7 +17,7 @@ struct SplitDim {
     array_struct_idx_grid: ArrayType,
 }
 
-const ARRAY_SIZE: usize = 7;
+const ARRAY_SIZE: usize = 5;
 
 type ArrayType = i32;
 #[derive(Debug)]
@@ -35,12 +35,15 @@ impl<const N: usize> ArrayStruct<N> {
         Some(Self(array))
     }
 }
-//TODO 需要检查正确性
+
 impl<const N: usize> AsParam for ArrayStruct<N> {}
 
+//TODO 需要使用max_warps_block和warp_size来进行计算
 pub struct Operator {
     _handle: Arc<Handle>,
+    #[allow(unused)]
     max_warps_block: usize,
+    #[allow(unused)]
     warp_size: usize,
     module: Arc<ModuleBox>,
 }
@@ -90,54 +93,6 @@ impl crate::Operator for Operator {
         QA: QueueAlloc<Hardware = Self::Hardware>,
     {
         let scheme = Scheme::new(args)?;
-        // if scheme.ndim() == 0 {
-        //     let unit = scheme.unit();
-        //     let dst = unsafe { from_raw_parts_mut(args.dst_base, unit) };
-        //     let src = unsafe { from_raw_parts(args.src_base, unit) };
-        //     queue_alloc.queue().memcpy_d2d(dst, src);
-        //     return Ok(());
-        // }
-
-        if scheme.ndim() == 0 {
-            let unit = unsafe { BARE_UNIT };
-            let len = scheme.unit();
-
-            let name = CString::new(NAME).unwrap();
-
-            // 使用较大的block size来提高并行度
-            let block_size = 1024;
-
-            // 计算总元素数
-            let total_elements: u32 = (len / unit) as u32;
-
-            let grid_size = (total_elements + block_size - 1) / block_size;
-
-            let params = cuda::params![
-                args.dst_base,
-                0i32, // rsa
-                0i32, // csa
-                args.src_base,
-                0i32,           // rsb
-                0i32,           // csb
-                total_elements, // nrows
-                1u32,           // ncols
-                32u32,          // sub_size_x
-                32u32,          // sub_size_y
-                unit            // bytes_per_thread
-            ];
-
-            self.module.launch(
-                &name,
-                grid_size as u32,
-                block_size as u32,
-                params.as_ptr(),
-                0,
-                queue_alloc.queue(),
-            );
-            return Ok(());
-        }
-        //----------------------------------------------------------------------
-        // 发现读取的最大连续内存和写入的最大连续内存
 
         // 发现最大的1 thread 处理的数据量
         let scheme_update = scheme.distribute_unit((0..=5).rev().map(|n| (1 << n)));
@@ -305,7 +260,6 @@ impl crate::Operator for Operator {
             }
         }
 
-        println!("split_dims: {:?}", split_dims);
         // cuda 参数准备
         let block_len_total = block_len.iter().product::<ArrayType>();
         let src_block_stride =
@@ -394,45 +348,59 @@ impl crate::Operator for Operator {
 fn format_code() -> String {
     format!(
         r#"#define ARRAY_SIZE {ARRAY_SIZE}
-        #define ARRAY_TYPE int
-        {CODE}
+#define ARRAY_TYPE int
+{CODE}
 
 extern "C" __global__ void {NAME}(
     void       *__restrict__ dst,
     void const *__restrict__ src,
-    const int block_dim,                   // block维度数量
-    const int block_len_total,             // block_len 各元素的乘积
-    const ArrayStruct<4, ARRAY_TYPE> constrains1,          // 切分维度的约束条件1
-    const ArrayStruct<4, ARRAY_TYPE> constrains2,          // 切分维度的约束条件2
-    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> block_len,           // 各维度的长度
-    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> src_block_stride,    // 源tensor在各维度上的步长(bytes)
-    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> dst_block_stride,    // 目标tensor在各维度上的步长(bytes)
-    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> grid_len,            // 各维度的长度
-    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> src_grid_stride,     // 源tensor在各维度上的步长(bytes)
-    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> dst_grid_stride,     // 目标tensor在各维度上的步长(bytes)
-    unsigned int const unit_size     // 每个元素的字节数
+    const int block_dim,                                   // block维度数量
+    const int block_len_total,                            // block_len 各元素的乘积
+    const ArrayStruct<4, ARRAY_TYPE> constrains1,         // 切分维度的约束条件1
+    const ArrayStruct<4, ARRAY_TYPE> constrains2,         // 切分维度的约束条件2
+    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> block_len,          // 各维度的长度
+    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> src_block_stride,   // 源tensor在各维度上的步长(bytes)
+    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> dst_block_stride,   // 目标tensor在各维度上的步长(bytes)
+    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> grid_len,           // 各维度的长度
+    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> src_grid_stride,    // 源tensor在各维度上的步长(bytes)
+    const ArrayStruct<ARRAY_SIZE, ARRAY_TYPE> dst_grid_stride,    // 目标tensor在各维度上的步长(bytes)
+    unsigned int const unit_size                                  // 每个元素的字节数
 ){{
     switch (unit_size) {{
-        case  1: rearrange_1<uchar1 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); break;
-        case  2: rearrange_1<uchar2 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); break;
-        case  4: rearrange_1<float1 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); break;
-        case  8: rearrange_1<float2 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); break;
-        case 16: rearrange_1<float4 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); break;
-        case 32: rearrange_1<double4,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); break;
+        case  1: 
+            rearrange_1<uchar1 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, 
+                block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); 
+            break;
+        case  2: 
+            rearrange_1<uchar2 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, 
+                block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); 
+            break;
+        case  4: 
+            rearrange_1<float1 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, 
+                block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); 
+            break;
+        case  8: 
+            rearrange_1<float2 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, 
+                block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); 
+            break;
+        case 16: 
+            rearrange_1<float4 ,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, 
+                block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); 
+            break;
+        case 32: 
+            rearrange_1<double4,ARRAY_SIZE, ARRAY_TYPE>(dst, src, block_dim, block_len_total, constrains1, constrains2, 
+                block_len, src_block_stride, dst_block_stride, grid_len, src_grid_stride, dst_grid_stride, unit_size); 
+            break;
     }}
 }}
 "#
     )
 }
 
-static mut IS_INVERSE: bool = false;
-static mut BARE_UNIT: usize = 4;
-
 #[cfg(test)]
 mod test {
     use super::{Args, Gpu, Operator};
     use crate::{ConstPtr, Hardware, MutPtr, Operator as _, TensorLayout};
-    use cuda::{DevMem, Ptx};
     use digit_layout::{types as ty, DigitLayout};
 
     fn dyn_args<H: Hardware>(dt: DigitLayout) -> Args<H> {
@@ -488,12 +456,13 @@ mod test {
     fn test_compute() {
         use super::super::common_cpu::Operator as RefOp;
         use crate::common_cpu::{Cpu, ThisThread};
-        use crate::rearrange::cuda::format_code;
+
         use cuda::memcpy_d2h;
         use ndarray_layout::{ArrayLayout, Endian::BigEndian};
         use rand::Rng;
-        let code = format_code();
-        std::fs::write("rearrange.cu", code).unwrap();
+        // use crate::rearrange::cuda::format_code;
+        // let code = format_code();
+        // std::fs::write("rearrange.cu", code).unwrap();
         let Some(gpu) = Gpu::init() else {
             return;
         };
@@ -522,8 +491,8 @@ mod test {
         let s_dst =
             ArrayLayout::<3>::new_contiguous(&r_shape, BigEndian, ele).transpose(&trans_param);
 
-        println!("s_src: {:?}", s_src.shape());
-        println!("s_dst: {:?}", s_dst.shape());
+        println!("s_src shape: {:?}", s_src.shape());
+        println!("s_dst shape: {:?}", s_dst.shape());
         println!("s_src strides: {:?}", s_src.strides());
         println!("s_dst strides: {:?}", s_dst.strides());
 
@@ -600,190 +569,4 @@ mod test {
             .unwrap();
         assert_eq!(dst_ans, dst_ref);
     }
-
-    use crate::cuda::CurrentCtx;
-    use crate::cuda::Stream;
-
-    use std::ffi::CString;
-    fn fill_src_code() -> String {
-        format!(
-            r#"
-
-extern "C" __global__ void fill_src(
-    void *__restrict__ src,
-    unsigned int n
-){{
-    int idx = threadIdx.x + blockIdx.x * blockDim.x;
-
-    if (idx < n) {{
-        reinterpret_cast<char *>(src)[idx] =  11;
-    }}
-}}
-"#
-        )
-    }
-    fn fill_src(src: &mut DevMem, ctx: &CurrentCtx, queue: &Stream) {
-        let (ptx, _) = Ptx::compile(fill_src_code(), ctx.dev().compute_capability());
-        let module = ctx.load(&ptx.unwrap());
-        let name = CString::new("fill_src").unwrap();
-
-        let block_size = 256; // 使用较小的 block size
-        let total_threads = src.len();
-
-        let grid_size = (total_threads + block_size - 1) / block_size;
-
-        let block = block_size;
-        let grid = grid_size;
-
-        let src_ptr = src.as_mut_ptr();
-        let src_len = src.len() as i32;
-
-        let params = cuda::params![src_ptr, src_len];
-
-        module
-            .get_kernel(&name)
-            .launch(grid as u32, block as u32, params.as_ptr(), 0, Some(queue));
-        let _keep_alive = (src_ptr, src_len);
-    }
-
-    use std::time::Duration;
-    fn time_cost(is_inverse: bool, total_exp: u32, dh_exp: u32) -> Duration {
-        use super::super::common_cpu::Operator as RefOp;
-        use crate::common_cpu::Cpu;
-        use ndarray_layout::{ArrayLayout, Endian::BigEndian};
-        let Some(gpu) = Gpu::init() else {
-            panic!("init gpu failed");
-        };
-        let dt = ty::U8;
-        let mut cpu_op = RefOp::new(&Cpu);
-        let mut gpu_op = Operator::new(&gpu);
-        cpu_op.scheme(&dyn_args(dt), 0).unwrap();
-        gpu_op.scheme(&dyn_args(dt), 0).unwrap();
-        let nh = 1 << ((total_exp + 1) / 2 - (dh_exp + 1) / 2);
-        let seq = 1 << (total_exp / 2 - dh_exp / 2);
-        let dh = 1 << dh_exp;
-        // println!("nh: {nh}, seq: {seq}, dh: {dh}");
-        let ele = dt.nbytes();
-        let s_src = ArrayLayout::<3>::new_contiguous(&[nh, seq, dh], BigEndian, ele);
-        let s_dst =
-            ArrayLayout::<3>::new_contiguous(&[seq, nh, dh], BigEndian, ele).transpose(&[1, 0]);
-        use super::IS_INVERSE;
-        unsafe {
-            IS_INVERSE = is_inverse;
-        }
-        gpu.apply(|ctx| {
-            let stream = ctx.stream();
-            #[cfg(use_nvidia)]
-            let rt = &stream;
-            #[cfg(use_iluvatar)]
-            let rt = ctx;
-            let mut src = rt.malloc::<u8>(nh * seq * dh);
-            let mut dst = rt.malloc::<u8>(nh * seq * dh);
-            fill_src(&mut src, ctx, &stream);
-            stream.bench(
-                |_, stream| {
-                    gpu_op
-                        .launch(
-                            &args(
-                                dt,
-                                &[nh, seq, dh],
-                                s_src.strides(),
-                                s_dst.strides(),
-                                src.as_ptr().cast(),
-                                dst.as_mut_ptr().cast(),
-                            ),
-                            &mut [],
-                            stream,
-                        )
-                        .unwrap();
-                },
-                20,
-                2,
-            )
-        })
-    }
-
-    fn time_cost_bare(total_exp: u32, dh_exp: u32) -> Duration {
-        use super::super::common_cpu::Operator as RefOp;
-        use crate::common_cpu::Cpu;
-        use ndarray_layout::{ArrayLayout, Endian::BigEndian};
-        let Some(gpu) = Gpu::init() else {
-            panic!("init gpu failed");
-        };
-        let dt = ty::U8;
-        let mut cpu_op = RefOp::new(&Cpu);
-        let mut gpu_op = Operator::new(&gpu);
-        cpu_op.scheme(&dyn_args(dt), 0).unwrap();
-        gpu_op.scheme(&dyn_args(dt), 0).unwrap();
-
-        let total_size = 1 << total_exp;
-        let unit = 1 << dh_exp;
-        use crate::rearrange::cuda::BARE_UNIT;
-        unsafe {
-            BARE_UNIT = unit;
-        }
-        let ele = dt.nbytes();
-        let s_src = ArrayLayout::<1>::new_contiguous(&[total_size], BigEndian, ele);
-
-        gpu.apply(|ctx| {
-            let stream = ctx.stream();
-            #[cfg(use_nvidia)]
-            let rt = &stream;
-            #[cfg(use_iluvatar)]
-            let rt = ctx;
-            let mut src = rt.malloc::<u8>(total_size);
-            let mut dst = rt.malloc::<u8>(total_size);
-            fill_src(&mut src, ctx, &stream);
-            stream.bench(
-                |_, stream| {
-                    gpu_op
-                        .launch(
-                            &args(
-                                dt,
-                                &[total_size],
-                                s_src.strides(),
-                                s_src.strides(),
-                                src.as_ptr().cast(),
-                                dst.as_mut_ptr().cast(),
-                            ),
-                            &mut [],
-                            stream,
-                        )
-                        .unwrap();
-                },
-                20,
-                2,
-            )
-        })
-    }
-
-    #[test]
-    fn test_time() {
-        for total_exp in [24, 26, 28, 30] {
-            println!("\n性能测试结果 (total_exp = {total_exp}):");
-            println!(
-                "数据规模: {} ({:.2}GB)",
-                1u64 << total_exp,
-                (1u64 << total_exp) as f64 / (1024.0 * 1024.0 * 1024.0)
-            );
-            println!("----------------------------------------");
-            println!("dh_exp  dh大小  正向时间          反向时间          直接拷贝时间");
-            println!("----------------------------------------");
-            for dh_exp in 1..=5 {
-                let dh_size = 1 << dh_exp;
-                let inverse_time = time_cost(true, total_exp, dh_exp);
-                let forward_time = time_cost(false, total_exp, dh_exp);
-                let bare_time = time_cost_bare(total_exp, dh_exp);
-                println!("{dh_exp:<7} {dh_size:<7} {forward_time:<16?} {inverse_time:<16?} {bare_time:<16?}");
-            }
-            println!("----------------------------------------");
-        }
-    }
-
-    #[test]
-    fn test_time_one() {
-        time_cost(true, 26, 4);
-        time_cost(false, 26, 4);
-        time_cost_bare(26, 8);
-    }
 }