intel · kbobrovs · Apr 6, 2021 · Apr 5, 2021 · Apr 5, 2021 · Apr 5, 2021
@@ -14,19 +14,19 @@
 
 #define SIMDCF_ELEMENT_SKIP(i)
 
-namespace cl {
+__SYCL_INLINE_NAMESPACE(cl) {
 namespace sycl {
+
 namespace detail {
 namespace half_impl {
 class half;
 } // namespace half_impl
 } // namespace detail
-} // namespace sycl
-} // namespace cl
 
-using half = cl::sycl::detail::half_impl::half;
-
-namespace EsimdEmulSys {
+namespace INTEL {
+namespace gpu {
+namespace emu {
+namespace detail {
 
 constexpr int sat_is_on = 1;
 
@@ -44,14 +44,10 @@ template <typename RT> struct satur {
       return (RT)val;
     }
 
-#ifdef max
-#undef max
-#endif
-#ifdef min
-#undef min
-#endif
-    const RT t_max = std::numeric_limits<RT>::max();
-    const RT t_min = std::numeric_limits<RT>::min();
+    // min/max can be macros on Windows, so wrap them into parens to avoid their
+    // expansion
+    const RT t_max = (std::numeric_limits<RT>::max)();
+    const RT t_min = (std::numeric_limits<RT>::min)();
 
     if (val > t_max) {
       return t_max;
@@ -112,8 +108,6 @@ template <> struct SetSatur<double, true> {
   static unsigned int set() { return sat_is_on; }
 };
 
-} // namespace EsimdEmulSys
-
 // used for intermediate type in dp4a emulation
 template <typename T1, typename T2> struct restype_ex {
 private:
@@ -470,10 +464,11 @@ template <typename T> struct dwordtype;
 template <> struct dwordtype<int> { static const bool value = true; };
 template <> struct dwordtype<unsigned int> { static const bool value = true; };
 
-template <unsigned int N1, unsigned int N2> struct ressize {
-  static const unsigned int size = (N1 > N2) ? N1 : N2;
-  static const bool conformable =
-      check_true < N1 % size == 0 && N2 % size == 0 > ::value;
-};
+} // namespace detail
+} // namespace emu
+} // namespace gpu
+} // namespace INTEL
+} // namespace sycl
+} // __SYCL_INLINE_NAMESPACE(cl)
 
-#endif
+#endif // #ifndef __SYCL_DEVICE_ONLY__
@@ -14,11 +14,12 @@
 #include <CL/sycl/INTEL/esimd/detail/esimd_types.hpp>
 #include <CL/sycl/INTEL/esimd/detail/esimd_util.hpp>
 #include <CL/sycl/INTEL/esimd/esimd_enum.hpp>
-#include <CL/sycl/detail/accessor_impl.hpp>
 
 #include <assert.h>
 #include <cstdint>
 
+#define __SIGD sycl::INTEL::gpu::detail
+
 // \brief __esimd_rdregion: region access intrinsic.
 //
 // @param T the element data type, one of i8, i16, i32, i64, half, float,
@@ -63,13 +64,13 @@
 //
 template <typename T, int N, int M, int VStride, int Width, int Stride,
           int ParentWidth = 0>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, M>
-__esimd_rdregion(sycl::INTEL::gpu::vector_type_t<T, N> Input, uint16_t Offset);
+SYCL_EXTERNAL __SIGD::vector_type_t<T, M>
+__esimd_rdregion(__SIGD::vector_type_t<T, N> Input, uint16_t Offset);
 
 template <typename T, int N, int M, int ParentWidth = 0>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, M>
-__esimd_rdindirect(sycl::INTEL::gpu::vector_type_t<T, N> Input,
-                   sycl::INTEL::gpu::vector_type_t<uint16_t, M> Offset);
+SYCL_EXTERNAL __SIGD::vector_type_t<T, M>
+__esimd_rdindirect(__SIGD::vector_type_t<T, N> Input,
+                   __SIGD::vector_type_t<uint16_t, M> Offset);
 
 // __esimd_wrregion returns the updated vector with the region updated.
 //
@@ -120,46 +121,28 @@ __esimd_rdindirect(sycl::INTEL::gpu::vector_type_t<T, N> Input,
 //
 template <typename T, int N, int M, int VStride, int Width, int Stride,
           int ParentWidth = 0>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, N>
-__esimd_wrregion(sycl::INTEL::gpu::vector_type_t<T, N> OldVal,
-                 sycl::INTEL::gpu::vector_type_t<T, M> NewVal, uint16_t Offset,
+SYCL_EXTERNAL __SIGD::vector_type_t<T, N>
+__esimd_wrregion(__SIGD::vector_type_t<T, N> OldVal,
+                 __SIGD::vector_type_t<T, M> NewVal, uint16_t Offset,
                  sycl::INTEL::gpu::mask_type_t<M> Mask = 1);
 
 template <typename T, int N, int M, int ParentWidth = 0>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, N>
-__esimd_wrindirect(sycl::INTEL::gpu::vector_type_t<T, N> OldVal,
-                   sycl::INTEL::gpu::vector_type_t<T, M> NewVal,
-                   sycl::INTEL::gpu::vector_type_t<uint16_t, M> Offset,
+SYCL_EXTERNAL __SIGD::vector_type_t<T, N>
+__esimd_wrindirect(__SIGD::vector_type_t<T, N> OldVal,
+                   __SIGD::vector_type_t<T, M> NewVal,
+                   __SIGD::vector_type_t<uint16_t, M> Offset,
                    sycl::INTEL::gpu::mask_type_t<M> Mask = 1);
 
 __SYCL_INLINE_NAMESPACE(cl) {
 namespace sycl {
 namespace INTEL {
 namespace gpu {
-// TODO dependencies on the std SYCL concepts like images
-// should be refactored in a separate header
-class AccessorPrivateProxy {
-public:
-#ifdef __SYCL_DEVICE_ONLY__
-  template <typename AccessorTy>
-  static auto getNativeImageObj(const AccessorTy &Acc) {
-    return Acc.getNativeImageObj();
-  }
-#else
-  template <typename AccessorTy>
-  static auto getImageRange(const AccessorTy &Acc) {
-    return Acc.getAccessRange();
-  }
-  static auto getElemSize(const sycl::detail::AccessorBaseHost &Acc) {
-    return Acc.getElemSize();
-  }
-#endif
-};
+namespace detail {
 
 /// read from a basic region of a vector, return a vector
 template <typename BT, int BN, typename RTy>
-vector_type_t<typename RTy::element_type, RTy::length>
-    ESIMD_INLINE readRegion(const vector_type_t<BT, BN> &Base, RTy Region) {
+__SIGD::vector_type_t<typename RTy::element_type, RTy::length> ESIMD_INLINE
+readRegion(const __SIGD::vector_type_t<BT, BN> &Base, RTy Region) {
   using ElemTy = typename RTy::element_type;
   auto Base1 = bitcast<ElemTy, BT, BN>(Base);
   constexpr int Bytes = BN * sizeof(BT);
@@ -180,8 +163,8 @@ vector_type_t<typename RTy::element_type, RTy::length>
 
 /// read from a nested region of a vector, return a vector
 template <typename BT, int BN, typename T, typename U>
-ESIMD_INLINE vector_type_t<typename T::element_type, T::length>
-readRegion(const vector_type_t<BT, BN> &Base, std::pair<T, U> Region) {
+ESIMD_INLINE __SIGD::vector_type_t<typename T::element_type, T::length>
+readRegion(const __SIGD::vector_type_t<BT, BN> &Base, std::pair<T, U> Region) {
   // parent-region type
   using PaTy = typename shape_type<U>::type;
   constexpr int BN1 = PaTy::length;
@@ -222,6 +205,7 @@ readRegion(const vector_type_t<BT, BN> &Base, std::pair<T, U> Region) {
   }
 }
 
+} // namespace detail
 } // namespace gpu
 } // namespace INTEL
 } // namespace sycl
@@ -233,37 +217,37 @@ readRegion(const vector_type_t<BT, BN> &Base, std::pair<T, U> Region) {
 // optimization on simd object
 //
 template <typename T, int N>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, N>
-__esimd_vload(const sycl::INTEL::gpu::vector_type_t<T, N> *ptr);
+SYCL_EXTERNAL __SIGD::vector_type_t<T, N>
+__esimd_vload(const __SIGD::vector_type_t<T, N> *ptr);
 
 // vstore
 //
 // map to the backend vstore intrinsic, used by compiler to control
 // optimization on simd object
 template <typename T, int N>
-SYCL_EXTERNAL void __esimd_vstore(sycl::INTEL::gpu::vector_type_t<T, N> *ptr,
-                                  sycl::INTEL::gpu::vector_type_t<T, N> vals);
+SYCL_EXTERNAL void __esimd_vstore(__SIGD::vector_type_t<T, N> *ptr,
+                                  __SIGD::vector_type_t<T, N> vals);
 
 template <typename T, int N>
-SYCL_EXTERNAL uint16_t __esimd_any(sycl::INTEL::gpu::vector_type_t<T, N> src);
+SYCL_EXTERNAL uint16_t __esimd_any(__SIGD::vector_type_t<T, N> src);
 
 template <typename T, int N>
-SYCL_EXTERNAL uint16_t __esimd_all(sycl::INTEL::gpu::vector_type_t<T, N> src);
+SYCL_EXTERNAL uint16_t __esimd_all(__SIGD::vector_type_t<T, N> src);
 
 #ifndef __SYCL_DEVICE_ONLY__
 
 // Implementations of ESIMD intrinsics for the SYCL host device
 template <typename T, int N, int M, int VStride, int Width, int Stride,
           int ParentWidth>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, M>
-__esimd_rdregion(sycl::INTEL::gpu::vector_type_t<T, N> Input, uint16_t Offset) {
+SYCL_EXTERNAL __SIGD::vector_type_t<T, M>
+__esimd_rdregion(__SIGD::vector_type_t<T, N> Input, uint16_t Offset) {
   uint16_t EltOffset = Offset / sizeof(T);
   assert(Offset % sizeof(T) == 0);
 
   int NumRows = M / Width;
   assert(M % Width == 0);
 
-  sycl::INTEL::gpu::vector_type_t<T, M> Result;
+  __SIGD::vector_type_t<T, M> Result;
   int Index = 0;
   for (int i = 0; i < NumRows; ++i) {
     for (int j = 0; j < Width; ++j) {
@@ -274,10 +258,10 @@ __esimd_rdregion(sycl::INTEL::gpu::vector_type_t<T, N> Input, uint16_t Offset) {
 }
 
 template <typename T, int N, int M, int ParentWidth>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, M>
-__esimd_rdindirect(sycl::INTEL::gpu::vector_type_t<T, N> Input,
-                   sycl::INTEL::gpu::vector_type_t<uint16_t, M> Offset) {
-  sycl::INTEL::gpu::vector_type_t<T, M> Result;
+SYCL_EXTERNAL __SIGD::vector_type_t<T, M>
+__esimd_rdindirect(__SIGD::vector_type_t<T, N> Input,
+                   __SIGD::vector_type_t<uint16_t, M> Offset) {
+  __SIGD::vector_type_t<T, M> Result;
   for (int i = 0; i < M; ++i) {
     uint16_t EltOffset = Offset[i] / sizeof(T);
     assert(Offset[i] % sizeof(T) == 0);
@@ -289,17 +273,17 @@ __esimd_rdindirect(sycl::INTEL::gpu::vector_type_t<T, N> Input,
 
 template <typename T, int N, int M, int VStride, int Width, int Stride,
           int ParentWidth>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, N>
-__esimd_wrregion(sycl::INTEL::gpu::vector_type_t<T, N> OldVal,
-                 sycl::INTEL::gpu::vector_type_t<T, M> NewVal, uint16_t Offset,
+SYCL_EXTERNAL __SIGD::vector_type_t<T, N>
+__esimd_wrregion(__SIGD::vector_type_t<T, N> OldVal,
+                 __SIGD::vector_type_t<T, M> NewVal, uint16_t Offset,
                  sycl::INTEL::gpu::mask_type_t<M> Mask) {
   uint16_t EltOffset = Offset / sizeof(T);
   assert(Offset % sizeof(T) == 0);
 
   int NumRows = M / Width;
   assert(M % Width == 0);
 
-  sycl::INTEL::gpu::vector_type_t<T, N> Result = OldVal;
+  __SIGD::vector_type_t<T, N> Result = OldVal;
   int Index = 0;
   for (int i = 0; i < NumRows; ++i) {
     for (int j = 0; j < Width; ++j) {
@@ -312,12 +296,12 @@ __esimd_wrregion(sycl::INTEL::gpu::vector_type_t<T, N> OldVal,
 }
 
 template <typename T, int N, int M, int ParentWidth>
-SYCL_EXTERNAL sycl::INTEL::gpu::vector_type_t<T, N>
-__esimd_wrindirect(sycl::INTEL::gpu::vector_type_t<T, N> OldVal,
-                   sycl::INTEL::gpu::vector_type_t<T, M> NewVal,
-                   sycl::INTEL::gpu::vector_type_t<uint16_t, M> Offset,
+SYCL_EXTERNAL __SIGD::vector_type_t<T, N>
+__esimd_wrindirect(__SIGD::vector_type_t<T, N> OldVal,
+                   __SIGD::vector_type_t<T, M> NewVal,
+                   __SIGD::vector_type_t<uint16_t, M> Offset,
                    sycl::INTEL::gpu::mask_type_t<M> Mask) {
-  sycl::INTEL::gpu::vector_type_t<T, N> Result = OldVal;
+  __SIGD::vector_type_t<T, N> Result = OldVal;
   for (int i = 0; i < M; ++i) {
     if (Mask[i]) {
       uint16_t EltOffset = Offset[i] / sizeof(T);
@@ -330,3 +314,5 @@ __esimd_wrindirect(sycl::INTEL::gpu::vector_type_t<T, N> OldVal,
 }
 
 #endif // __SYCL_DEVICE_ONLY__
+
+#undef __SIGD