pytorch
diff --git a/‎backends/cadence/aot/functions_hifi.yaml
Lines changed: 6 additions & 6 deletions b/‎backends/cadence/aot/functions_hifi.yaml
Lines changed: 6 additions & 6 deletions
diff --git a/‎backends/cadence/hifi/kernels/kernels.h
Lines changed: 44 additions & 0 deletions b/‎backends/cadence/hifi/kernels/kernels.h
Lines changed: 44 additions & 0 deletions
diff --git a/‎backends/cadence/hifi/operators/CMakeLists.txt
Lines changed: 2 additions & 1 deletion b/‎backends/cadence/hifi/operators/CMakeLists.txt
Lines changed: 2 additions & 1 deletion
diff --git a/‎backends/cadence/hifi/operators/op_add.cpp
Lines changed: 53 additions & 46 deletions b/‎backends/cadence/hifi/operators/op_add.cpp
Lines changed: 53 additions & 46 deletions
@@ -45,12 +45,12 @@
 - op: div.out
   kernels:
     - arg_meta: null
-      kernel_name: impl::HiFi::div_out
+      kernel_name: cadence::impl::HiFi::div_out
 
 - op: div.out_mode
   kernels:
     - arg_meta: null
-      kernel_name: impl::HiFi::div_out_mode
+      kernel_name: cadence::impl::HiFi::div_out_mode
 
 - op: embedding.out
   kernels:
@@ -65,7 +65,7 @@
 - op: mul.out
   kernels:
     - arg_meta: null
-      kernel_name: impl::HiFi::mul_out
+      kernel_name: cadence::impl::HiFi::mul_out
 
 - op: permute_copy.out
   kernels:
@@ -75,7 +75,7 @@
 - op: sigmoid.out
   kernels:
     - arg_meta: null
-      kernel_name: impl::HiFi::sigmoid_out
+      kernel_name: cadence::impl::HiFi::sigmoid_out
 
 - op: slice_copy.Tensor_out
   kernels:
@@ -90,12 +90,12 @@
 - op: sub.out
   kernels:
     - arg_meta: null
-      kernel_name: impl::HiFi::sub_out
+      kernel_name: cadence::impl::HiFi::sub_out
 
 - op: tanh.out
   kernels:
     - arg_meta: null
-      kernel_name: impl::HiFi::tanh_out
+      kernel_name: cadence::impl::HiFi::tanh_out
 
 - op: view_copy.out
   kernels:
 
@@ -11,7 +11,51 @@
 #include <inttypes.h>
 #include <stddef.h>
 #include <xa_type_def.h>
+/* For NNLIB APIs */
+#include "xa_nnlib_kernels_api.h"
 
+/* Potential NNLIB function/APIs */
+extern "C" WORD32 xa_nn_elm_add_broadcast_4D_f32xf32_f32(
+    FLOAT32* __restrict__ p_out,
+    const WORD32* const p_out_shape,
+    const FLOAT32* __restrict__ p_inp1,
+    const WORD32* const p_inp1_shape,
+    const FLOAT32* __restrict__ p_inp2,
+    const WORD32* const p_inp2_shape);
+
+extern "C" WORD32 xa_nn_elm_div_broadcast_4D_f32xf32_f32(
+    FLOAT32* __restrict__ p_out,
+    const WORD32* const p_out_shape,
+    const FLOAT32* __restrict__ p_inp1,
+    const WORD32* const p_inp1_shape,
+    const FLOAT32* __restrict__ p_inp2,
+    const WORD32* const p_inp2_shape);
+
+extern "C" WORD32 xa_nn_elm_div_mode_f32xf32_f32(
+    FLOAT32* __restrict__ p_out,
+    const FLOAT32* __restrict__ p_inp1,
+    const FLOAT32* __restrict__ p_inp2,
+    WORD32 num_elm,
+    WORD32 mode);
+
+extern "C" WORD32 xa_nn_elm_div_mode_broadcast_4D_f32xf32_f32(
+    FLOAT32* __restrict__ p_out,
+    const WORD32* const p_out_shape,
+    const FLOAT32* __restrict__ p_inp1,
+    const WORD32* const p_inp1_shape,
+    const FLOAT32* __restrict__ p_inp2,
+    const WORD32* const p_inp2_shape,
+    WORD32 mode);
+
+extern "C" WORD32 xa_nn_elm_mul_broadcast_4D_f32xf32_f32(
+    FLOAT32* __restrict__ p_out,
+    const WORD32* const p_out_shape,
+    const FLOAT32* __restrict__ p_inp1,
+    const WORD32* const p_inp1_shape,
+    const FLOAT32* __restrict__ p_inp2,
+    const WORD32* const p_inp2_shape);
+
+namespace cadence {
 namespace impl {
 namespace HiFi {
 namespace kernels {
 
@@ -47,10 +47,11 @@ set(_aten_ops__srcs
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/op_to_copy.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/op_view_copy.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/op_where.cpp"
-    "${EXECUTORCH_ROOT}/kernels/portable/cpu/pattern/unary_ufunc_realhb_to_floath.cpp"
+    "${EXECUTORCH_ROOT}/kernels/portable/cpu/pattern/unary_ufunc_realhbbf16_to_floathbf16.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/activation_ops_util.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/broadcast_util.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/copy_ops_util.cpp"
+    "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/dtype_util.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/index_util.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/kernel_ops_util.cpp"
     "${EXECUTORCH_ROOT}/kernels/portable/cpu/util/matmul_ops_util.cpp"
 
@@ -83,7 +83,7 @@ Tensor& add_out(
     Tensor& out) {
   ET_KERNEL_CHECK(
       ctx,
-      resize_to_broadcast_target_size(a, b, out) == Error::Ok,
+      torch::executor::resize_to_broadcast_target_size(a, b, out) == Error::Ok,
       InvalidArgument,
       out);
 
@@ -93,25 +93,36 @@ Tensor& add_out(
       InvalidArgument,
       out);
   ET_KERNEL_CHECK(
-      ctx, tensors_have_same_dim_order(a, b, out), InvalidArgument, out);
+      ctx,
+      executorch::runtime::tensors_have_same_dim_order(a, b, out),
+      InvalidArgument,
+      out);
 
   ScalarType a_type = a.scalar_type();
   ScalarType b_type = b.scalar_type();
-  ScalarType alpha_type = 
-    torch::executor::native::utils::get_scalar_dtype(alpha);
-  ScalarType common_type = promoteTypes(a_type, b_type, /*half_to_float*/ true);
+  ScalarType alpha_type =
+      torch::executor::native::utils::get_scalar_dtype(alpha);
+  ScalarType common_type =
+      executorch::runtime::promoteTypes(a_type, b_type, /*half_to_float*/ true);
   ScalarType out_type = out.scalar_type();
 
-  ET_KERNEL_CHECK(ctx, canCast(common_type, out_type), InvalidArgument, out);
   ET_KERNEL_CHECK(
-      ctx, check_alpha_type(alpha_type, common_type), InvalidArgument, out);
-    
+      ctx,
+      executorch::runtime::canCast(common_type, out_type),
+      InvalidArgument,
+      out);
+  ET_KERNEL_CHECK(
+      ctx,
+      torch::executor::check_alpha_type(alpha_type, common_type),
+      InvalidArgument,
+      out);
+
   float alpha_val;
   torch::executor::native::utils::extract_scalar(alpha, &alpha_val);
 
   constexpr auto name = "add.out";
   constexpr int kNnlibMaxDim = 4; /*fallback if broadcast and dim > 4 */
-  
+
   int a_dim = a.dim(), b_dim = b.dim(), out_dim = out.dim();
   bool optimized = 1;
   /*find broadcast*/
@@ -124,51 +135,48 @@ Tensor& add_out(
   if ((out_type != ScalarType::Float) || (alpha_val != 1.0))
     optimized = 0;
 
-  if ((a_dim == 0) || (b_dim == 0) )
+  if ((a_dim == 0) || (b_dim == 0))
     optimized = 0;
 
   if ((broadcast == 1) && (max_dim > kNnlibMaxDim))
     optimized = 0;
 
-
   if (optimized) {
-      const float* const a_data = a.const_data_ptr<float>();
-      const float* const b_data = b.const_data_ptr<float>();
-      float* const out_data = out.mutable_data_ptr<float>();
-
-      if(broadcast == 1) {
-         int out_shape[kNnlibMaxDim];
-         int inp1_shape[kNnlibMaxDim];
-         int inp2_shape[kNnlibMaxDim];
-         
-         for (int i = 0; i < kNnlibMaxDim; i++) {
-            out_shape[i] = 1;
-            inp1_shape[i] = 1;
-            inp2_shape[i] = 1;
-         }
-                  
-         int off_o = kNnlibMaxDim - out.dim();
-         int off_a = kNnlibMaxDim - a.dim();
-         int off_b = kNnlibMaxDim - b.dim();
-         
-         for (int i = 0; i < out.dim(); i++)
-             out_shape[i+off_o] = out.size(i);
-         for (int i = 0; i < a.dim(); i++)
-             inp1_shape[i+off_a] = a.size(i);
-         for (int i = 0; i < b.dim(); i++)
-             inp2_shape[i+off_b] = b.size(i);
-         
-         xa_nn_elm_add_broadcast_4D_f32xf32_f32(
-           out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape);
-      }                      
-      else
-      {
-        xa_nn_elm_add_f32xf32_f32(out_data, a_data, b_data, out.numel());
+    const float* const a_data = a.const_data_ptr<float>();
+    const float* const b_data = b.const_data_ptr<float>();
+    float* const out_data = out.mutable_data_ptr<float>();
+
+    if (broadcast == 1) {
+      int out_shape[kNnlibMaxDim];
+      int inp1_shape[kNnlibMaxDim];
+      int inp2_shape[kNnlibMaxDim];
+
+      for (int i = 0; i < kNnlibMaxDim; i++) {
+        out_shape[i] = 1;
+        inp1_shape[i] = 1;
+        inp2_shape[i] = 1;
       }
 
-      return out;
+      int off_o = kNnlibMaxDim - out.dim();
+      int off_a = kNnlibMaxDim - a.dim();
+      int off_b = kNnlibMaxDim - b.dim();
+
+      for (int i = 0; i < out.dim(); i++)
+        out_shape[i + off_o] = out.size(i);
+      for (int i = 0; i < a.dim(); i++)
+        inp1_shape[i + off_a] = a.size(i);
+      for (int i = 0; i < b.dim(); i++)
+        inp2_shape[i + off_b] = b.size(i);
+
+      xa_nn_elm_add_broadcast_4D_f32xf32_f32(
+          out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape);
+    } else {
+      xa_nn_elm_add_f32xf32_f32(out_data, a_data, b_data, out.numel());
+    }
+
+    return out;
   }
-  
+
   ET_SWITCH_REALHBBF16_TYPES(a_type, ctx, name, CTYPE_A, [&]() {
     ET_SWITCH_REALHBBF16_TYPES(b_type, ctx, name, CTYPE_B, [&]() {
       using CTYPE_IN = typename torch::executor::
@@ -191,7 +199,6 @@ Tensor& add_out(
   return out;
 }
 
-
 } // namespace native
 } // namespace HiFi
 } // namespace impl