#include using namespace torch::jit::tensorexpr; // Remove all indices from axes positions. static std::vector squeezeIndices( const ParameterList& indices, const std::vector& axes) { std::vector indices_squeezed; for (size_t dim = 0; dim < indices.size(); ++dim) { if (!std::count(axes.begin(), axes.end(), dim)) { indices_squeezed.push_back(indices[dim]); } } return indices_squeezed; } namespace torch::jit::tensorexpr { Tensor computeSum( const std::vector& inputs, const std::vector& outputShape, const std::vector& outputStrides, const std::optional& outputType, at::Device device) { std::vector axes; bool keepdim = false; // aten::sum takes the input tensor named self. auto sizes = valueShape(inputs[0]); size_t rank = sizes.size(); if (inputs.size() > 2) { if (auto emptyAxes = std::get_if(&inputs[1])) { // If dim-array is an empty list, it will appear as BufList instead of // IntList, and hence we need a special handling for it. // In that case, we need to sum over all axes. TORCH_INTERNAL_ASSERT(emptyAxes->empty()); axes.resize(rank); std::iota(axes.begin(), axes.end(), 0); } else if (rank > 0) { auto nodeAxes = std::get(inputs[1]); // Canonicalize axes: wrap around, sort and make unique. for (auto axis : nodeAxes) { axes.push_back(at::maybe_wrap_dim(axis, rank)); } std::sort(axes.begin(), axes.end()); axes.erase(std::unique(axes.begin(), axes.end()), axes.end()); } keepdim = std::get(inputs[2]); } else { axes.resize(rank); std::iota(axes.begin(), axes.end(), 0); } // Axes go into reduction dimensions. std::vector reductionDims; reductionDims.reserve(rank); for (size_t axis : axes) { reductionDims.emplace_back(sizes[axis]); } std::vector outputDims; // Output dimensions are the complement of axes. When keepdim is set, a // one-sized dimension is inserted for each axis. for (size_t dim = 0; dim < rank; ++dim) { if (!std::count(axes.begin(), axes.end(), dim)) { outputDims.emplace_back(sizes[dim]); } else if (keepdim) { outputDims.emplace_back(1); } } return Reduce( "sum", outputDims, outputStrides, Sum(), [&](ParameterList& indices) { // "Squeeze" out indices inserted when keepdim is set. auto indices_squeezed = keepdim ? squeezeIndices(indices, axes) : indices; TORCH_INTERNAL_ASSERT(axes.size() <= indices_squeezed.size()); // Move innermost indices into axes positions: // 1. Fill the outermost indices first. // 2. Insert the innermost indices into the correct axis position, // displacing the outermost indices as needed. std::vector indices_exprs; size_t i = 0; for (; i < indices_squeezed.size() - axes.size(); ++i) { indices_exprs.push_back(indices_squeezed[i]); } for (auto axis : axes) { indices_exprs.insert( indices_exprs.begin() + axis, indices_squeezed[i]); ++i; } auto indexed = tensorOrConstant(inputs[0], indices_exprs); if (outputType) { return Cast::make(ToDtype(*outputType), indexed); } else { return indexed; } }, reductionDims); } Tensor computeMean( const std::vector& inputs, const std::vector& outputShape, const std::vector& outputStrides, const std::optional& outputType, at::Device device) { Dtype dtype = kFloat; if (outputType) { dtype = Dtype(*outputType); } bool keepdim = false; BufHandle ResultBuf("mean", outputShape, dtype); BufHandle InputBuf = std::get(inputs[0]); std::vector extra_args; if (inputs.size() > 2) { keepdim = std::get(inputs[2]); } if (auto mean_dims = std::get_if(&inputs[1])) { extra_args = c10::fmap(*mean_dims); } else { // When dims argument is not specified, reduce over all dimensions for (int64_t idx = 0; idx < static_cast(InputBuf.ndim()); ++idx) { extra_args.emplace_back(idx); } } extra_args.push_back(LongImm::make(static_cast(keepdim))); return Tensor( ResultBuf.node(), ExternalCall::make(ResultBuf, "nnc_aten_mean", {InputBuf}, extra_args)); } Tensor computeMax( const std::vector& inputs, const std::vector& outputShape, const std::vector& outputStrides, const std::optional& outputType, at::Device device) { Dtype dtype = kFloat; if (outputType) { dtype = Dtype(*outputType); } BufHandle ResultBuf("max", outputShape, dtype); BufHandle InputBuf = std::get(inputs[0]); std::vector max_dims_expr; auto max_dim = std::get(inputs[1]); auto keep_dim = std::get(inputs[2]); return Tensor( ResultBuf.node(), ExternalCall::make( ResultBuf, "nnc_aten_max_red", {InputBuf}, {max_dim, (int64_t)keep_dim})); } Tensor computeAdaptiveAvgPool2d( const std::vector& inputs, const std::vector& outputShape, const std::vector& outputStrides, const std::optional& outputType, at::Device device) { Dtype dtype = kFloat; if (outputType) { dtype = Dtype(*outputType); } BufHandle ResultBuf("adaptive_avgpool2d", outputShape, dtype); // NOLINTNEXTLINE(performance-unnecessary-copy-initialization) auto out_size_param = std::get(inputs[1]); return Tensor( ResultBuf.node(), ExternalCall::make( ResultBuf, "nnc_aten_adaptive_avg_pool2d", {std::get(inputs[0])}, c10::fmap(out_size_param))); } } // namespace torch::jit::tensorexpr