function [U, S, V] = tsvd_r(X, r)
% tsvd_r_gpu  固定 tubal-rank 的瘦版 t-SVD（GPU 版本）
%   X : n1 x n2 x n3  （可以是 CPU 数组，会自动转到 GPU）
%   r : 目标 tubal-rank, 1 <= r <= min(n1,n2)
%   do_gather (可选): 
%       true  -> 结果 gather 回 CPU（double / single）
%       false -> 结果保持为 gpuArray
%
% 输出：
%   U : n1 x r x n3
%   S : r  x r x n3   （f-对角）
%   V : n2 x r x n3
%
% 实现：
%   在 GPU 上做 fft / svd / ifft，逻辑与原 tsvd_r 完全一致。

    if nargin < 3
        do_gather = true;
    end

    [n1, n2, n3] = size(X);
    assert(r >= 1 && r <= min(n1,n2), 'r 必须满足 1 <= r <= min(n1,n2)');

    % ---- 转到 GPU ----
    Xg = gpuArray(X);

    % ---- 频域 ----
    Xhat = fft(Xg, [], 3);                      % n1 x n2 x n3, complex gpuArray
    Uhat = gpuArray.zeros(n1, r, n3, 'like', Xhat);
    Vhat = gpuArray.zeros(n2, r, n3, 'like', Xhat);
    Shat = gpuArray.zeros(r,  r, n3, 'like', Xhat);

    % 注意：isreal/gpuArray 是支持的，会返回普通 logical
    isRealX = isreal(Xg);
    n3even  = mod(n3, 2) == 0;
    halfn3  = floor(n3/2) + 1;                 % 独立频率片个数（含 DC，偶数时含 Nyquist）

    if isRealX
        % ================== 实数张量：利用共轭对称 ==================

        % ---- DC 片 f = 1 ----
        [Uf, Sf, Vf] = svd(Xhat(:,:,1), 'econ');
        Uhat(:,:,1) = Uf(:,1:r);
        Vhat(:,:,1) = Vf(:,1:r);
        Shat(:,:,1) = Sf(1:r,1:r);

        % ---- 中间成对频率：f = 2 .. (halfn3 - n3even) ----
        for f = 2 : (halfn3 - n3even)
            [Uf, Sf, Vf] = svd(Xhat(:,:,f), 'econ');
            Uhat(:,:,f) = Uf(:,1:r);
            Vhat(:,:,f) = Vf(:,1:r);
            Shat(:,:,f) = Sf(1:r,1:r);

            idx = n3 - f + 2;                  % 共轭对称下标
            Uhat(:,:,idx) = conj(Uhat(:,:,f));
            Vhat(:,:,idx) = conj(Vhat(:,:,f));
            Shat(:,:,idx) = Shat(:,:,f);       % 奇异值非负实数
        end

        % ---- Nyquist 片（仅偶数 n3） ----
        if n3even
            f = halfn3;
            [Uf, Sf, Vf] = svd(Xhat(:,:,f), 'econ');
            Uhat(:,:,f) = real(Uf(:,1:r));
            Vhat(:,:,f) = real(Vf(:,1:r));
            Shat(:,:,f) = real(Sf(1:r,1:r));
        end

        % DC 片取实
        Uhat(:,:,1) = real(Uhat(:,:,1));
        Vhat(:,:,1) = real(Vhat(:,:,1));
        Shat(:,:,1) = real(Shat(:,:,1));

        % ---- 回到时域（确保实）----
        % 'symmetric' 选项在新版本 MATLAB 的 gpuArray 上是支持的；
        % 如果你版本较旧报错，可以改成 real(ifft(...)).
        Ug = ifft(Uhat, [], 3, 'symmetric');
        Sg = ifft(Shat, [], 3, 'symmetric');
        Vg = ifft(Vhat, [], 3, 'symmetric');

    else
        % ================== 复数张量：每片独立 SVD ==================
        for f = 1:n3
            [Uf, Sf, Vf] = svd(Xhat(:,:,f), 'econ');
            Uhat(:,:,f) = Uf(:,1:r);
            Vhat(:,:,f) = Vf(:,1:r);
            Shat(:,:,f) = Sf(1:r,1:r);
        end

        Ug = ifft(Uhat, [], 3);
        Sg = ifft(Shat, [], 3);
        Vg = ifft(Vhat, [], 3);
    end

    % ==== 根据需要 gather 回 CPU ====
    if do_gather
        U = gather(Ug);
        S = gather(Sg);
        V = gather(Vg);
    else
        U = Ug;
        S = Sg;
        V = Vg;
    end
end
