import os
import numpy as np
import matplotlib.pyplot as plt
import sys
import librosa # <--- 导入 librosa

def analyze_audio_durations(directory_path):
    """
    使用 librosa 分析指定目录中所有音频文件的时长。
    这个版本更健壮，可以处理多种音频格式和编码。

    参数:
    directory_path (str): 包含音频文件的目录路径。
    """
    if not os.path.isdir(directory_path):
        print(f"错误: 目录 '{directory_path}' 不存在。")
        return

    durations = []
    print(f"正在使用 librosa 扫描目录: {directory_path}")

    # 遍历目录中的所有文件
    # 使用 sorted() 来确保每次运行顺序一致
    for filename in sorted(os.listdir(directory_path)):
        # 为了更广泛的兼容性，可以检查多种音频后缀
        if filename.lower().endswith(('.wav', '.mp3', '.flac', '.m4a')):
            file_path = os.path.join(directory_path, filename)
            try:
                # 使用 librosa 获取音频时长，非常简单和强大
                duration = librosa.get_duration(path=file_path)
                durations.append(duration)
            except Exception as e:
                # 捕获所有可能的异常，例如文件损坏或格式不支持
                print(f"无法处理文件 {filename}: {e}")

    if not durations:
        print("在目录中没有找到可以成功处理的音频文件。")
        return

    # 将列表转换为 numpy 数组以便进行统计计算
    durations_np = np.array(durations)

    # 计算统计数据
    max_duration = np.max(durations_np)
    min_duration = np.min(durations_np)
    mean_duration = np.mean(durations_np)
    median_duration = np.median(durations_np)
    total_files = len(durations_np)
    total_duration_hours = np.sum(durations_np) / 3600 # 计算总小时数

    # 打印统计结果
    print("\n--- 音频时长统计结果 ---")
    print(f"成功分析文件总数: {total_files}")
    print(f"总时长: {total_duration_hours:.2f} 小时")
    print(f"平均时长: {mean_duration:.2f} 秒")
    print(f"中位时长: {median_duration:.2f} 秒")
    print(f"最大时长: {max_duration:.2f} 秒")
    print(f"最小时长: {min_duration:.2f} 秒")
    print("------------------------\n")

    # 绘制时长的直方图分布
    plt.figure(figsize=(12, 7))
    plt.hist(durations_np, bins=50, color='skyblue', edgecolor='black')
    plt.title('音频时长分布直方图 (Audio Duration Distribution)')
    plt.xlabel('时长 (秒) / Duration (seconds)')
    plt.ylabel('文件数量 / Number of Files')
    plt.grid(True, linestyle='--', alpha=0.6)

    # 保存图像文件
    output_image_path = 'duration_distribution.png'
    plt.savefig(output_image_path)
    print(f"时长分布图已保存为: {output_image_path}")

if __name__ == '__main__':
    # 将此路径修改为您自己的音频文件夹路径
    audio_directory = '/data2/wl/test-mini-audios'
    
    # 也允许从命令行接收路径作为第一个参数
    if len(sys.argv) > 1:
        audio_directory = sys.argv[1]
        
    analyze_audio_durations(audio_directory)