从源构建¶
TorchAudio 集成了用于数值计算的 PyTorch 和用于多媒体 I/O 的第三方库。它需要以下工具才能从源代码构建。
pkg-config(Linux/macOS,如果构建 sox 扩展)
大多数工具在 Conda 中都可用,因此我们建议使用 conda。
自定义构建¶
TorchAudio 与第三方库的集成可以通过以下方式启用/禁用 环境变量。
它们可以通过传递来启用,也可以通过 .10
BUILD_SOX:启用/禁用基于 libsox 的 I/O 功能。BUILD_KALDI:启用/禁用基于 Kaldi 的特征提取。BUILD_RNNT:启用/禁用自定义 RNN-T 丢失功能。BUILD_CTC_DECODER:启用/禁用基于 Flashlight 文本的 CTC 解码器。USE_FFMPEG:启用/禁用基于 FFmpeg 库的 I/O 功能。USE_ROCM:启用/禁用 AMD ROCm 支持。USE_CUDA:启用/禁用 CUDA 支持。
有关最新配置及其默认值,请查看源代码。https://github.com/pytorch/audio/blob/main/tools/setup_helpers/extension.py