torchaudio.datasets¶
所有数据集都是 torch.utils.data.Dataset 的子类,
即,它们实现了 __getitem__ 和 __len__ 方法。
因此,它们都可以传递给一个 torch.utils.data.DataLoader,
该对象可以使用 torch.multiprocessing 个工作者并行加载多个样本。
例如:
yesno_data = torchaudio.datasets.YESNO('.', download=True)
data_loader = torch.utils.data.DataLoader(yesno_data,
batch_size=1,
shuffle=True,
num_workers=args.nThreads)
以下数据集可用:
数据集
所有的数据集都有几乎相似的API。它们都有两个通用参数:
transform 和 target_transform 分别用于转换输入和目标。
CMUARCTIC¶
-
class
torchaudio.datasets.CMUARCTIC(root: str, url: str = 'aew', folder_in_archive: str = 'ARCTIC', download: bool = False)[source]¶ 为 CMU_ARCTIC 创建数据集。
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
url (str, optional) – 要从中下载数据集的 URL,或要下载的数据集类型。 (默认值:
"aew") 允许的类型值为"aew"、"ahw"、"aup"、"awb"、"axb"、"bdl"、"clb"、"eey"、"fem"、"gka"、"jmk"、"ksp"、"ljm"、"lnh"、"rms"、"rxr"、"slp"或"slt"。folder_in_archive (str, optional) – 数据集的顶层目录。(默认值:
"ARCTIC")download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。
COMMONVOICE¶
-
class
torchaudio.datasets.COMMONVOICE(root: str, tsv: str = 'train.tsv', url: str = 'english', folder_in_archive: str = 'CommonVoice', version: str = 'cv-corpus-4-2019-12-10', download: bool = False)[source]¶ 为 CommonVoice 创建数据集。
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
tsv (str, 可选) – 用于构建元数据的tsv文件的名称。 (default:
"train.tsv")url (str, 可选) – 下载数据集的URL,或要下载的数据集的语言。 (默认:
"english"). 允许的语言值是"tatar","english","german","french","welsh","breton","chuvash","turkish","kyrgyz","irish","kabyle","catalan","taiwanese","slovenian","italian","dutch","hakha chin","esperanto","estonian","persian","portuguese","basque","spanish","chinese","mongolian","sakha","dhivehi","kinyarwanda","swedish","russian","indonesian","arabic","tamil","interlingua","latvian","japanese","votic","abkhaz","cantonese"和"romansh sursilvan"。folder_in_archive (str, optional) – 数据集的顶层目录。
版本 (str) – 版本字符串。(默认值:
"cv-corpus-4-2019-12-10") 对于其他允许的值,请查阅https://commonvoice.mozilla.org/en/datasets。download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。
GTZAN¶
-
class
torchaudio.datasets.GTZAN(root: str, url: str = 'http://opihi.cs.uvic.ca/sound/genres.tar.gz', folder_in_archive: str = 'genres', download: bool = False, subset: Optional[str] = None)[source]¶ 为 GTZAN 创建数据集。
注意
如果您计划使用此数据集发布结果,请参阅 http://marsyas.info/downloads/datasets.html。
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
url (str, optional) – 下载数据集的 URL。 (默认值:
"http://opihi.cs.uvic.ca/sound/genres.tar.gz")folder_in_archive (str, optional) – 数据集的顶层目录。
download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。子集 (str, 可选) – 使用数据集的哪个子集。 可以是
"training"、"validation"、"testing"或None。 如果为None,则使用整个数据集。(默认值:None)。
LIBRISPEECH¶
-
class
torchaudio.datasets.LIBRISPEECH(root: str, url: str = 'train-clean-100', folder_in_archive: str = 'LibriSpeech', download: bool = False)[source]¶ 为 LibriSpeech 创建数据集。
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
url (str, optional) – 用于下载数据集的 URL, 或要下载的数据集类型。 允许的类型值为
"dev-clean"、"dev-other"、"test-clean"、"test-other"、"train-clean-100"、"train-clean-360"和"train-other-500"。(默认值:"train-clean-100")folder_in_archive (str, optional) – 数据集的顶层目录。(默认值:
"LibriSpeech")download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。
LIBRITTS¶
-
class
torchaudio.datasets.LIBRITTS(root: str, url: str = 'train-clean-100', folder_in_archive: str = 'LibriTTS', download: bool = False)[source]¶ 为 LibriTTS 创建数据集。
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
url (str, optional) – 用于下载数据集的 URL, 或要下载的数据集类型。 允许的类型值为
"dev-clean"、"dev-other"、"test-clean"、"test-other"、"train-clean-100"、"train-clean-360"和"train-other-500"。(默认值:"train-clean-100")folder_in_archive (str, optional) – 数据集的顶层目录。(默认值:
"LibriTTS")download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。
LJSPEECH¶
SPEECHCOMMANDS¶
TEDLIUM¶
VCTK¶
-
class
torchaudio.datasets.VCTK(root: str, url: str = 'https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip', folder_in_archive: str = 'VCTK-Corpus', download: bool = False, downsample: bool = False, transform: Any = None, target_transform: Any = None)[source]¶ 为 VCTK 创建数据集。
注意
此数据集已不再公开提供。 请使用
VCTK_092目录
p315被忽略,因为没有对应的文本文件。 有关数据集的更多信息,请访问:https://datashare.is.ed.ac.uk/handle/10283/3443
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
url (str, optional) – 未使用,因为该数据集已不再公开提供。
folder_in_archive (str, optional) – 数据集的顶层目录。(默认值:
"VCTK-Corpus")download (bool, optional) – 如果未在根路径找到数据集,是否下载该数据集。(默认值:
False)。 传入download=True将导致错误,因为该数据集已不再公开提供。downsample (bool, optional) – 未使用。
变换 (可调用对象,可选) – 可选的变换应用于波形。(默认值:
None)目标转换 (可调用对象, 可选) – 可选的转换应用于话语。(默认值:
None)
VCTK_092¶
-
class
torchaudio.datasets.VCTK_092(root: str, mic_id: str = 'mic2', download: bool = False, url: str = 'https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip', audio_ext='.flac')[source]¶ 创建 VCTK 0.92 数据集
- Parameters
root (str) – 找到数据集顶级目录的根目录。
mic_id (str) – 麦克风ID。可以是
"mic1"或"mic2"。(默认:"mic2")download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。url (str, optional) – 下载数据集的 URL。 (默认值:
"https://datashare.is.ed.ac.uk/bitstream/handle/10283/3443/VCTK-Corpus-0.92.zip")audio_ext (str, optional) – 如果数据集转换为非默认音频格式,则使用自定义音频扩展。
注意
由于缺少相应的文本文件,将跳过演讲者
p315的所有演讲。由于缺少音频文件,
p280的所有演讲将被跳过mic_id="mic2"。由于缺少音频文件,说话人
p362的部分演讲将被跳过。
YESNO¶
-
class
torchaudio.datasets.YESNO(root: str, url: str = 'http://www.openslr.org/resources/1/waves_yesno.tar.gz', folder_in_archive: str = 'waves_yesno', download: bool = False, transform: Any = None, target_transform: Any = None)[source]¶ 为 YesNo 创建数据集。
- Parameters
根目录 (字符串) – 数据集所在的目录路径或下载位置。
url (str, optional) – 下载数据集的 URL。 (默认值:
"http://www.openslr.org/resources/1/waves_yesno.tar.gz")folder_in_archive (str, optional) – 数据集的顶层目录。(默认值:
"waves_yesno")download (bool, optional) – 如果在根路径下未找到数据集,是否下载该数据集。(默认值:
False)。变换 (可调用对象,可选) – 可选的变换应用于波形。(默认值:
None)目标转换 (可调用对象, 可选) – 可选的转换应用于话语。(默认值:
None)