You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

mindspore.dataset.TextFileDataset.rst 2.8 kB

4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
12345678910111213141516171819202122232425262728293031323334353637383940
  1. mindspore.dataset.TextFileDataset
  2. ==================================
  3. .. py:class:: mindspore.dataset.TextFileDataset(dataset_files, num_samples=None, num_parallel_workers=None, shuffle=Shuffle.GLOBAL, num_shards=None, shard_id=None, cache=None)
  4. 读取和解析文本文件构建数据集。生成的数据集有一个数据列: `[text]` ,类型为string。
  5. **参数:**
  6. - **dataset_files** (Union[str, list[str]]) - 数据集文件路径,支持单文件路径字符串、多文件路径字符串列表或可被glob库模式匹配的字符串,文件列表将在内部进行字典排序。
  7. - **num_samples** (int,可选) - 指定从数据集中读取的样本数。默认值:None,读取所有样本。
  8. - **num_parallel_workers** (int, 可选) - 指定读取数据的工作线程数。默认值:None,使用mindspore.dataset.config中配置的线程数。
  9. - **shuffle** (Union[bool, Shuffle], 可选) - 每个epoch中数据混洗的模式,支持传入bool类型与枚举类型进行指定,默认值:mindspore.dataset.Shuffle.GLOBAL。
  10. 如果 `shuffle` 为False,则不混洗,如果 `shuffle` 为True,等同于将 `shuffle` 设置为mindspore.dataset.Shuffle.GLOBAL。
  11. 通过传入枚举变量设置数据混洗的模式:
  12. - **Shuffle.GLOBAL**:混洗文件和样本。
  13. - **Shuffle.FILES**:仅混洗文件。
  14. - **num_shards** (int, 可选) - 指定分布式训练时将数据集进行划分的分片数,默认值:None。指定此参数后, `num_samples` 表示每个分片的最大样本数。
  15. - **shard_id** (int, 可选) - 指定分布式训练时使用的分片ID号,默认值:None。只有当指定了 `num_shards` 时才能指定此参数。
  16. - **cache** (DatasetCache, 可选) - 单节点数据缓存服务,用于加快数据集处理,详情请阅读 `单节点数据缓存 <https://www.mindspore.cn/docs/programming_guide/zh-CN/master/cache.html>`_ 。默认值:None,不使用缓存。
  17. **异常:**
  18. - **ValueError** - `dataset_files` 参数所指向的文件无效或不存在。
  19. - **ValueError** - `num_parallel_workers` 参数超过系统最大线程数。
  20. - **RuntimeError** - 指定了 `num_shards` 参数,但是未指定 `shard_id` 参数。
  21. - **RuntimeError** - 指定了 `shard_id` 参数,但是未指定 `num_shards` 参数。
  22. - **ValueError** - `shard_id` 参数值错误(小于0或者大于等于 `num_shards` )。
  23. .. include:: mindspore.dataset.Dataset.rst
  24. .. include:: mindspore.dataset.Dataset.b.rst
  25. .. include:: mindspore.dataset.Dataset.c.rst
  26. .. include:: mindspore.dataset.Dataset.d.rst
  27. .. include:: mindspore.dataset.Dataset.zip.rst