You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

mindspore.dataset.text.Vocab.rst 5.2 kB

4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
3 years ago
3 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102
  1. mindspore.dataset.text.Vocab
  2. =============================
  3. .. py:class:: mindspore.dataset.text.Vocab
  4. 用于查找单词的Vocab对象。
  5. 它包含一个映射,将每个单词(str)映射到一个ID(int)。
  6. .. py:method:: from_dataset(dataset, columns=None, freq_range=None, top_k=None, special_tokens=None, special_first=True)
  7. 通过数据集构建Vocab对象。
  8. 获得数据集中的所有唯一单词,并在 `freq_range` 中用户指定的频率范围内返回一个vocab。如果没有单词在该频率上,用户将收到预警信息。
  9. vocab中的单词按最高频率到最低频率的顺序进行排列。具有相同频率的单词将按词典顺序进行排列。
  10. **参数:**
  11. - **dataset** (Dataset) - 表示要从中构建vocab的数据集。
  12. - **columns** (list[str],可选) - 表示要从中获取单词的列名。它可以是列名的列表,默认值:None。
  13. - **freq_range** (tuple,可选) - 表示整数元组(min_frequency,max_frequency)。频率范围内的单词将被保留。0 <= min_frequency <= max_frequency <= total_words。min_frequency=0等同于min_frequency=1。max_frequency > total_words等同于max_frequency = total_words。min_frequency和max_frequency可以为None,分别对应于0和total_words,默认值:None。
  14. - **top_k** (int,可选) - `top_k` 大于0。要在vocab中 `top_k` 建立的单词数量表示取用最频繁的单词。 `top_k` 在 `freq_range` 之后取用。如果没有足够的 `top_k` ,所有单词都将被取用,默认值:None。
  15. - **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
  16. - **special_first** (bool,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
  17. **返回:**
  18. Vocab,从数据集构建的Vocab对象。
  19. .. py:method:: from_dict(word_dict)
  20. 通过字典构建Vocab对象。
  21. **参数:**
  22. - **word_dict** (dict) - 字典包含word和ID对,其中 `word` 应是string类型, `ID` 应是int类型。至于 `ID` ,建议从0开始并且不断续。如果 `ID` 为负数,将引发ValueError。
  23. **返回:**
  24. Vocab,从字典构建的Vocab对象。
  25. .. py:method:: from_file(file_path, delimiter="", vocab_size=None, special_tokens=None, special_first=True)
  26. 通过文件构建Vocab对象。
  27. **参数:**
  28. - **file_path** (str) - 表示包含vocab文件路径的一个列表。
  29. - **delimiter** (str,可选) - 表示用来分隔文件中每一行的分隔符。第一个元素被视为单词,默认值:""。
  30. - **vocab_size** (int,可选) - 表示要从 `file_path` 读取的字数,默认值:None,表示读取所有的字。
  31. - **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
  32. - **special_first** (list,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
  33. **返回:**
  34. Vocab,从文件构建的Vocab对象。
  35. .. py:method:: from_list(word_list, special_tokens=None, special_first=True)
  36. 从单词列表构建一个vocab对象。
  37. **参数:**
  38. - **word_list** (list) - 输入单词列表,每个单词需要为字符串类型。
  39. - **special_tokens** (list,可选) - 特殊分词列表,如常用的"<pad>"、"<unk>"等。默认值:None,表示不添加特殊分词(token)。
  40. - **special_first** (bool,可选) - 表示是否将 `special_tokens` 中的特殊分词添加到词典的最前面。如果为True则将 `special_tokens` 添加到词典的最前,否则添加到词典的最后。默认值:True。
  41. **返回:**
  42. Vocab,从单词列表构建的Vocab对象。
  43. .. py:method:: ids_to_tokens(ids)
  44. 将输入索引转换为对应的分词,支持传入单个索引或一个包含多个索引的序列。如果索引不存在,则返回空字符串。
  45. **参数:**
  46. - **ids** (Union[int, list[int]]) - 要转换为分词的分词索引(或分词的索引序列)。
  47. **返回:**
  48. 解码的分词(token)。
  49. .. py:method:: tokens_to_ids(tokens)
  50. 将输入分词(token)转换为对应的索引(id),支持传入单个分词或一个包含多个分词的列表。如果分词不存在,则返回-1。
  51. **参数:**
  52. - **tokens** (Union[str, list[str]]) - 一个或多个要转换为分词(token)id(s)的分词(token)。
  53. **返回:**
  54. 分词(token)id或分词(token)id列表。
  55. .. py:method:: vocab()
  56. 获取dict类型的词汇表。
  57. **返回:**
  58. 由word和id对组成的词汇表。