You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

mindspore.dataset.text.SentencePieceVocab.rst 3.6 kB

4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566
  1. mindspore.dataset.text.SentencePieceVocab
  2. ==========================================
  3. .. py:class:: mindspore.dataset.text.SentencePieceVocab
  4. 用于执行分词的SentencePiece对象。
  5. .. py:method:: from_dataset(dataset, col_names, vocab_size, character_coverage, model_type, params)
  6. 从数据集构建SentencePiece。
  7. **参数:**
  8. - **dataset** (Dataset) - 表示用于构建SentencePiece对象的数据集。
  9. - **col_names** (list) - 表示列名称的列表。
  10. - **vocab_size** (int) - 表示词汇大小。
  11. - **character_coverage** (float) - 表示模型涵盖的字符数。推荐的默认值为:0.9995,适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
  12. - **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值:SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。
  13. - SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
  14. - SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。
  15. - SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。
  16. - SentencePieceModel.WORD:引用基于单词的SentencePiece型类型。
  17. - **params** (dict):表示没有传入参数的字典。
  18. **返回:**
  19. SentencePieceVocab,从数据集构建的vocab。
  20. .. py:method:: from_file(file_path, vocab_size, character_coverage, model_type, params)
  21. 从文件中构建一个SentencePiece对象。
  22. **参数:**
  23. - **file_path** (list) - 表示包含SentencePiece列表的文件的路径。
  24. - **vocab_size** (int) - 表示词汇大小。
  25. - **character_coverage** (float) - 表示模型涵盖的字符数。推荐的默认值为:0.9995适用于具有丰富字符集的语言,如日文或中文,1.0适用于具有小字符集的其他语言。
  26. - **model_type** (SentencePieceModel) - 其值可以是SentencePieceModel.UNIGRAM、SentencePieceModel.BPE、SentencePieceModel.CHAR或SentencePieceModel.WORD,默认值为SentencePieceModel.UNIgram。使用SentencePieceModel.WORD类型时,必须预先标记输入句子。
  27. - SentencePieceModel.UNIGRAM:Unigram语言模型意味着句子中的下一个单词被假定为独立于模型生成的前一个单词。
  28. - SentencePieceModel.BPE:指字节对编码算法,它取代了最频繁的对句子中的字节数,其中包含一个未使用的字节。
  29. - SentencePieceModel.CHAR:引用基于字符的SentencePiece模型类型。
  30. - SentencePieceModel.WORD:引用基于单词的SentencePiece型类型。
  31. - **params** (dict):表示没有传入参数的字典(参数派生自SentencePiece库)。
  32. .. code-block::
  33. input_sentence_size 0
  34. max_sentencepiece_length 16
  35. **返回:**
  36. SentencePieceVocab,表示从文件中构建的vocab。
  37. .. py:method:: save_model(vocab, path, filename)
  38. 将模型保存到给定的文件路径。
  39. **参数:**
  40. - **vocab** (SentencePieceVocab) - 表示一个SentencePiece对象。
  41. - **path** (str) - 表示存储模型的路径。
  42. - **filename** (str) - 表示文件名称。