Upload VibeVoiceForConditionalGeneration

Files changed (3) hide show

config.json CHANGED Viewed

@@ -1,7 +1,9 @@
 {
-  "_attn_implementation_autoset": false,
   "acostic_vae_dim": 64,
   "acoustic_tokenizer_config": {
     "bias": true,
     "channels": 1,
     "depths": [
@@ -21,6 +23,7 @@
       5,
       8
     ],
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 64,
@@ -56,6 +59,9 @@
   "model_type": "vibevoice",
   "pad_token_id": 151643,
   "semantic_tokenizer_config": {
     "bias": true,
     "channels": 1,
     "depths": [
@@ -75,6 +81,7 @@
       5,
       8
     ],
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 128,

 {
   "acostic_vae_dim": 64,
   "acoustic_tokenizer_config": {
+    "architectures": [
+      "VibeVoiceAcousticTokenizerModel"
+    ],
     "bias": true,
     "channels": 1,
     "depths": [
       5,
       8
     ],
+    "dtype": "bfloat16",
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 64,
   "model_type": "vibevoice",
   "pad_token_id": 151643,
   "semantic_tokenizer_config": {
+    "architectures": [
+      "VibeVoiceSemanticTokenizerModel"
+    ],
     "bias": true,
     "channels": 1,
     "depths": [
       5,
       8
     ],
+    "dtype": "bfloat16",
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 128,

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42bfa2acc7208cff6373d24c19428577ac9aa9ec1032de42beec917d604c20aa
-size 4877662532

 version https://git-lfs.github.com/spec/v1
+oid sha256:be3ff3f8377beca46483320c334beb384cd95a8149f65c2903be78d40bc22b75
+size 4877662484

model.safetensors.index.json CHANGED Viewed

@@ -4,6 +4,8 @@
     "total_size": 18686710726
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",
     "model.acoustic_connector.fc1.bias": "model-00004-of-00004.safetensors",
     "model.acoustic_connector.fc1.weight": "model-00004-of-00004.safetensors",
@@ -1206,8 +1208,6 @@
     "model.semantic_tokenizer.encoder.stages.6.7.gamma": "model-00004-of-00004.safetensors",
     "model.semantic_tokenizer.encoder.stages.6.7.mixer.conv.bias": "model-00004-of-00004.safetensors",
     "model.semantic_tokenizer.encoder.stages.6.7.mixer.conv.weight": "model-00004-of-00004.safetensors",
-    "model.semantic_tokenizer.encoder.stages.6.7.norm.weight": "model-00004-of-00004.safetensors",
-    "model.speech_bias_factor": "model-00001-of-00004.safetensors",
-    "model.speech_scaling_factor": "model-00001-of-00004.safetensors"
   }
 }

     "total_size": 18686710726
   },
   "weight_map": {
+    "latent_bias_factor": "model-00001-of-00004.safetensors",
+    "latent_scaling_factor": "model-00001-of-00004.safetensors",
     "lm_head.weight": "model-00004-of-00004.safetensors",
     "model.acoustic_connector.fc1.bias": "model-00004-of-00004.safetensors",
     "model.acoustic_connector.fc1.weight": "model-00004-of-00004.safetensors",
     "model.semantic_tokenizer.encoder.stages.6.7.gamma": "model-00004-of-00004.safetensors",
     "model.semantic_tokenizer.encoder.stages.6.7.mixer.conv.bias": "model-00004-of-00004.safetensors",
     "model.semantic_tokenizer.encoder.stages.6.7.mixer.conv.weight": "model-00004-of-00004.safetensors",
+    "model.semantic_tokenizer.encoder.stages.6.7.norm.weight": "model-00004-of-00004.safetensors"
   }
 }