clean-up Trainium 1 cached configurations

Browse files

Files changed (8) hide show

inference-cache-config/trn1/granite.json +66 -0
inference-cache-config/trn1/llama3.json +132 -0
inference-cache-config/trn1/llama4.json +44 -0
inference-cache-config/trn1/mixtral.json +30 -0
inference-cache-config/trn1/phi4.json +30 -0
inference-cache-config/trn1/qwen3-moe.json +28 -0
inference-cache-config/trn1/qwen3.json +104 -0
inference-cache-config/trn1/smollm3.json +22 -0

inference-cache-config/trn1/granite.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+   "ibm-granite/granite-3.1-2b-instruct": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 32,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ],
+  "ibm-granite/granite-3.1-8b-instruct": [
+   {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 32,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ]
+}

inference-cache-config/trn1/llama3.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+   "meta-llama/Meta-Llama-3.1-8B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 16,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 32,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ],
+  "meta-llama/Llama-2-7b-hf": [
+    {
+      "batch_size": 1,
+      "sequence_length": 2048,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+  "meta-llama/Llama-2-13b-hf": [
+    {
+      "batch_size": 1,
+      "sequence_length": 2048,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ],
+   "meta-llama/Meta-Llama-3-8B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+   "meta-llama/Llama-3.2-1B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+   "meta-llama/Llama-3.2-3B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+     "TinyLlama/TinyLlama-1.1B-Chat-v1.0": [
+    {
+      "batch_size": 1,
+      "sequence_length": 2048,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+  "meta-llama/Llama-3.3-70B-Instruct": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 24,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 24,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 32,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 32,
+      "instance_type" : "trn1"
+    }
+  ]
+}

inference-cache-config/trn1/llama4.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "meta-llama/Llama-4-Scout-17B-16E-Instruct": [
+    {
+      "task": "text-generation",
+      "instance_type": "trn1",
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 16,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "task": "text-generation",
+      "instance_type": "trn1",
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 16,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "task": "text-generation",
+      "instance_type": "trn1",
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 32,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "task": "text-generation",
+      "instance_type": "trn1",
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 32,
+      "auto_cast_type": "bf16"
+    },
+    {
+      "task": "text-generation",
+      "instance_type": "trn1",
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 32,
+      "auto_cast_type": "bf16"
+    }
+  ]
+}

inference-cache-config/trn1/mixtral.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "mistralai/Mixtral-8x7B-Instruct-v0.1": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 24,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 24,
+      "instance_type" : "trn1"
+    }
+  ],
+  "mistralai/Mixtral-8x22B-Instruct-v0.1": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 24,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 24,
+      "instance_type" : "trn1"
+    }
+  ]
+}

inference-cache-config/trn1/phi4.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+   "microsoft/Phi-3-mini-4k-instruct": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+  "microsoft/phi-4": [
+   {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 10,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 16,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 10,
+      "instance_type" : "trn1"
+    }
+  ]
+}

inference-cache-config/trn1/qwen3-moe.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+   "Qwen/Qwen3-30B-A3B-Instruct-2507": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 16,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 32,
+      "instance_type" : "trn1"
+    }
+   ]
+}

inference-cache-config/trn1/qwen3.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+   "Qwen/Qwen3-8B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 8,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 32,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ],
+  "Qwen/Qwen3-0.6B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+  "Qwen/Qwen3-1.7B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+  "Qwen/Qwen3-4B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ],
+  "Qwen/Qwen3-14B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 16,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ],
+  "Qwen/Qwen3-32B": [
+    {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 16,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 8,
+      "instance_type" : "trn1"
+    }
+  ]
+}

inference-cache-config/trn1/smollm3.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+ "HuggingFaceTB/SmolLM3-3B": [
+   {
+      "batch_size": 1,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+   {
+      "batch_size": 4,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    },
+    {
+      "batch_size": 16,
+      "sequence_length": 4096,
+      "tensor_parallel_size": 2,
+      "instance_type" : "trn1"
+    }
+  ]
+}