Tabahi
/

CUPE-2i

@@ -1,26 +1,6 @@
-# CUPE: Contextless Universal Phoneme Encoder
-A PyTorch model for contextless phoneme prediction from speech audio. CUPE processes 120ms frames independently, ensuring each frame's embeddings are acoustically pure—unlike transformer models that mix context across frames.
-## Trained Models
-Two 30.1M parameter models are available in the [checkpoints directory](https://huggingface.co/Tabahi/CUPE-2i/tree/main/ckpt).
-## Datasets
-- **LibriSpeech ASR corpus (SR12):** 960 hours of English speech from train-100, train-360, and train-500 splits.
-- **Multilingual LibriSpeech (MLS) (SLR94):** 800 hours total, with 100 hours each for 8 languages: `pl`, `pt`, `it`, `es`, `fr`, `nl`, `de`, `en`. Dataset's train/test/val splits.
-- **MSWC Multilingual Spoken Words Corpus:** 240 hours from 50 languages (max 10 hours/language).
-    - **Training:** 38 languages (`en`, `de`, `fr`, `ca`, `es`, `fa`, `it`, `ru`, `pl`, `eu`, `cy`, `eo`, `nl`, `pt`, `tt`, `cs`, `tr`, `et`, `ky`, `id`, `sv-SE`, `ar`, `el`, `ro`, `lv`, `sl`, `zh-CN`, `ga-IE`, `ta`, `vi`, `gn`, `or`)
-    - **Testing:** 6 languages (`lt`, `mt`, `ia`, `sk`, `ka`, `as`)
 ---
-language:
-  - en
-  - multilingual
-license: GPL-3.0
 library_name: pytorch
 pipeline_tag: audio-classification
 tags:
@@ -40,10 +20,28 @@ model-index:
           - name: Phoneme Error Rate
             type: phoneme-error-rate
             value: 0.25
-          - name: Phoneme Group Error Rate
             type: phoneme-group-error-rate
             value: 0.23
 ---
 ## Metrics

 ---
+language: en
+license: gpl-3.0
 library_name: pytorch
 pipeline_tag: audio-classification
 tags:
           - name: Phoneme Error Rate
             type: phoneme-error-rate
             value: 0.25
+          - name: Phoneme Group Error Rate
             type: phoneme-group-error-rate
             value: 0.23
 ---
+# CUPE: Contextless Universal Phoneme Encoder
+A PyTorch model for contextless phoneme prediction from speech audio. CUPE processes 120ms frames independently, ensuring each frame's embeddings are acoustically pure—unlike transformer models that mix context across frames.
+## Trained Models
+Two 30.1M parameter models are available in the [checkpoints directory](https://huggingface.co/Tabahi/CUPE-2i/tree/main/ckpt).
+## Datasets
+- **LibriSpeech ASR corpus (SR12):** 960 hours of English speech from train-100, train-360, and train-500 splits.
+- **Multilingual LibriSpeech (MLS) (SLR94):** 800 hours total, with 100 hours each for 8 languages: `pl`, `pt`, `it`, `es`, `fr`, `nl`, `de`, `en`. Dataset's train/test/val splits.
+- **MSWC Multilingual Spoken Words Corpus:** 240 hours from 50 languages (max 10 hours/language).
+    - **Training:** 38 languages (`en`, `de`, `fr`, `ca`, `es`, `fa`, `it`, `ru`, `pl`, `eu`, `cy`, `eo`, `nl`, `pt`, `tt`, `cs`, `tr`, `et`, `ky`, `id`, `sv-SE`, `ar`, `el`, `ro`, `lv`, `sl`, `zh-CN`, `ga-IE`, `ta`, `vi`, `gn`, `or`)
+    - **Testing:** 6 languages (`lt`, `mt`, `ia`, `sk`, `ka`, `as`)
 ## Metrics