Spaces:

tsuching
/

Tibetan-tts

Running

App Files Files Community

tsuching commited on 24 days ago

Commit

642df0a

verified ·

1 Parent(s): eea55f1

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -9

app.py CHANGED Viewed

@@ -4,6 +4,45 @@ import numpy as np
 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
 from transformers import MBart50TokenizerFast, MBartForConditionalGeneration
 #from transformers import AutoTokenizer, AutoModel
 # --- Load TTS pipelines ---
@@ -26,6 +65,7 @@ translation_model = MBartForConditionalGeneration.from_pretrained("facebook/mbar
 #translation_tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indictrans2-en-indic-1B")
 #AutoModelForSeq2SeqLM.from_pretrained("ai4bharat/indictrans2-en-indic-1B", use_auth_token=os.environ["HF_TOKEN"])
 def run_task(text, language, task):
     if task == "TTS" and language == "Tibetan":
         speech = tts_tibetan(text)  # pipeline output
@@ -35,18 +75,41 @@ def run_task(text, language, task):
         sr = speech["sampling_rate"]
         # Convert float32 [-1,1] → int16 PCM
-        audio_int16 = np.clip(audio * 32767, -32768, 32767).astype(np.int16)
-        return (sr, audio_int16), ""   # <-- tuple (sampling_rate, numpy array)
     elif task == "Translate":
         # MBART requires a language code token, e.g. "en_XX" for English
-        inputs = translation_tokenizer(text, return_tensors="pt")
-        outputs = translation_model.generate(**inputs)
-        return None, translation_tokenizer.decode(outputs[0], skip_special_tokens=True)
     elif task == "Tokenize":
-        return None, translation_tokenizer.tokenize(text)
     else:
-        return None, "Unsupported task or language"
 #def run_task(text, language, task):
 #    if task == "TTS":
@@ -95,7 +158,8 @@ iface = gr.Interface(
         gr.Radio(choices=["TTS", "Translate", "Tokenize"], label="Task")
     ],
     outputs=[
-        gr.Audio(label="Audio Output", type="numpy"),  # for TTS
         #gr.File(label="Generated Speech"),
         gr.Textbox(label="Text Output")                # for text tasks
     ],
@@ -103,6 +167,7 @@ iface = gr.Interface(
     description="Tibetan TTS available. Sanskrit supported for text processing only."
 )
 # Use gr.File for output
 #iface = gr.Interface(
 #    fn=tts_tibetan,

 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
 from transformers import MBart50TokenizerFast, MBartForConditionalGeneration
 #from transformers import AutoTokenizer, AutoModel
+import datetime
+import tempfile
+import soundfile as sf
+# --- Translation Quotas ---
+GOOGLE_QUOTA = 500_000      # free tier characters/month
+MS_QUOTA = 2_000_000        # free tier characters/month
+usage = {"google": 0, "microsoft": 0}
+last_reset = datetime.date.today().replace(day=1)
+def translate_with_quota(text, src_lang="bo", tgt_lang="en"):
+    global usage, last_reset
+    # Reset counters on the 1st of each month
+    today = datetime.date.today()
+    if today.month != last_reset.month or today.year != last_reset.year:
+        usage = {"google": 0, "microsoft": 0}
+        last_reset = today.replace(day=1)
+    char_count = len(text)
+    # Try Google first
+    if usage["google"] + char_count <= GOOGLE_QUOTA:
+        usage["google"] += char_count
+        return call_google_translate(text, src_lang, tgt_lang)
+    # Fallback to Microsoft
+    elif usage["microsoft"] + char_count <= MS_QUOTA:
+        usage["microsoft"] += char_count
+        return call_microsoft_translate(text, src_lang, tgt_lang)
+    # If both exceeded
+    else:
+        return "Translation quota exceeded for this month. Please try again next month."
 # --- Load TTS pipelines ---
 #translation_tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indictrans2-en-indic-1B")
 #AutoModelForSeq2SeqLM.from_pretrained("ai4bharat/indictrans2-en-indic-1B", use_auth_token=os.environ["HF_TOKEN"])
 def run_task(text, language, task):
     if task == "TTS" and language == "Tibetan":
         speech = tts_tibetan(text)  # pipeline output
         sr = speech["sampling_rate"]
         # Convert float32 [-1,1] → int16 PCM
+        #audio_int16 = np.clip(audio * 32767, -32768, 32767).astype(np.int16)
+        #return (sr, audio_int16), ""   # <-- tuple (sampling_rate, numpy array)
+        # Save to temp WAV file
+        tmpfile = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+        sf.write(tmpfile.name, audio, sr)
+        # Return both: numpy waveform + file path
+        return (sr, audio.astype(np.float32)), tmpfile.name
     elif task == "Translate":
+        if language == "Sanskrit":
+            inputs = indictrans_tokenizer(text, return_tensors="pt")
+            outputs = indictrans_model.generate(**inputs)
+            return None, indictrans_tokenizer.decode(outputs[0], skip_special_tokens=True)
+        elif language == "Tibetan":
+            translated_text = translate_with_quota(text, src_lang="bo", tgt_lang="en")
+            return None, translated_text
+        else:
+            return None, "Unsupported language"
         # MBART requires a language code token, e.g. "en_XX" for English
+        #inputs = translation_tokenizer(text, return_tensors="pt")
+        #outputs = translation_model.generate(**inputs)
+        #return None, translation_tokenizer.decode(outputs[0], skip_special_tokens=True)
     elif task == "Tokenize":
+        if language == "Tibetan":
+            return None, xlm_tokenizer.tokenize(text)
+        elif language == "Sanskrit":
+            return None, indictrans_tokenizer.tokenize(text)
+        else:
+            return None, "Unsupported language"
     else:
+        return None, "Unsupported task"
 #def run_task(text, language, task):
 #    if task == "TTS":
         gr.Radio(choices=["TTS", "Translate", "Tokenize"], label="Task")
     ],
     outputs=[
+        gr.Audio(label="Play in Browser", type="numpy"),  # for Hugging Face demo
+        gr.Audio(label="Download/URL for Flutter", type="file")  # for Flutter app
         #gr.File(label="Generated Speech"),
         gr.Textbox(label="Text Output")                # for text tasks
     ],
     description="Tibetan TTS available. Sanskrit supported for text processing only."
 )
 # Use gr.File for output
 #iface = gr.Interface(
 #    fn=tts_tibetan,