Spaces:

tsuching
/

Tibetan-tts

Running

App Files Files Community

tsuching commited on 19 days ago

Commit

ec932c5

verified ·

1 Parent(s): d8d9346

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -3

app.py CHANGED Viewed

@@ -175,20 +175,26 @@ def run_task(text, language, task):
                     token=HF_TOKEN,
                     trust_remote_code=True
                 )
                 inputs = indictrans_tokenizer(text, return_tensors="pt", src_lang="san", tgt_lang="en")
                 outputs = indictrans_model.generate(**inputs, max_new_tokens=256)
-                translated = indictrans_tokenizer.decode(outputs[0], skip_special_tokens=True)
                 return None, None, translated
             except Exception as e:
                 print("⚠️ IndicTrans2 failed, falling back to MBART:", e)
-                indictrans_tokenizer = AutoTokenizer.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
-                indictrans_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
                 # Fallback to MBART with correct language codes
                 try:
                     # MBART-50 requires src_lang and forced_bos_token_id
                     translation_tokenizer.src_lang = "sa_IN"   # Sanskrit input
                     forced_bos = translation_tokenizer.lang_code_to_id.get("en_XX", None)
                     inputs = translation_tokenizer(text, return_tensors="pt")
                     outputs = translation_model.generate(
                         **inputs,
@@ -196,6 +202,9 @@ def run_task(text, language, task):
                         forced_bos_token_id=forced_bos
                     )
                     translated = translation_tokenizer.decode(outputs[0], skip_special_tokens=True)
                     return None, None, translated
                 except Exception as e2:
                     return None, None, f"Translation error: {e2}"

                     token=HF_TOKEN,
                     trust_remote_code=True
                 )
                 inputs = indictrans_tokenizer(text, return_tensors="pt", src_lang="san", tgt_lang="en")
                 outputs = indictrans_model.generate(**inputs, max_new_tokens=256)
+                translated = indictrans_tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
+                # Detect nonsense outputs (repeated single word)
+                if translated and len(set(translated.split())) == 1:
+                    translated = f"⚠️ Translation returned nonsense (repeated '{translated.split()[0]}')."
                 return None, None, translated
             except Exception as e:
                 print("⚠️ IndicTrans2 failed, falling back to MBART:", e)
+                #indictrans_tokenizer = AutoTokenizer.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
+                #indictrans_model = AutoModelForSeq2SeqLM.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
                 # Fallback to MBART with correct language codes
                 try:
                     # MBART-50 requires src_lang and forced_bos_token_id
                     translation_tokenizer.src_lang = "sa_IN"   # Sanskrit input
                     forced_bos = translation_tokenizer.lang_code_to_id.get("en_XX", None)
                     inputs = translation_tokenizer(text, return_tensors="pt")
                     outputs = translation_model.generate(
                         **inputs,
                         forced_bos_token_id=forced_bos
                     )
                     translated = translation_tokenizer.decode(outputs[0], skip_special_tokens=True)
+                    if translated and len(set(translated.split())) == 1:
+                        translated = f"⚠️ Translation returned nonsense (repeated '{translated.split()[0]}')."
                     return None, None, translated
                 except Exception as e2:
                     return None, None, f"Translation error: {e2}"