Spaces:

pritamdeka
/

pubmed-abstract-retriever

Running

pritamdeka commited on about 16 hours ago

Commit

6917fc0

verified ·

1 Parent(s): cde7707

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -235,15 +235,41 @@ def keyphrase_generator(
             article_heading = corpus[0] if corpus else ""
     except Exception:
         article_heading = corpus[0] if corpus else ""
     model_4 = SentenceTransformer(model_4)
-    my_dict = dict(zip(titles_list, abstracts_list))
     title_embeddings = model_4.encode(titles_list)
     heading_embedding = model_4.encode([article_heading])
-    similarities = cosine_similarity(heading_embedding, title_embeddings)
-    max_n = max_retrieved
-    sorted_titles = [titles_list[index] for index in similarities.argsort()[0][-max_n:]]
-    sorted_abstract_list = [my_dict[list_elem] for list_elem in sorted_titles]
-    sorted_dict = {'Title': sorted_titles, 'Abstract': sorted_abstract_list}
     # ---------- Evidence Extraction Integration ----------
     if extract_evidence:

             article_heading = corpus[0] if corpus else ""
     except Exception:
         article_heading = corpus[0] if corpus else ""
+    # ---------- Most relevant abstracts by heading (FIXED) ----------
     model_4 = SentenceTransformer(model_4)
+    # Clean PubMed outputs (avoid None / malformed entries)
+    filtered = [
+        (t.text.strip(), a.text.strip())
+        for t, a in zip(article_title, article_abstract)
+        if t is not None and t.text and a is not None and a.text
+    ]
+    if not filtered:
+        return {"error": "No valid PubMed titles/abstracts found."}
+    titles_list, abstracts_list = zip(*filtered)
+    titles_list = list(titles_list)
+    abstracts_list = list(abstracts_list)
+    # Encode titles
     title_embeddings = model_4.encode(titles_list)
     heading_embedding = model_4.encode([article_heading])
+    # Compute similarity
+    similarities = cosine_similarity(heading_embedding, title_embeddings)[0]
+    # Select top-N by similarity
+    top_indices = similarities.argsort()[-max_retrieved:]
+    sorted_titles = [titles_list[i] for i in top_indices]
+    sorted_abstract_list = [abstracts_list[i] for i in top_indices]
+    sorted_dict = {
+        "Title": sorted_titles,
+        "Abstract": sorted_abstract_list
+    }
     # ---------- Evidence Extraction Integration ----------
     if extract_evidence: