Spaces:

Leesn465
/

fastapi-stock-api

Running

App Files Files Community

Leesn465 commited on Oct 12

Commit

748bd71

1 Parent(s): ac3f5d2

FastAPI for Hugging Face Space: initial setup and files

Browse files

Files changed (14) hide show

Dockerfile +20 -0
Profile +1 -0
embedding_module.py +23 -0
keyword_module.py +116 -0
main.py +341 -0
news_model.pt +3 -0
requirements.txt +17 -0
stock_data.csv +0 -0
stopwords-ko.txt +679 -0
util/__pycache__/keywordExtract.cpython-310.pyc +0 -0
util/__pycache__/keywordExtract.cpython-311.pyc +0 -0
util/keywordExtract.py +160 -0
util/상장법인목록.xls +0 -0
상장법인목록.xls +0 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,20 @@

+FROM python:3.12-slim
+# openjdk-21로 변경
+RUN apt-get update && \
+    apt-get install -y --no-install-recommends openjdk-21-jre-headless wget && \
+    apt-get clean && rm -rf /var/lib/apt/lists/*
+# JAVA_HOME 경로도 21 버전에 맞게 변경
+ENV JAVA_HOME=/usr/lib/jvm/java-21-openjdk-amd64
+ENV PATH=$JAVA_HOME/bin:$PATH
+WORKDIR /app
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000"]

Profile ADDED Viewed

	@@ -0,0 +1 @@


1	+ web: uvicorn main:app --host 0.0.0.0 --port 7860

embedding_module.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import numpy as np
+import os
+from gensim.models import KeyedVectors
+MODEL_PATH_VEC = "ko.vec"
+# 모델 로딩
+if os.path.exists(MODEL_PATH_VEC):
+    print("🔁 Word2Vec 텍스트 모델 로드 중...")
+    model = KeyedVectors.load_word2vec_format(MODEL_PATH_VEC, binary=False)
+    print("✅ Word2Vec 모델 로드 완료")
+else:
+    raise FileNotFoundError("❌ 'ko.vec' 파일을 찾을 수 없습니다.")
+def embed_keywords(keywords: list[str]) -> np.ndarray:
+    """
+    키워드 리스트를 벡터로 변환하고 평균 벡터 반환
+    """
+    vectors = [model[word] for word in keywords if word in model]
+    if not vectors:
+        return np.zeros(model.vector_size)
+    return np.mean(vectors, axis=0)

keyword_module.py ADDED Viewed

	@@ -0,0 +1,116 @@

+# multi/keyword_module.py
+import torch
+import requests
+from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration, AutoTokenizer, AutoModel
+from konlpy.tag import Komoran
+from keybert import KeyBERT
+from bs4 import BeautifulSoup as bs
+# --- 요약용 KoBART ---
+summary_tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-summarization")
+summary_model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-summarization")
+def summarize_kobart(text, max_input_length=512):
+    # 입력을 자르기
+    input_ids = summary_tokenizer.encode(text, return_tensors="pt", truncation=True, max_length=max_input_length)
+    summary_ids = summary_model.generate(
+        input_ids,
+        max_length=160,
+        min_length=100,
+        num_beams=4,
+        repetition_penalty=2.5,
+        no_repeat_ngram_size=3,
+        early_stopping=True,
+    )
+    return summary_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+# --- KoBERT 임베딩 클래스 ---
+class KoBERTEmbedding:
+    def __init__(self, model, tokenizer):
+        self.model = model
+        self.tokenizer = tokenizer
+    def encode(self, documents):
+        if isinstance(documents, str):
+            documents = [documents]
+        encoded_input = self.tokenizer(
+            documents,
+            padding=True,
+            truncation=True,
+            max_length=512,
+            return_tensors="pt"
+        )
+        if "token_type_ids" not in encoded_input:
+            encoded_input["token_type_ids"] = torch.zeros_like(encoded_input["input_ids"])
+        with torch.no_grad():
+            output = self.model(**encoded_input)
+        return output.last_hidden_state[:, 0, :].numpy()
+# --- 키워드 추출 ---
+keyword_tokenizer = AutoTokenizer.from_pretrained("skt/kobert-base-v1", use_fast=False)
+keyword_model = AutoModel.from_pretrained("skt/kobert-base-v1")
+kobert_embedder = KoBERTEmbedding(keyword_model, keyword_tokenizer)
+kw_model = KeyBERT(model=kobert_embedder)
+# --- 불용어 로드 + 형태소 분석기 ---
+komoran = Komoran()
+def fetch_korean_stopwords():
+    url = "https://raw.githubusercontent.com/stopwords-iso/stopwords-ko/master/stopwords-ko.txt"
+    response = requests.get(url)
+    return response.text.splitlines()
+stopwords = fetch_korean_stopwords()
+def remove_stopwords(text, stopwords):
+    nouns = komoran.nouns(text)
+    return " ".join([w for w in nouns if w not in stopwords and len(w) > 1])
+def extract_keywords(summary_text, top_n=5):
+    filtered = remove_stopwords(summary_text, stopwords)
+    keywords_1st = kw_model.extract_keywords(
+        filtered,
+        keyphrase_ngram_range=(1, 4),
+        stop_words=stopwords,
+        top_n=15
+    )
+    joined = " ".join([kw for kw, _ in keywords_1st])
+    keywords_2nd = kw_model.extract_keywords(joined, top_n=top_n)
+    return keywords_1st, keywords_2nd
+# --- 뉴스 크롤링 ---
+def fetch_html(url):
+    headers = {"User-Agent": "Mozilla/5.0"}
+    response = requests.get(url, headers=headers, timeout=5)
+    response.raise_for_status()
+    return bs(response.text, "html.parser")
+def parse_naver(soup):
+    title = soup.select_one("h2.media_end_head_headline") or soup.title
+    time_tag = soup.select_one("span.media_end_head_info_datestamp_time")
+    content_area = soup.find("div", {"id": "newsct_article"}) or soup.find("div", {"id": "dic_area"})
+    title_text = title.get_text(strip=True) if title else "제목 없음"
+    time_text = time_tag.get_text(strip=True) if time_tag else "시간 없음"
+    if content_area:
+        paragraphs = content_area.find_all("p")
+        content = '\n'.join([p.get_text(strip=True) for p in paragraphs]) if paragraphs else content_area.get_text(strip=True)
+    else:
+        content = "본문 없음"
+    return title_text, time_text, content
+def parse_daum(soup):
+    title = soup.select_one("h3.tit_view") or soup.title
+    time_tag = soup.select_one("span.num_date")
+    content_area = soup.find("div", {"class": "article_view"})
+    title_text = title.get_text(strip=True) if title else "제목 없음"
+    time_text = time_tag.get_text(strip=True) if time_tag else "시간 없음"
+    if content_area:
+        paragraphs = content_area.find_all("p")
+        content = '\n'.join([p.get_text(strip=True) for p in paragraphs]) if paragraphs else content_area.get_text(strip=True)
+    else:
+        content = "본문 없음"
+    return title_text, time_text, content

main.py ADDED Viewed

	@@ -0,0 +1,341 @@

+from fastapi import FastAPI, HTTPException, Query
+import uvicorn
+from pydantic import BaseModel
+import requests
+from bs4 import BeautifulSoup as bs
+import mysql.connector
+import os
+import google.generativeai as genai
+import json
+from util.keywordExtract import *
+from typing import Optional,List, Dict, Any
+import pandas as pd
+import torch
+import pandas as pd
+from io import StringIO # pandas.read_html에 문자열을 전달할 때 필요
+import logging # 로깅을 위해 추가
+import time # 요청 간 지연을 위해 추가 (선택 사항이지만 권장)
+from embedding_module import embed_keywords
+from keyword_module import summarize_kobart as summarize, extract_keywords
+from pykrx import stock
+from functools import lru_cache
+from fastapi.middleware.cors import CORSMiddleware
+import traceback
+from datetime import datetime, timedelta
+from googletrans import Translator
+from starlette.concurrency import run_in_threadpool
+import FinanceDataReader as fdr
+app = FastAPI()
+# 로깅 설정
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+API_KEY = os.getenv("GEMINI_API_KEY")
+if not API_KEY:
+    # API 키가 없으면 에러를 발생시키거나 경고
+    print("❌ GEMINI_API_KEY 환경 변수가 설정되지 않았습니다.")
+else:
+    genai.configure(api_key=API_KEY)
+    logger.info("✅ Gemini API 설정 완료 (환경 변수 사용)")
+class NewsRequest(BaseModel):
+    url: str
+    id: Optional[str] = None
+# 🧠 학습 모델 구조 정의
+class SimpleClassifier(torch.nn.Module):
+    def __init__(self, input_dim):
+        super().__init__()
+        self.net = torch.nn.Sequential(
+            torch.nn.Linear(input_dim, 64),
+            torch.nn.ReLU(),
+            torch.nn.Linear(64, 1),
+            torch.nn.Sigmoid()
+        )
+    def forward(self, x):
+        return self.net(x)
+def fetch_html(url):
+    headers = {"User-Agent": "Mozilla/5.0"}
+    response = requests.get(url, headers=headers, timeout=5)
+    response.raise_for_status()
+    return bs(response.text, "html.parser")
+def parse_naver(soup):
+    title = soup.select_one("h2.media_end_head_headline") or soup.title
+    title_text = title.get_text(strip=True) if title else "제목 없음"
+    time_tag = soup.select_one("span.media_end_head_info_datestamp_time")
+    time_text = time_tag.get_text(strip=True) if time_tag else "시간 없음"
+    content_area = soup.find("div", {"id": "newsct_article"}) or soup.find("div", {"id": "dic_area"})
+    if content_area:
+        paragraphs = content_area.find_all("p")
+        content = '\n'.join([p.get_text(strip=True) for p in paragraphs]) if paragraphs else content_area.get_text(strip=True)
+    else:
+        content = "본문 없음"
+    return title_text, time_text, content
+def parse_daum(soup):
+    title = soup.select_one("h3.tit_view") or soup.title
+    title_text = title.get_text(strip=True) if title else "제목 없음"
+    time_tag = soup.select_one("span.num_date")
+    time_text = time_tag.get_text(strip=True) if time_tag else "시간 없음"
+    content_area = soup.find("div", {"class": "article_view"})
+    if content_area:
+        paragraphs = content_area.find_all("p")
+        content = '\n'.join([p.get_text(strip=True) for p in paragraphs]) if paragraphs else content_area.get_text(strip=True)
+    else:
+        content = "본문 없음"
+    return title_text, time_text, content
+def extract_thumbnail(soup):
+    tag = soup.find("meta", property="og:image")
+    return tag["content"] if tag and "content" in tag.attrs else None
+def gemini_use(resultK):
+    generation_config = genai.GenerationConfig(
+        temperature=1,
+        response_mime_type=None  # 그냥 문자열로 응답받기
+    )
+    model = genai.GenerativeModel('gemini-2.0-flash', generation_config=generation_config)
+    prompt = f"""
+    아래 내용을 참고해서 가장 연관성이 높은 주식 상장 회사 이름 하나만 말해줘.
+    다른 설명 없이 회사 이름만 대답해.
+    "{resultK}"
+    """
+    response = model.generate_content(prompt)
+    try:
+        result_text = response.text.strip()
+    except AttributeError:
+        result_text = response.candidates[0].content.parts[0].text.strip()
+    return result_text
+@app.post("/ai/parse-news")
+def parse_news(req: NewsRequest):
+    url = req.url.strip()
+    username = req.id.strip() if req.id else None
+    try:
+        soup = fetch_html(url)
+        if "naver.com" in url:
+            title, time, content = parse_naver(soup)
+        elif "daum.net" in url:
+            title, time, content = parse_daum(soup)
+        else:
+            raise HTTPException(status_code=400, detail="지원하지 않는 뉴스 사이트입니다.")
+        thumbnail_url = extract_thumbnail(soup)
+        resultK = resultKeyword(content)
+        sumce = classify_emotion(content)
+        targetCompany = gemini_use(resultK)
+        sentiment = analyze_sentiment(content)
+        pos_percent = int(sentiment["positive"] * 100)
+        neg_percent = int(sentiment["negative"] * 100)
+        sentiment_result = {
+            "positive": pos_percent,
+            "negative": neg_percent
+        }
+        summary = summarize(content)
+        print(summary)
+        _, keywords_2nd = extract_keywords(summary)
+        clean_keywords = [kw for kw, _ in keywords_2nd]
+        keyword_vec = embed_keywords(clean_keywords)
+        input_vec = torch.tensor(keyword_vec, dtype=torch.float32).unsqueeze(0)  # (1, D)
+        input_dim = input_vec.shape[1]
+        model = SimpleClassifier(input_dim)
+        model.load_state_dict(torch.load("news_model.pt", map_location="cpu"))
+        model.eval()
+        with torch.no_grad():
+            prob = model(input_vec).item()
+            prediction = int(prob >= 0.5)
+        prediction = '📈 상승 (1)' if prediction == 1 else '📉 하락 (0)'
+        print(type(prob))
+        print(type(prediction))
+        return {
+            "message": "뉴스 파싱 및 저장 완료",
+            "title": title,
+            "time": time,
+            "content": content,
+            "thumbnail_url": thumbnail_url,
+            "url": url,
+            "summary": resultK["summary"],
+            "keyword": resultK["keyword"],
+            "company": targetCompany,
+            "sentiment": sumce,
+            "sentiment_value": sentiment_result,
+            "prediction": prediction,
+            "prob": prob,
+        }
+    except requests.exceptions.RequestException as e:
+        traceback.print_exc()  # 전체 스택트레이스 콘솔에 출력
+        raise HTTPException(status_code=500, detail=f"서버 오류: {e}")
+    except Exception as e:
+        traceback.print_exc()  # 전체 스택트레이스 콘솔에 출력
+        raise HTTPException(status_code=500, detail=f"서버 오류: {e}")
+from fastapi.concurrency import run_in_threadpool # 동기 함수를 비동기처럼 실행하기 위해
+from typing import List, Dict, Any # 반환 타입 명시를 위해 (선택 사항)
+# --- 전역 변수 (서버 시작 시 초기화) ---
+krx_listings: pd.DataFrame = None
+us_listings: pd.DataFrame = None
+translator: Translator = None
+# --- 서버 시작 시 실행될 로직 ---
+@app.on_event("startup")
+async def load_initial_data():
+    """
+    서버가 시작될 때 주식 목록과 번역기를 미리 로드하여
+    API 요청마다 반복적으로 로드하는 것을 방지합니다.
+    """
+    global krx_listings, us_listings, translator
+    logger.info("✅ 서버 시작: 초기 데이터 로딩을 시작합니다...")
+    try:
+        krx_listings = await run_in_threadpool(fdr.StockListing, 'KRX')
+        logger.info("📊 한국 상장 기업 목록 로딩 완료.")
+        nasdaq = await run_in_threadpool(fdr.StockListing, 'NASDAQ')
+        nyse = await run_in_threadpool(fdr.StockListing, 'NYSE')
+        amex = await run_in_threadpool(fdr.StockListing, 'AMEX')
+        us_listings = pd.concat([nasdaq, nyse, amex], ignore_index=True)
+        logger.info("📊 미국 상장 기업 목록 로딩 완료.")
+        translator = Translator()
+        logger.info("🌐 번역기 초기화 완료.")
+        logger.info("✅ 모든 초기 데이터 로딩이 성공적으로 완료되었습니다.")
+    except Exception as e:
+        logger.error(f"🚨 초기 데이터 로딩 중 심각한 오류 발생: {e}", exc_info=True)
+        # 필요하다면 여기서 서버 실행을 중단시킬 수도 있습니다.
+        # raise RuntimeError("Failed to load initial stock listings.") from e
+# --- 핵심 로직 함수 ---
+def get_stock_info(company_name: str) -> Dict[str, str] | None:
+    """
+    회사명을 받아 한국 또는 미국 시장에서 종목 정보를 찾아 반환합니다.
+    (정상 동작하는 스크립트의 로직을 그대로 적용)
+    """
+    # 1. 한국 주식에서 먼저 검색
+    kr_match = krx_listings[krx_listings['Name'].str.contains(company_name, case=False, na=False)]
+    if not kr_match.empty:
+        stock = kr_match.iloc[0]
+        logger.info(f"KRX에서 '{company_name}' 발견: {stock['Name']} ({stock['Code']})")
+        return {"market": "KRX", "symbol": stock['Code'], "name": stock['Name']}
+    # 2. 한국에 없으면 미국 주식에서 검색 (번역기 사용)
+    try:
+        # 번역은 I/O 작업이므로 스레드풀에서 실행하는 것이 더 안전할 수 있으나,
+        # googletrans의 내부 구현에 따라 여기서 직접 호출해도 큰 문제가 없을 수 있습니다.
+        company_name_eng = translator.translate(company_name, src='ko', dest='en').text
+        logger.info(f"'{company_name}' -> 영어로 번역: '{company_name_eng}'")
+        # 이름 또는 심볼에서 검색
+        us_match = us_listings[
+            us_listings['Name'].str.contains(company_name_eng, case=False, na=False) |
+            us_listings['Symbol'].str.fullmatch(company_name_eng, case=False)
+        ]
+        if not us_match.empty:
+            stock = us_match.iloc[0]
+            logger.info(f"US에서 '{company_name}' 발견: {stock['Name']} ({stock['Symbol']})")
+            return {"market": "US", "symbol": stock['Symbol'], "name": stock['Name']}
+    except Exception as e:
+        logger.error(f"'{company_name}' 번역 또는 미국 주식 검색 중 오류: {e}")
+    # 3. 최종적으로 찾지 못한 경우
+    logger.warning(f"'{company_name}'에 해당하는 종목을 찾지 못했습니다.")
+    return None
+def fetch_stock_prices_sync(symbol: str, days: int = 365) -> pd.DataFrame:
+    """
+    지정된 기간 동안의 주가 데이터를 가져옵니다 (동기 함수).
+    """
+    end_date = datetime.today()
+    start_date = end_date - timedelta(days=days)
+    logger.info(f"FinanceDataReader로 '{symbol}'의 주가 데이터 조회를 시작합니다 ({start_date.date()} ~ {end_date.date()}).")
+    try:
+        df = fdr.DataReader(symbol, start=start_date, end=end_date)
+        if df.empty:
+            logger.warning(f"'{symbol}'에 대한 데이터가 없습니다.")
+            return None
+        return df
+    except Exception as e:
+        logger.error(f"'{symbol}' 데이터 조회 중 오류 발생: {e}", exc_info=True)
+        return None
+# --- API 엔드포인트 ---
+@app.get("/ai/stock-data/by-name",
+         summary="회사명으로 최근 1년 주가 데이터 조회 (JSON)",
+         description="회사명(예: 삼성전자, 애플)을 입력받아 최근 1년간의 일별 주가 데이터를 JSON 형식으로 반환합니다.")
+async def get_stock_data_by_name(
+    company_name: str = Query(..., description="조회할 회사명")
+) -> List[Dict[str, Any]]:
+    if not company_name or not company_name.strip():
+        raise HTTPException(status_code=400, detail="회사명을 입력해주세요.")
+    stock_info = await run_in_threadpool(get_stock_info, company_name.strip())
+    if not stock_info:
+        raise HTTPException(status_code=404, detail=f"'{company_name}'에 해당하는 종목을 찾을 수 없습니다.")
+    prices_df = await run_in_threadpool(fetch_stock_prices_sync, stock_info['symbol'], 365)
+    if prices_df is None or prices_df.empty:
+        raise HTTPException(status_code=404, detail=f"'{stock_info['name']}'의 시세 데이터를 찾을 수 없습니다.")
+    prices_df.index.name = 'Date'  # 👈 이 줄을 추가하여 인덱스 이름을 명시적으로 설정
+    prices_df.reset_index(inplace=True)
+    prices_df['Date'] = prices_df['Date'].dt.strftime('%Y-%m-%d')
+    return prices_df.to_dict(orient='records')
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8000)

news_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41d5d6b46d8eb27a6bb599ac7e9aeaa8f45f427e1f02a2a0396fb19f2316a9eb
+size 53864

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+fastapi
+uvicorn
+torch
+google-generativeai
+transformers
+keybert
+konlpy
+sentencepiece
+mysql-connector-python
+pandas
+requests
+pykrx
+beautifulsoup4
+gensim
+finance-datareader
+googletrans==4.0.0-rc1
+openpyxl

stock_data.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

stopwords-ko.txt ADDED Viewed

	@@ -0,0 +1,679 @@

+!
+"
+$
+%
+&
+'
+(
+)
+*
++
+,
+-
+.
+...
+0
+1
+2
+3
+4
+5
+6
+7
+8
+9
+;
+<
+=
+>
+?
+@
+\
+^
+_
+`
+|
+~
+·
+—
+——
+‘
+’
+“
+”
+…
+、
+。
+〈
+〉
+《
+》
+가
+가까스로
+가령
+각
+각각
+각자
+각종
+갖고말하자면
+같다
+같이
+개의치않고
+거니와
+거바
+거의
+것
+것과 같이
+것들
+게다가
+게우다
+겨우
+견지에서
+결과에 이르다
+결국
+결론을 낼 수 있다
+겸사겸사
+고려하면
+고로
+곧
+공동으로
+과
+과연
+관계가 있다
+관계없이
+관련이 있다
+관하여
+관한
+관해서는
+구
+구체적으로
+구토하다
+그
+그들
+그때
+그래
+그래도
+그래서
+그러나
+그러니
+그러니까
+그러면
+그러므로
+그러한즉
+그런 까닭에
+그런데
+그런즉
+그럼
+그럼에도 불구하고
+그렇게 함으로써
+그렇지
+그렇지 않다면
+그렇지 않으면
+그렇지만
+그렇지않으면
+그리고
+그리하여
+그만이다
+그에 따르는
+그위에
+그저
+그중에서
+그치지 않다
+근거로
+근거하여
+기대여
+기점으로
+기준으로
+기타
+까닭으로
+까악
+까지
+까지 미치다
+까지도
+꽈당
+끙끙
+끼익
+나
+나머지는
+남들
+남짓
+너
+너희
+너희들
+네
+넷
+년
+논하지 않다
+놀라다
+누가 알겠는가
+누구
+다른
+다른 방면으로
+다만
+다섯
+다소
+다수
+다시 말하자면
+다시말하면
+다음
+다음에
+다음으로
+단지
+답다
+당신
+당장
+대로 하다
+대하면
+대하여
+대해 말하자면
+대해서
+댕그
+더구나
+더군다나
+더라도
+더불어
+더욱더
+더욱이는
+도달하다
+도착하다
+동시에
+동안
+된바에야
+된이상
+두번째로
+둘
+둥둥
+뒤따라
+뒤이어
+든간에
+들
+등
+등등
+딩동
+따라
+따라서
+따위
+따지지 않다
+딱
+때
+때가 되어
+때문에
+또
+또한
+뚝뚝
+라 해도
+령
+로
+로 인하여
+로부터
+로써
+륙
+를
+마음대로
+마저
+마저도
+마치
+막론하고
+만 못하다
+만약
+만약에
+만은 아니다
+만이 아니다
+만일
+만큼
+말하자면
+말할것도 없고
+매
+매번
+메쓰겁다
+몇
+모
+모두
+무렵
+무릎쓰고
+무슨
+무엇
+무엇때문에
+물론
+및
+바꾸어말하면
+바꾸어말하자면
+바꾸어서 말하면
+바꾸어서 한다면
+바꿔 말하면
+바로
+바와같이
+밖에 안된다
+반대로
+반대로 말하자면
+반드시
+버금
+보는데서
+보다더
+보드득
+본대로
+봐
+봐라
+부류의 사람들
+부터
+불구하고
+불문하고
+붕붕
+비걱거리다
+비교적
+비길수 없다
+비로소
+비록
+비슷하다
+비추어 보아
+비하면
+뿐만 아니라
+뿐만아니라
+뿐이다
+삐걱
+삐걱거리다
+사
+삼
+상대적으로 말하자면
+생각한대로
+설령
+설마
+설사
+셋
+소생
+소인
+솨
+쉿
+습니까
+습니다
+시각
+시간
+시작하여
+시초에
+시키다
+실로
+심지어
+아
+아니
+아니나다를가
+아니라면
+아니면
+아니었다면
+아래윗
+아무거나
+아무도
+아야
+아울러
+아이
+아이고
+아이구
+아이야
+아이쿠
+아하
+아홉
+안 그러면
+않기 위하여
+않기 위해서
+알 수 있다
+알았어
+앗
+앞에서
+앞의것
+야
+약간
+양자
+어
+어기여차
+어느
+어느 년도
+어느것
+어느곳
+어느때
+어느쪽
+어느해
+어디
+어때
+어떠한
+어떤
+어떤것
+어떤것들
+어떻게
+어떻해
+어이
+어째서
+어쨋든
+어쩔수 없다
+어찌
+어찌됏든
+어찌됏어
+어찌하든지
+어찌하여
+언제
+언젠가
+얼마
+얼마 안 되는 것
+얼마간
+얼마나
+얼마든지
+얼마만큼
+얼마큼
+엉엉
+에
+에 가서
+에 달려 있다
+에 대해
+에 있다
+에 한하다
+에게
+에서
+여
+여기
+여덟
+여러분
+여보시오
+여부
+여섯
+여전히
+여차
+연관되다
+연이서
+영
+영차
+옆사람
+예
+예를 들면
+예를 들자면
+예컨대
+예하면
+오
+오로지
+오르다
+오자마자
+오직
+오호
+오히려
+와
+와 같은 사람들
+와르르
+와아
+왜
+왜냐하면
+외에도
+요만큼
+요만한 것
+요만한걸
+요컨대
+우르르
+우리
+우리들
+우선
+우에 종합한것과같이
+운운
+월
+위에서 서술한바와같이
+위하여
+위해서
+윙윙
+육
+으로
+으로 인하여
+으로서
+으로써
+을
+응
+응당
+의
+의거하여
+의지하여
+의해
+의해되다
+의해서
+이
+이 되다
+이 때문에
+이 밖에
+이 외에
+이 정도의
+이것
+이곳
+이때
+이라면
+이래
+이러이러하다
+이러한
+이런
+이럴정도로
+이렇게 많은 것
+이렇게되면
+이렇게말하자면
+이렇구나
+이로 인하여
+이르기까지
+이리하여
+이만큼
+이번
+이봐
+이상
+이어서
+이었다
+이와 같다
+이와 같은
+이와 반대로
+이와같다면
+이외에도
+이용하여
+이유만으로
+이젠
+이지만
+이쪽
+이천구
+이천육
+이천칠
+이천팔
+인 듯하다
+인젠
+일
+일것이다
+일곱
+일단
+일때
+일반적으로
+일지라도
+임에 틀림없다
+입각하여
+입장에서
+잇따라
+있다
+자
+자기
+자기집
+자마자
+자신
+잠깐
+잠시
+저
+저것
+저것만큼
+저기
+저쪽
+저희
+전부
+전자
+전후
+점에서 보아
+정도에 이르다
+제
+제각기
+제외하고
+조금
+조차
+조차도
+졸졸
+좀
+좋아
+좍좍
+주룩주룩
+주저하지 않고
+줄은 몰랏다
+줄은모른다
+중에서
+중의하나
+즈음하여
+즉
+즉시
+지든지
+지만
+지말고
+진짜로
+쪽으로
+차라리
+참
+참나
+첫번째로
+쳇
+총적으로
+총적으로 말하면
+총적으로 보면
+칠
+콸콸
+쾅쾅
+쿵
+타다
+타인
+탕탕
+토하다
+통하여
+툭
+퉤
+틈타
+팍
+팔
+퍽
+펄렁
+하
+하게될것이다
+하게하다
+하겠는가
+하고 있다
+하고있었다
+하곤하였다
+하구나
+하기 때문에
+하기 위하여
+하기는한데
+하기만 하면
+하기보다는
+하기에
+하나
+하느니
+하는 김에
+하는 편이 낫다
+하는것도
+하는것만 못하다
+하는것이 낫다
+하는바
+하더라도
+하도다
+하도록시키다
+하도록하다
+하든지
+하려고하다
+하마터면
+하면 할수록
+하면된다
+하면서
+하물며
+하여금
+하여야
+하자마자
+하지 않는다면
+하지 않도록
+하지마
+하지마라
+하지만
+하하
+한 까닭에
+한 이유는
+한 후
+한다면
+한다면 몰라도
+한데
+한마디
+한적이있다
+한켠으로는
+한항목
+할 따름이다
+할 생각이다
+할 줄 안다
+할 지경이다
+할 힘이 있다
+할때
+할만하다
+할망정
+할뿐
+할수있다
+할수있어
+할줄알다
+할지라도
+할지언정
+함께
+해도된다
+해도좋다
+해봐요
+해서는 안된다
+해야한다
+해요
+했어요
+향하다
+향하여
+향해서
+허
+허걱
+허허
+헉
+헉헉
+헐떡헐떡
+형식으로 쓰여
+혹시
+혹은
+혼자
+훨씬
+휘익
+휴
+흐흐
+흥
+힘입어
+︿
+！
+＃
+＄
+％
+＆
+（
+）
+＊
+＋
+，
+０
+１
+２
+３
+４
+５
+６
+７
+８
+９
+：
+；
+＜
+＞
+？
+＠
+［
+］
+｛
+｜
+｝
+～
+￥

util/__pycache__/keywordExtract.cpython-310.pyc ADDED Viewed

Binary file (5.66 kB). View file

util/__pycache__/keywordExtract.cpython-311.pyc ADDED Viewed

Binary file (10.1 kB). View file

util/keywordExtract.py ADDED Viewed

	@@ -0,0 +1,160 @@

+from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration, AutoTokenizer, AutoModel, AutoModelForSequenceClassification
+from konlpy.tag import Komoran
+from keybert import KeyBERT
+import textwrap
+import os
+import requests
+import torch
+import pandas as pd
+import torch.nn.functional as F
+from transformers import BertTokenizer, BertForSequenceClassification
+# ✅ 1. 상장기업 목록 불러오기
+def load_company_list(file_path='상장법인목록.xls'):
+    df_list = pd.read_html(file_path)
+    df = df_list[0]
+    return df['회사명'].dropna().tolist()
+# ✅ 요약용 KoBART
+summary_tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-summarization")
+summary_model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-summarization")
+def summarize_kobart(text):
+    input_ids = summary_tokenizer.encode(text, return_tensors="pt")
+    summary_ids = summary_model.generate(
+        input_ids,
+        max_length=160,
+        min_length=100,
+        num_beams=4,
+        repetition_penalty=2.5,
+        no_repeat_ngram_size=4,
+        early_stopping=True
+    )
+    return summary_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+# ✅ 키워드 추출용 KoBERT
+class KoBERTEmbedding:
+    def __init__(self, model, tokenizer):
+        self.model = model
+        self.tokenizer = tokenizer
+    def encode(self, documents, **kwargs):
+        if isinstance(documents, str):
+            documents = [documents]
+        encoded_input = self.tokenizer(documents, padding=True, truncation=True, return_tensors="pt")
+        with torch.no_grad():
+            output = self.model(**encoded_input)
+        cls_embeddings = output.last_hidden_state[:, 0, :]
+        return cls_embeddings.numpy()
+keyword_model_name = "skt/kobert-base-v1"
+keyword_tokenizer = AutoTokenizer.from_pretrained("skt/kobert-base-v1", use_fast=False)
+keyword_model = AutoModel.from_pretrained(keyword_model_name)
+kobert_embedder = KoBERTEmbedding(keyword_model, keyword_tokenizer)
+kw_model = KeyBERT(model=kobert_embedder)
+STOPWORDS_FILE = "stopwords-ko.txt"
+# ✅ 감성 분석용 모델 (예: kykim/bert-kor-base 사용 가정)
+sentiment_model_name = "kykim/bert-kor-base"
+bert_tokenizer = AutoTokenizer.from_pretrained(sentiment_model_name)
+bert_model = AutoModelForSequenceClassification.from_pretrained(sentiment_model_name)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+bert_model = bert_model.to(device)
+def classify_emotion(text):
+    tokens = bert_tokenizer(text, padding=True, truncation=True, return_tensors="pt").to(device)
+    with torch.no_grad():
+        prediction = bert_model(**tokens)
+    prediction = F.softmax(prediction.logits, dim=1)
+    output = prediction.argmax(dim=1).item()
+    labels = ["부정적", "중립적", "긍정적"]
+    return labels[output]
+sentiment_tokenizer = BertTokenizer.from_pretrained("kykim/bert-kor-base")
+sentiment_model = BertForSequenceClassification.from_pretrained("kykim/bert-kor-base")
+def analyze_sentiment(text):
+    inputs = sentiment_tokenizer(text, return_tensors="pt", truncation=True, padding=True)
+    with torch.no_grad():
+        outputs = sentiment_model(**inputs)
+        probs = F.softmax(outputs.logits, dim=1)
+        return {
+            "positive": round(float(probs[0][1]), 4),
+            "negative": round(float(probs[0][0]), 4)
+        }
+def get_or_download_stopwords():
+    # 1. 파일이 있으면 읽어서 반환
+    if os.path.exists(STOPWORDS_FILE):
+        with open(STOPWORDS_FILE, "r", encoding="utf-8") as f:
+            return [line.strip() for line in f.readlines()]
+    # 2. 파일이 없으면 다운로드 후 저장
+    url = "https://raw.githubusercontent.com/stopwords-iso/stopwords-ko/master/stopwords-ko.txt"
+    response = requests.get(url)
+    stopwords = response.text.splitlines()
+    with open(STOPWORDS_FILE, "w", encoding="utf-8") as f:
+        f.write(response.text)
+    return stopwords
+korean_stopwords = get_or_download_stopwords()
+# ✅ 형태소 분석기 (komoran) 사용하여 명사 추출
+komoran = Komoran()
+def remove_stopwords(text, stopwords):
+    words = komoran.nouns(text)  # Komoran은 복합명사 더 잘 잡음
+    filtered_words = [word for word in words if word not in stopwords and len(word) > 1]
+    return " ".join(filtered_words)
+def resultKeyword(content) :
+    company_names = load_company_list()
+    # ✅ 요약
+    summary = summarize_kobart(content)
+    wrapped_summary = textwrap.fill(summary, width=80)  # 80자마다 줄바꿈
+    # ✅ 핵심 키워드 추출
+        # 불용어 처리 후 요약 텍스트에서 키워드 추출
+    filtered_summary = remove_stopwords(summary, korean_stopwords)
+    keywords = kw_model.extract_keywords(
+        filtered_summary,
+        keyphrase_ngram_range=(1, 2),  # 복합명사 유지 가능
+        stop_words=None,
+        top_n=5
+    )
+     # 요약문에서 상장기업명 탐지
+    summary_words = set(filtered_summary.split())
+    matched_companies = [name for name in company_names if name in summary_words]
+    # 가중치 반영
+    weighted_keywords = {}
+    for kw, score in keywords:
+        if kw in matched_companies:
+                weighted_keywords[kw] = score + 0.3
+        else:
+            weighted_keywords[kw] = score
+    # 기업명 강제 삽입
+    for company in matched_companies:
+        if company not in weighted_keywords:
+            weighted_keywords[company] = 0.9
+        # 1차 키워드 결과 정렬
+    sorted_keywords = sorted(weighted_keywords.items(), key=lambda x: x[1], reverse=True)
+    top_keywords = sorted_keywords[:5]
+    return {
+        "summary": wrapped_summary,
+        "keyword": [{"word": kw, "score": float(f"{score:.4f}")} for kw, score in top_keywords]
+    }

util/상장법인목록.xls ADDED Viewed

The diff for this file is too large to render. See raw diff

상장법인목록.xls ADDED Viewed

The diff for this file is too large to render. See raw diff