데이터 전처리 및 파이프라인 개발
데이터, 수집 -> 가공 -> 변환 -> 전달
데이터 전처리
Pandas : 구조화된 데이터(DataFrame) 가공용 소프트웨어
Numpy : 수치 데이터 처리, 행렬 연산
Scikit-learn : 머신러닝용 데이터 전처리(정규화, 스케일링, 인코딩 등)
spaCy
NLTK/spaCy : 텍스트 전처리 (토큰화, 불용어 제거, 형태소 분석 등)
OpenAI tiktoken : 텍스트 토큰화 (LLM 토큰 단위 전처리)
데이터 파이프라인 오케스트레이션
Apache Airflow : 가장 대표적인 파이프라인 스케줄링/관리 도구
Prefect : 파이썬 친화적이고 코드 기반 워크플로 관리 툴
Luigi : 단순 파이프 라인 관리용 (Spolify 에서 개발)
Dagster : 데이터 파이프라인, 데이터 품질 관리 기능 강화된 최신 툴
테이터 스트리밍/처리
Apache Spark (PySpark) : 대규모 데이터 전처리 및 분산 처리
Dask : 파이썬 기반 분산 처리 (로컬/클러스터 지원)
Polars : Pandas 보다 빠른 차세대 DataFrame 라이브러리
RAG 앞 데이터 수신을 위한 Queue 로직
안정적 데이터 수신 및 처리를 위한 메시지 큐(Message Queue) / 스트리밍 플랫폼 활용
메시지 큐(Message Queue)
RabbitMQ : 가장 널리 쓰이는 경량 메시지 브로커(python pika)
Redis Streams : Redis 기반의 간단한 메시지 큐(python redis)
Amazon SQS (AWS) : 클라우드 기반 큐 서비스(python boto3)
스트리밍 플랫폼
Apache Kafka : 대규모 이벤트 스트리밍, pub/sub 구조(python confluent-kafka)
Apache Pulsar : Kafka 대체한 클라우드 네이티브
비동기/큐 처리 프레임워크
Celery : Python 에서 가장 많이 쓰이는 분산 태스크 큐(백엔드로 RabbitMQ, Redis 사용)
RQ (Redis Queue) : Redis 기반 단순 태스크 큐
Dramatiq : Celery 대안, 단순/빠른 큐 처리
'코딩' 카테고리의 다른 글
| nginx 설치 및 설정 (0) | 2025.08.24 |
|---|---|
| Set up a Cloudflare Tunnel between local network and Cloudflare (0) | 2025.08.24 |
| endless project timeline & flow (0) | 2025.08.06 |
| django migration Reset (0) | 2025.08.06 |
| django Data Migration Guide (0) | 2025.08.03 |