본문 바로가기

코딩

데이터 전처리 및 파이프라인

728x90
반응형

데이터 전처리 및 파이프라인 개발

데이터, 수집 -> 가공 -> 변환 -> 전달

데이터 전처리

Pandas : 구조화된 데이터(DataFrame) 가공용 소프트웨어

Numpy : 수치 데이터 처리, 행렬 연산

Scikit-learn : 머신러닝용 데이터 전처리(정규화, 스케일링, 인코딩 등)

spaCy

NLTK/spaCy : 텍스트 전처리 (토큰화, 불용어 제거, 형태소 분석 등)

OpenAI tiktoken : 텍스트 토큰화 (LLM 토큰 단위 전처리)

 

데이터 파이프라인 오케스트레이션

Apache Airflow : 가장 대표적인 파이프라인 스케줄링/관리 도구

Prefect : 파이썬 친화적이고 코드 기반 워크플로 관리 툴

Luigi : 단순 파이프 라인 관리용 (Spolify 에서 개발)

Dagster : 데이터 파이프라인, 데이터 품질 관리 기능 강화된 최신 툴

 

테이터 스트리밍/처리

Apache Spark (PySpark) : 대규모 데이터 전처리 및 분산 처리

Dask : 파이썬 기반 분산 처리 (로컬/클러스터 지원)

Polars : Pandas 보다 빠른 차세대 DataFrame 라이브러리

 

RAG 앞 데이터 수신을 위한 Queue 로직

안정적 데이터 수신 및 처리를 위한 메시지 큐(Message Queue) / 스트리밍 플랫폼 활용

메시지 큐(Message Queue)

RabbitMQ : 가장 널리 쓰이는 경량 메시지 브로커(python pika)

Redis Streams : Redis 기반의 간단한 메시지 큐(python redis)

Amazon SQS (AWS) : 클라우드 기반 큐 서비스(python boto3) 

 

스트리밍 플랫폼

Apache Kafka : 대규모 이벤트 스트리밍, pub/sub 구조(python confluent-kafka)

Apache Pulsar : Kafka 대체한 클라우드 네이티브

 

비동기/큐 처리 프레임워크

Celery : Python 에서 가장 많이 쓰이는 분산 태스크 큐(백엔드로 RabbitMQ, Redis 사용)

RQ (Redis Queue) : Redis 기반 단순 태스크 큐

Dramatiq : Celery 대안, 단순/빠른 큐 처리

 

 

728x90
반응형

'코딩' 카테고리의 다른 글

nginx 설치 및 설정  (0) 2025.08.24
Set up a Cloudflare Tunnel between local network and Cloudflare  (0) 2025.08.24
endless project timeline & flow  (0) 2025.08.06
django migration Reset  (0) 2025.08.06
django Data Migration Guide  (0) 2025.08.03