DeltaLake Optimizing Merge: 델타 레이크에서 머지 성능 최적화하기
Merge Overview Phase 1: 조건에 맞는 Rows가 있는 Input File를 찾고 파일을 읽어 키가 같은지 검증 (InnerJoin) Phase 2: 접근한 파일을 다시 읽고 새로운 파일로 작성함, 이때 새로운 Row를 추가하거나 업데이트함 Phase 3: 델타 프로토콜을 이용해서 원자적으로 (atomically) 파일을...
Merge Overview Phase 1: 조건에 맞는 Rows가 있는 Input File를 찾고 파일을 읽어 키가 같은지 검증 (InnerJoin) Phase 2: 접근한 파일을 다시 읽고 새로운 파일로 작성함, 이때 새로운 Row를 추가하거나 업데이트함 Phase 3: 델타 프로토콜을 이용해서 원자적으로 (atomically) 파일을...
본 글은 Pinecone의 [Building Custom Tools for LLM Agents Pinecone](https://www.pinecone.io/learn/series/langchain/langchain-tools/) 를 참고하여 작성하였습니다. 대부분의 코드가 현재 작동하지 않는 옛...
저장소 패턴 데이터 저장소를 더 간단히 추상화한 것 모델 계층과 데이터 계층을 분리하여 데이터 베이스의 복잡성을 감춤 출처: Repository Pattern (cosmicpython.com) 1. 도메인 모델 영속화 (Persisting Our Domain Model) 이전 장에서 작성한 도메인 모델은 테스트 하기 쉽...
Performance Tuning: Optimizing Your Data Pipelines with Delta Lake 먼저 성능의 목적에 대해 고민해보고 각각의 고려 사항 들이 목적에 어떻게 영향을 미치는지 알아볼 예정 각 기능들에서 주요 파라미터와 그것이 어떤 상관관계와 트레이드 오프가 있는지 알아보자 6.1. Performa...