استخراج، پالایش و تجمیع داده ( ETL )
ETL فرایند واکشی اطلاعات از سیستم های اطلاعاتی، تبدیل و بارگزاری در انباره داده است.
برای انبار داده، ما دادههای مفیدی که ارزش تحلیلی دارند را از سیستمهای اطلاعاتی مختلف استخراج می کنیم. این دادههای خام نیاز به پالایش دارند و میبایست ساختار آنها متناسب با انبار داده و تحلیل کسب و کار، تغییر کند. این تغییر شامل تغییر نوع، مقدار، ترکیب و یا جداسازی دادهاست.
از طرفی با توجه به اینکه امکان اشتباه بودن یا نامعتبر بودن برخی دادهها در سیستمهای اطلاعاتی وجود دارد، باید دادههای استخراج شده را در طی فرایندی پالایش (Data Cleansing) کرد. همچنین اطلاعاتی را که باعث بروز اشتباه می شوند، حذف نمود و یا تغییر داد. در این فاز باید یک بررسی بر روی صحت دادهها (Data Validation) و مقایسه با سیستم های عملیاتی انجام شود. پس از این مراحل دادهها در انبار داده بارگزاری می شوند.

طراحی انبار داده متناسب با تحلیل کسب و کار:
با توجه به رشد روز افزون داده ها در سیستم های عملیاتی مبتی بر تراکنش (OLTP) که با هدف ایجاد، ویرایش، حذف اطلاعات و بررسی تراکنش ها طراحی شده اند، امکان پیاده سازی تحلیل پیچیده اطلاعات با عملکرد بالا در آنها عملا وجود ندارد. برای بررسی و استفاده از این داده ها نیاز به یک سیستم مبتنی بر تحلیل (OLAP) است که در آن باید داده های موجود در همه سیستم های اطلاعاتی مانند سیستم فروش، حسابداری، … در یک انبار داده (Data Warehouse) تجمیع شوند و سپس آنها را در مدل داده ای تجزیه و تحلیل کرد.
در واقع هدف از ایجاد انبار داده در واقع فراهم ساختن بستری واحد از اطلاعات بصورت یکپارچه و برطرف نمودن بسیاری از چالش ها در دسترسی به اطلاعات و پالایش داده ها است. طراحی انباره داده و مدل داده ای مهمترین و پیچیده ترین مرحله پیاده سازی که در عملکرد سیستم هم از نظر تحلیل و هم از نظر عملکرد اجرا نقش اصلی را دارد که به دانش طراحی انبار داده، تسلط به ابزارهای پیاده سازی مرتبط و هم شناخت خوب از تحلیل کسب و کار نیاز دارد.
ابزار پیاده سازی و طراحی انبار داده باید به گونه ای انطاف پذیر باشند که امکان بارگزاری انواع داده ها از انواع منابع اطلاعاتی با ساختارهای متفاوت وجود داشته باشد. در این مرحله رویدادها (Fact) مانند فروش، پیش فروش، پرداخت، … و ابعاد (Dimension) مختلف مانند زمان، فروشنده، مشتری،.. گزارشگیری و چگونگی ارتباط آنها با یکدیگر مشخص می شود. پس از بارگزاری انبار داده، در مدل داده ای با استفاده از ابزار های تحلیل اطلاعات (Analytical Engine) مقادیر محاسباتی مانند فروش خالص، موجودی، … برای تعیین شاخص ها در ابعاد مختلف طراحی می شود.
