مراحل بارگذاری داده ها در انبار داده

مراحل بارگذاری داده ها در انبار داده

بعد از آنکه مرحله شناخت و تحلیل سازمان به پایان رسید، اولین قدم برای ساخت یک پروژه هوش تجاری ایجاد انبار داده است. بر اساس نیاز باید اطلاعات را از منابع مختلف استخراج و جمع آوری (Extract)، پالایش (Transform) و در یک پایگاه داده ذخیره (Load) کنیم. به عملیات استخراج، پالایش و بارگذاری، ETL گفته می‌شود. امروزه ابزارهای زیادی برای انجام فرآیند ETL وجود دارد که تا حدود زیادی دقت و سرعت انجام این عملیات را بالا برده است. هر یک از این مراحل جزئیاتی دارند که در ادامه به شرح آن می‌پردازیم.

۱- استخراج داده ها از پایگاه های داده به یک مخزن واحد

شناخت منابع داده های سازمان و استخراج داده های ارزشمند از آن‌ها یکی از اصلی ترین مراحل ایجاد انبار داده است. داده هایی که بایست در قالب انبار گرد هم آیند غالباً به صورت پراکنده‌ تولید شده اند. برای مثال در یک فروشگاه زنجیره ای داده ها از طریق کامپیوترهای مراکز خرید مختلف، دستگاه های خرید اتوماتیک (مثل دستگاه های خرید نوشابه یا روزنامه) و نرم افزارهای انبارداری و حسابداری، به دست می‌آیند.  انبار داده برای انجام وظیفه خود که همان تحلیل داده‌ها است باید همه این داده ها را با هر قالبی که تولید می‌شوند به طور مرتب و دقیق دریافت نماید. استخراج داده ها در یک محیط واسط که کم و بیش شبیه انبار داده ها است صورت می‌گیرد.

۲- پالایش داده ها

داده های استخراج شده را باید بررسی نماییم و در صورت نیاز تغییراتی در آن ها ایجاد کنیم. دلیل این کار، استخراج اطلاعات از پایگاه‌ داده های مختلف و برطرف نمودن نیازهای سازمان است. معمولا تمامی مراحل پالایش داده ها در محیط واسط انجام می‌گیرد اما گاهی برخی از مراحل پالایش در هنگام بارگذاری در انبار داده انجام می‌شود.

در پالایش داده ها مراحل زیر انجام می‌شود.

پاک سازی داده ها (Data Cleaner): ممکن است در دنیای امروز میلیون ها مجموعه داده وجود داشته باشد، اما به راستی تمام این مجموعه از داده ها بدون اشکال هستند؟ آیا تمامی مقادیر فیلدهای هر رکورد  پر شده است  و یا  مقادیر داخل فیلدها داده های صحیح دارند؟ اگر داده ها  از منابع یکسان مثل فایل ها  یا پایگاه های داده ای گرفته شوند خطا هایی از قبیل اشتباهات تایپی، داده‌ها‌ی نادرست و فیلدهای بدون مقدار را خواهیم داشت و چنانچه داده‌ها  از منابع مختلف مثل پایگاه داده ها‌ی مختلف یا سیستم اطلاعاتی مبتنی بر وب گرفته شوند با توجه به نمایش ها‌ی داده‌ای مختلف خطاها بیشتر بوده و پاک سازی داده ها  اهمیت بیشتری پیدا خواهد کرد.

با اندکی توجه به مجموعه ای از داده ها متوجه خواهیم شد که از این قبیل اشکالات در بسیاری از آن‌ها وجود دارد. مسلماً هدف از گردآوری آن‌ها،  تحلیل و بررسی و استفاده از داده ها برای تصمیم گیری ها است. بنابراین وجود داده های ناقص یا ناصحیح باعث می‌شود که تصمیم ها یا تحلیل های ما هم غلط باشند. به پروسه تکراری که با کشف خطا و تصحیح آن‌ها آغاز و با ارائه الگوها به اتمام می‌رسد، پاک سازی داده ها گفته می‌شود.

یکپارچه سازی (Integration): این فاز شامل ترکیب داده­ های دریافتی از منابع اطلاعاتی مختلف، استفاده از متا داده ها برای شناسایی، حذف افزونگی داده ­ها، تشخیص و رفع برخورد های داده ­ای می­باشد.

 

یکپارچه سازی داده ­ها از سه فاز کلی تشکیل شده است:

شناسایی فیلد های یکسان: فیلدهای یکسان که در جدول‌های مختلف دارای نام های مختلف می‌باشند.

شناسایی افزونگی های موجود در داده های ورودی: داده­های ورودی گاهی دارای افزونگی هستند. مثلاً بخشی از رکورد در جدول دیگری وجود دارد.

مشخص کردن برخورد‌ های داده ­ای: مثالی از برخوردهای داده­ای، یکسان نبودن واحدهای نمایش داده ­ای است. مثلاً فیلد وزن در یک جدول بر حسب کیلوگرم و در جدولی دیگر بر حسب گرم ذخیره شده است.

تبدیل داده ها (Data Transformation): در مجموعه داده های بزرگ، به نمونه هایی که از رفتار کلی مدل داده ای تبعیت نمی‌کنند و بطور کلی متفاوت یا ناهماهنگ با مجموعه باقیانده داده ها هستند، داده های نامنطبق گفته می‌شود.

داده های نامنطبق می‌توانند توسط خطای اندازه گیری ایجاد شونده یا نتیجه نوع داده ای درونی باشند. برای مثال اگر سن فردی در پایگاه داده ۱- باشد، مقدار فوق قطعا غلط است و با یک مقدار پیش فرض فیلد “سن ثبت نشده” می تواند در برنامه مشخص گردد.

کاهش داده ها (Reduction): در این مرحله، عملیات کاهش داده­ ها انجام می­گیرد که شامل تکنیک هایی برای نمایش کمینه اطلاعات موجود است.

 

این فاز از سه بخش تشکیل می­شود:

کاهش دامنه و بعد: فیلد های نامربوط، نامناسب و تکراری حذف می­شوند. برای تشخیص فیلدهای اضافی، روش های آماری و تجربی وجود دارند؛ یعنی با اعمال الگوریتم‌های آماری و یا تجربی بر روی داده های موجود در یک بازه زمانی مشخص، به این نتیجه می­رسیم که فیلد یا فیلدهای خاصی، کاربردی در انبار داده­ نداشته و آن‌ها را حذف می­کنیم.

فشرده سازی داده ­ها: از تکنیک های فشرده ­سازی برای کاهش اندازه داده­ ها استفاده می­شود.

کد کردن داده ­ها: داده ­ها در صورت امکان با پارامترها و اطلاعات کوچک تر جایگزین می­شوند.

٣- بارگذاری داده ای پالایش شده

پس از انجام مراحل استخراج و پالایش نوبت به بارگذاری داده ها در انبار داده ها است. معمولا در این مرحله فقط عمل بارگذاری انجام می‌گیرد اما گاهی ممکن است انجام یکی از مراحل پالایش در هنگام بارگذاری صورت گیرد. درانبار داده فیلدها در جاهای مختلفی تکرار می شوند و روابط بین جداول کمتر به چشم می خورند. علت آن هم افزایش سرعت پردازش اطلاعات هنگام گزارشات و عملیات آماری می‌باشد.

حال انبار داده ها با مقادیر اولیه ساخته شده است، اما این پایان کار نیست! هر روزه داده های بیشتر و جدیدی به پایگاه‌ داده ها اضافه می‌شود و باید شرایطی را فراهم کنیم تا این داده ها به صورت خودکار و بدون دخالت کاربر، پس از استخراج و پالایش در انبار داده بارگذاری شود.

پس از بارگذاری داده ها نوبت به استفاده از اطلاعات ذخیره شده در انبار داده ها است. این کار توسط ابزارهای گزارش گیری (Reporting Services)، داده کاوی و OLAP انجام می‌شود.

انبار داده,انبار داده ها,انباره داده,مراحل بارگذاری داده در انبار داده

مرکز داده ها یا Data Mart: انبار داده ها حجم عظیمی از اطلاعات را در واحد های منطقی کوچکتری به نام مرکز داده نگهداری می کند مرکز داده ها نمونه های کوچکی از انبار داده ها بوده و همانند آنها حاوی کپی هایی ثابت از داده هایی هستند که در موارد خاص استفاده می شوند.

 

 

دیدگاه خود را بنویسید: