انبار داده

انبار داده

یک انبار داده، داده هاي دلخواه را از يك يا چند منبع جمع آوري كرده و آنها را به موضوعاتي با گروه هاي اطلاعاتي تبديل مي كند، سپس آنها را به همراه اطلاعات زمان و تاريخ براي پشتيباني بهتر از تصميم گيريها ذخيره مي كند،

تعاريف انبار داده

مجموعه اي از داده هاي موضوع گرا، مجتمع، غيرفرار و وابسته به زمان كه براي پشتيباني از تصميم گيري ها ي مديريتي مورد استفاده قرار مي گيرد.
• نسخه اي از داد ه ها ي چند پايگاه داده، كه به منظور تسهيل پردازش و پرس و جو هاي كاربران طراحي شده است.
• يك انبار داده، داده هاي دلخواه را از يك يا چند منبع جمع آوري كرده و آنها را به موضوعاتي با و گروه هاي اطلاعاتي تبديل مي كند، سپس آنها را به همراه اطلاعات زمان و تاريخ براي پشتيباني بهتر از تصميم گير يها ذخيره مي كند، اين سيستمها ، ديدهاي متعددي از اطلاعات براي طيفها ي مختلف كاربران فراهم مي كند، قدرت اين مفهوم در آن است كه به كاربران اجازه تحليلها و پرس و جوهاي گوناگون بر روي داد ه ها يي مي دهد كه قبل از آن هيچ ارتباطي با هم نداشتند.
• جمع آوري ، پاكسازي انتقال داده از سيستمهاي عملياتي متعدد و آماده كردن اطلاعات حاصل براي تحليل
و گزارش گيري كاربران نهايي ، انبار داري داده ها ٢ ناميده مي شود.
• انبار داده پايگاه داده بزرگي است كه براي پاسخگويي به سوالات، ايجاد شده است.متناسب با انبار ، سوالات مذكور هم با هم فرق مي كنند.انبار مي تواند در اندازه ها ي بزرگ (در حدود گيگابايت) يا كوچكتر باشد.كاربران انبار ممكن است كاركنان داخلي ، افراد ناشناس شبكه ها و يا هر دو باشند.
• انبار داده يك پايگاه داده موضوع گرا است كه به منظور دسترسي ها ي گسترده طراحي شده است. و ابزارهايي براي برآوردن نيازهاي اطلاعاتي مديران در همه سطوح سازمان آماده مي كند ، به بيان ديگر يك
انبار داده به صورتي طراحي مي شود كه كاربران اطلاعات مورد نياز خود را شناسايي كنند و بتوانند با استفاده از ابزارهاي ساده اي به آن ها دسترسي داشته باشند.
• يك انبار داده مخزني از اطلاعات مجتمع شده است كه براي انجام پرس و جو و تحليلها آماده مي شود.

چهار خصوصيت اصلي انبار داده

چهار خصوصيت اصلي انبار داده  عبارتند از :
• موضو ع گر ا: هر انبار داده داده هاي مرتبط با يک موضوع خاص را در خود نگاه مي دارد و اين داده ها را به منظور استخراج مفاهيم و نتايج خاصي به شكلي ويژه سازماندهي مي کند. بدين ترتيب سرعت جستجوها بسيار بالا خواهد بود. انبار داده براي پاسخگويي به پرسشهاي مختلف در مورد يک موضوع خاص بهينه سازي مي شود.
• مجتمع : در سيستمهاي مختلف داده ها ممکن است از جنبه هاي مختلفي با هم نامتناسب باشند. مثلا منابع داده در کشورهاي مختلف با زمان و تاريخهاي مختلف ذخيره شد هاند. و يا منابعي که از ماشين هاي مختلف هستند در اعداد، حروف و ديگر فيلدها متناسب با محدوديتهاي ماشين، سيستم عامل و تطابق با استانداردهاي مختلف متفاوت هستند. با توجه به مختلف بودن منابع انبا رداده، قبل از ذخيره سازي آ نها در انبار داده براي تأمين يکپارچگي تکنيکهاي پاکسازي داد هها ٣ و مجتمع سازي به کار ميرود. با توجه به اين موضوع که داد ه ها زير نظر مديريت واحدي ذخيره سازي مي شوند، داد ه هاي سازگاري خواهيم داشت که داشتن
چنين سازگاري در ساير سيستم ها مثل سيستمهاي شبکه اي و توزيعي ناممکن است.
•  متغير با زمان: داد ه ها در انبا رداده براي تهيه اطلاعات تاريخي به کار مي روند.
هر ساختار کليدي در انبار داده شامل عنصر زمان يا همان مهر زماني است اين مهر زماني به عنوان کليدي به ساير جداول عمل مي کند. در سيستم انبار داده داده ها هرگز به روز درآوري نميشوند. بلكه داد ه هاي جديد و يا تغيير يافته با مهرهاي زماني جديد به انبار اضافهمي شوند.
• غير فرار: داد ه هاي انبا رداده هميشه از لحاظ فيزيكي مجزا هستند ، و هيچگاه نيازي به تغيير و به روز
درآوري نخواهند داشت. با توجه به اين موضوع، انبار داده مثل پايگاه داد ه هاي معمولي احتياجي به پردازش تراکنش، بازگرداندن فرايند و مکانيزم کنترل تصادم ندارد. علاوه بر اين نيازي به ايجاد و دسترسي انحصاري به داد ه ها نخواهيم داشت. فقط به دو فعاليت کليدي احتياج داريم :
•    بارکردن داد ه ها
•    دسترسي به داده ها

تفاوت انبار داده و پايگاه داده

وظيفه اصلي سيستم هاي پايگاه داده online ،پشتيباني از تراکنش هاي onlineو پردازش query  است. ولي  انبا رداده به کاربران يا تحليلگر داده و تصميم گير نده داده  ارائه مي کند. چنين سيستمهايي مي توانند داده را در قالبهاي مختلف براي هماهنگ کردن نيازهاي مختلف کاربران مختلف، سازماندهي و ارائه مي کند. اين سيستمها با نام سيستم هاي OLAP شناخته مي شوند.

موارد تفاوت DW  و DB
• از لحاظ مد لهاي داده: پايگا ههاي داده براي مدل OLTPامکان پردازش تعداد زيادي تراکنش همروند، که اغلب حاوي رکور دهاي اندکي هستند را دارد . اما انبارهاي داده براي پردازش OLAP طراحي شده اند
• از لحاظ عمليات قابل اجرا بر روي آن ها: عملياتي که بر روي پايگاه دا ده ها صورت مي گيرد، عمومٌا شامل عمليات به هنگام سازي است در حالي که عمل خواندن از انبار، عمده عمليات قابل اجرا بر روي انبارداده را تشکيل مي دهد.
• از لحاظ مقدار داده:  مقدار داد ه هاي يک پايگاه داده در حدود چند مگابايت تا چند گيگابايت است در حالي که اين مقدار در انبار داده در حدود چند گيگابايت تا چند ترابايت است.
• از لحاظ زمان پرس و جو : انبار داده با استفاده از دو تکنيک خلاصه سازي و سلسله مراتبي کردن فيلدها سرعت انجام پرس وجو را بهبود بخشيده است.
فيلدهاي خلاصه سازي: مي توان تمام داده هاي مشابه را دريک آرايه و يک رديف ، و نه در يک جدول قرار داد. به اين ترتيب، داد ه هاي مشابه به سرعت مي توانند خلاصه سازي شوند. اصو ًلا ساختار بعد اين امکان را فراهم کرد ه است که داد ه ها را بدون تکرار ذخيره نماييم و هر گاه به مشاهده آنها در کنار هم احتياج داشتيم نيز بدون صرف حافظه و زمان قابل توجهي اين امر ميسر باشد. فيلدهاي سلسله مراتبي: ساختار سلسله مراتبي ابعاد در انبار داد ه هاي مبتني بر مدل داده چند بعدي، پياده سازي شده است و اين امکان را فراهم آورده است که فيلدها بر اساس يک سلسله مراتب منطقي سازماندهي شوند. اين امر سرعت پرس و جوها را در انبار بسيار افزايش مي دهد.

معماريهاي انبار داده :

در ادامه سه نوع معماري را برسي مي کنيم معماري نوع اول دولايه و دو معماري ديگر سه لايه اند .

معماري دولايه:
شمايي از اين معماري در شکل ۱  نشان داده است . اين معماري از ۴ مرحله تشکيل شده است .
۱-    داده ها از فايلها ي و بانکهاي اطلاعاتي مختلف گرفته مي شوند .
۲-    داده هاي منابع مختلف قبل از لود شودن يکپارچه مي شوند.
۳-    Data ware house بوجود مي آيد که شامل داده هاي جرئي و نيز خلا صه داده هاست. هدف از آن پشتيباني از فر آيند تصميم گيري است . Data ware house استفاده مي کنند.
۴-    کاربران با استفاده از ابزارها و پرس و جوها و  data mining از داده هاي data ware house استفاده مي کنند.
براي شرکتهاي بزرگ بامنابع ناهمگون اين روش با شکل مواجه مي شود همچنين اين معماري از توزيع پشتيباني بعمل نمي آورد لذا معماري ديگري بنام معماري سه لايه توسط دولين پشنهاد شد .

شکل ۱ : معماري دولايه

معماري سه لايه دولين :
اين معماري داراي  لايه هاي زير مي باشد :
۱-    سيستمهاي عملياتي و داده ها
۲-    enterprise data marehouse
۳-    Data mart ها.
يک  enterprise data marehouse  (EDW ) يک انبار داده متمرکز و يکپارچه است که نقطه کنترل و تنها منبع همه داده هايي که براي کاربران نهايي به منظور تصميم گيري قابل دسترسي اند ،به شمار مي رود .بعنوان نقطه کنترل کيفيت و يکپارچگي داده ها را کنترل مي کند و نيز تاريخچه اي از داده هاي حساس به زمان نگه مي دارد.
کاربران دوست ندارند با حجم  زيادي اطلاعات که بخش اعظم آن بايستي از آنها ارتباطي ندارند درگير شوند Data mart ، يک data Wrehouse  است که دامنه آن محدود نشده است و با انتخاب و خلاصه کردن دادهها از EDW بوجود مي آيد هر   Data mart  براي گروه خاصي از تقاضا ها طراحي شده است . EDW و mart Data به شرکت اجازه مي دهد تا داده هايي که از تصميم گيري پشتيباني بعمل مي آورند را براي گروههاي مختلف کاربران customize کند لذا مي توان از فوايد پردازش توزيع شده استفاده بعمل آورد. تبديل منابع داده ناهمگون به قالبي که براي تصميم گيري مناسبي باشد  داراي پيچدگي زيادي مي باشد.

شکل ۲ : معماري سه لايه دولين

نوع ديگري از معماري سه لايه:
اين معماري در شکل ۳ داده شده است داده هايي که در EDW ذخيره مي شوند داده هاي مورد توافق (Reconciled ) هستند . داده هاي مشتق شده ( Derived data ) داده هايي هستند که براي نياز هاي کاربران گزينش و قالب بندي و پکپارچه شده اند اين نوع داده ها در Data mart ها ذخيره مي شوند . داده ها معمولاً مستقيماً توسط کاربران نهاي مورد دسترسي قرار نمي گيرند Enterprise data model نيازهاي داده اي يک شرکت را مشخص مي کند .
Ceperationl Meta data داده هاي سيستمها ي عملياتي مختلف را توصيف مي کند که وارد EDW مي شوند داده هاي عملياتي معمولاً قالب بندي و مشخصه هاي مختلفي دارند.
Meta data EDW: از داده هاي EDW ساخته مي شود و لايه مورد توافق و نيز قوانين ترجمه داده هاي عملياتي به داده هاي مورد توافق را شرح مي دهد.
Data mart mata data: لايه مشتق نشده و نيز قوانين ترجمه داده هاي مورد توافق به داده هاي مشتق شده را بيان مي کند.
برخي از مشخصات لايه داده هاي مورد توافق عبارتند از :
۱-    جزئي نشده : داده ها  حدکثر انعطاف پذ يري را در مقابل انواع مختلف نياز هاي کاربران دادند .
۲-    تاريخي : داده ها  به صورت periodil  هستند نه Transient ..
۳-  نرمال نشده :داده ها تا فرم سوم نرمال جلو رفته انداين امر يکپارچگي و انعطاف پذيري بيشتري را فراهم مي کند . نرمال سازي براي افزايش کارايي لازم نيست چون معمولاً به صورت تناوبي و دسته اي مورد دسترسي قرار مي گيرند.
۴-   جامع.
۵-   باکيفيت:
در مقابل داده هاي عملياتي داراي اين مشخصات هستند:
۱-    بجاي اينکه تاريخي باشند موقت اند.
۲-    نرمال نشده اند يا لااقل بخاطر مسائل کارآيي نرمال سازي نشده اند.
۳-    جامع نيستند بلکه در محدوده يک استفاده خاص اند.
۴-    کيفيت بالايي ندارند. و داراي خطا و عدم همخواني مي باشند.

شکل ۳ : نوع ديگري از معماري سه لايه

تبديل داده هاي عملياتي به داده هاي مورد توافق توسط فرآيند تطبيق صورت مي گيرد اين فرآيند دو مرحله دارد: لود اوليه و بهنگام سازيهاي بعدي . اين مراحل از ۴ قدم تشکيل شده اند که برخي از آنها ممکن است با هم ادغام شوند. اين ۴ قدم عبارتند از : capture  (گرفتن )، scrub  (پاک سازي)، Transform (تغيير شکل) و load and index (بارگذاري و ايندکس).
: Capture عبارتست از استخراج داده ها از فايلها و بانکهاي مبدا. معمولا همه داده هاي عملياتي مورد نياز نيستند. انتخاب اين زير مجموعه بر اساس تحليل مبدأ و مقصد صورت مي گيرد. دو نوع اصلي گرفتن انتخاب استاتيک و افزايشي مي باشند. استاتيک براي پر کردن EDW  در اولين بار به کار مي رود و براي نگهداري  EDW  از افزايشي مي شود. براي گرفتن مي توان از فايل کارنامه بانک استفاده کرد.
: scrub عبارتست از افزايش کيفيت داده هاي مبدأ. براي اين امر از تکنيکهايي از قبيل تطبيق الگو استفاده مي شود از اين عمل با نام data cleansing نيز ياد مي شود.
Load and index: عبارتست از بار کردن داده هاي انتخاب شده در EDW  و ايجاد ايندکسهاي مورد نياز. دو مد اصلي لود کردنrefresh   وupdate  مي باشند. در مد refresh درابتدا EDW  پر مي شود و سپس در فواصل زماني مناسب محتواي EDW  با مقادير جديد جايگزين مي شود. در مد update تنها تغييرات داده هاي مبدأ به EDW  منتقل مي گردد و رکوردهاي قبلي حذف يا جايگزين نمي شوند. مد refresh در هنگام ايجاد data warehouse و سپس از مدل update استفاده مي شود . ايندکسي که در data warehouse استفاده مي شود bitmap نام دارد.
DataTransformution: عبارتست از تبديل فرمت داده هاي عملياتي به فرمت EDW (بعد از اعمال capture  ) هدف capture   کردن تصحيح خطاها در مقادير داده هاست در حاليکه هدف از Transformution تبديل داده ها به فرمت EDW است.
توابع Transformution به دو دسته اصلي در سطح رکورد و فيلد تقسيم مي شوند. که اغلب ترکيبي از اين دو روش استفاده مي شود.
    توابع در سطح رکورد: عملياتي که روي يک مجموعه از رکوردها از قبيل فايل يا جدول انجام مي گيرند در سطح رکورد بشمار مي روند. توابعي از قبيل selection  و join و aggregation و normalization .
selection  عبارتست از تقسيم داده ها بر اساس شرايط از پيش تعريف شده. اين عمل در حقيقت بخشي از selection   مي باشد. Join داده هاي منابع مختلف را تحت يک جدول يا ديد ترکيب مي کند. در برخي موارد همه منابع داده بانک رابطه اي نيستند که بتوان از عبارات SQL استفاده کرد در اين موارد بايد از زبانهاي برنامه نويسي رويداي استفاده کرد. حتي در مورد داده هاي رابطه اي کليد جداولي که بايد با هم Join شوند داراي دامنه هاي متفاوتي هستند لذا قبل از اجراي Join بايد در مورد يک دامنه واحد به توافق رسيد. Aggregation فرآيند تبديل داده ها از سطح جزئي تر به سطح خلاصه شده تر است.
    توابع در سطح فيلد: داده ها را از يک فرمت در يک رکورد داده مبدأ به يک فرمت ديگر در رکورد داده مقصد تبديل مي کند. اين گونه توابع بر دو دسته اند: تک فيلدي و چند فيلدي.
انتقال تک فيلدي داده ها يک فيلد خاص از مبدأ  را به يک فيلد خاص از مقصد تبديل مي کند. مثالي از اين نوع تبديل، تبديل واحد حرارت از فارنهايت به سانتيگراد است. براي اين نوع تبديل از مکانيسم الگوريتمي يا مکانيسم جدول look up استفاده مي شود. روش الگوريتمي از يک فرمول يا يک فرمول يا يک عبارت منطقي استفاده مي کند در حاليکه مکانيسم جدول look up از روشهاي جستجو استفاده مي کند. تبديل چند فيلدي داده ها را از يک يا چند فيلد مبدأ به يک يا چند فيلد مقصد تبديل مي کند. انواع مختلف اين نوع تبديل عبارتند از يک به چند، چند به چند و چند به يک.

ابزارهاي توليد داده هاي مورد  توافق:
اين نوع ابزارها به  سه دسته تقسيم مي شوند : ابزارهايي که کيفيت داده ها را کنترل مي کنند و داده هاي با کيفيت توليد مي کنند ) ، ابزارهايي که عمل تبديل داده را انجام مي دهند و ابزارهايي که عمل پاکسازي داده را انجام مي دهند .
ابزارهاي  کنترل کيفيت :
اين ابزارها کيفيت داده ها در سيستمها ي موجود را تعيين مي کنند و آن را با نيازمنديهاي  data warehouse مي سنجد . لذا در حين اولين مرحله توليد data warehouse به درد مي خورند يکي از اين ابزارها  Analyze نام دارد اين ابزار  کيفيت داده ها را مي سنجد و توصيه هايي براي پاک سازي و سازماندهي داده ها قبل از استخراج و تبديل مي دهد ابزار ديگر  WizRules نام دارد که همه رکورد ها و بر جداول موجود را جستجو مي کند و قوانين بنا شده را ارضا مي کنند را مشخص مي کند ابزارهاي تبديل داده : اين نوع ابزارها معمولاً سه کار اصلي انجام مي دهند : استخراج ، تبديل و بارگذاري و ايند کس . اين ابزار ها معمولا ابزارهاي توليد برنامه اند . آنها بعنوان ورودي يک شما يا يک فايل توصيف گر از فايلهاي مبداء و مقصد ونيز قوانين تبديل را ه دريافت مي کنند . قوانين تبديل معمولاً به صورت فرمول ، الگوريتم و يا جداول  Lock up هستند سپس اين ابزارها کد لازم براي اجراي عمل تبديل را توليد مي کنند .
ابزارهاي پاک سازي داده ها:
اين نوع ابزارها ( مثلاً Integrity ) کيفيت داده ها را تحليل مي کنند و داده ها را پاک سازي مي کنند و قوانين و ارتباطات بين پديده ها را کشف مي کنند .
لايه داده هاي مشتق شده :
داده هاي مشتق شده معمولاً براي نياز هاي يک دسته خاص از کاربران تنظيم شده اند . يک عمل رايج اين است که داده هاي مربوط را از EDW روزانه استخراج کنيم و آنها را به صورتي که مورد نياز است قالب بندي و يکپارچه کنيم و سپس آنها را در data mart لود کنيم و در انتها اين داده ها را ايندکس گذاري کنيم . اهداف و فوايد اصلي data mart عبارتند از :
۱-    فراهم ساختن استفاده آسان براي برنامه هاي تصميم گيري .
۲-    فراهم سازي زمان پاسخ کم براي پرس و جو هاي کاربران .
۳-    د سته بندي داده ها به گروهاي خاص.
۴-    پشتيباني از پرس و جو هاي تصادفي و برنامه هاي  data mining .
براي محقق ساختن اين اهداف بايد مشخصات زير در data mart موجود باشند.:
۱-    هم داده هاي جرئي شده و هم داده هاي خلاصه شده بايد موجود باشند . داده هاي جرئي شده معمولاً يک تاريخچه بوجود مي آورند ولي داه هاي خلاصه نشده براي پاسخ  سريع به پرس و جوهاي رايج و مشخص به کار مي رود .
۲-    داده ها روي سرورهاي مختلف پخش شوند .
۳-    جدول داده ترجيحاً به صورت شماي ستاره اي باشد.

data mart مستقل وابسته :
data mart وابسته تنها از EDW و لايه مورد نياز توافق پر مي شود. ولي data mart ي مستقل از داده هايي که از محيط عملياتي به دست آمده اند پر مي شود ، بدون استفاده از لايه مورد توافق . مشکلات data mart ها مستقل عبارتند از:
۱-    هيچ تضميني وجود ندارد که داده هايt data mar ها  از لحاظ مفهومي يکپارچه باشند چون هر يک مستقلاً پر مي شود.
۲-    هيچ روشي براي بدست آوردن جرئيات بيشتر از EDW وجود ندارد .
۳-    افزونگي داده زياد مي شود چون داده هاي يکسان در data mart مختلف ذخيره مي شوند.
۴-    ايجاد  data martي مستقل نياز به Jonهاي  cross – plat form دارد که سخت است.
کاربران مختلف از لحاظ دقت داده هاي  data mart نيازهاي مختلفي دارند .

نقش meta data :
اولين اصل براي اينکه واسطه کاربري محصولي خوب باشد اين است که meta data يي وجود داشته باشد که داده هاي data mart را به صورت قابل فهم براي کاربر توضيح دهد meta data بايد به اين سوال بتواند جواب دهد .
۱-    چه موضوعاتي از data mart توضيح داده شده اند؟
۲-    چه حقيقتها و بعد هايي درdata mart موجود ند؟
۳-    داده هاي   data  mart چگونه از EDW مشتق شده اند و چه قوانيني به کار رفته است؟
۴-    داده هاي EDW چگونه از سيستمها ي عملياتي مشتق شده اند و چه قوانيني به کار رفته است؟
۵-    پرس و جو هاي از پيش تعريف شده کدامند؟
چه کسي سوول کيفيت داده ها ست؟

OLAP
OALP  پاسخي جديد به مشكلات سيستم هاي حمايت از تصميم گيري است.  تکنولوژي OLAP تکنولوژي ابزارها و مفاهيمي را ارائه مي کند که به وسيله آنها امکان انجام يک تحليل موثر و دلخواه بر روي داده ها فراهم مي گردد. OLAP يک تکنيک ساده نيست بلكه مجموعه اي از مفاهيمي از قبيل سازمان پايگاه داده، نمايش داده و مدل کردن query است.
تکنولوژي OLAP نامي است که به طيف گسترد ه اي از تکنيکها اطلاق مي شود. اين تکنيکها شامل
روشهايي براي مرتب کردن، پرس و جو کردن و تحليل کردن داد ه ها است. همچنين شامل قالب هاي را در قالب عبارت زير OLAP گزار شگيري و رابط کاربر هم هستند. به طور کلي OLAP عبارتست از: “تحليل سريع اطلاعات چند بعدي اشتراکي”
تحليل: منظور از تحليل آن است که سيستم بايد بتواند از عهده هر تحليل منطقي و آماري که مورد نياز کاربر باشد، برآيد. تحليل ممکن است شامل تحليل سر ي هاي زماني، تخصيص هزينه، تبديل واحد پول، جستجوي هدف، query هاي مخصوص ساختارهاي چند بعدي، تشخيص استثنا، داده کاوي وساير کاربردها باشد. انجام همه اين تحليل ها بايد براي کاربر نهايي به اندازه کافي ساده باشند.
سريع: منظور از سرعت آن است که سيستم بايد بيشتر پاسخ خود را در زمان معقولي به کاربر بازگرداند.
تحقيقات اخير نشان داد هاست که اگر کاربر نهايي ظرف ٣٠ ثانيه پاسخي دريافت نکند، تصور مي کند که
فرايند دچار شکست شده است. رسيدن به اين معيا ر)يعني زمان پاسخ کمتر از ٣٠ ثانيه( هنگامي که با حجم زيادي از اطلاعات سروکار داريم کار ساده اي نيست. بخصوص وقتي نياز به query هاي پيچيده و مستقل داريم. OLAP چندين راهکار براي رسيدن به اين سرعت ارائه نموده است، که روش هايي مثل اختصاصي کردن نوع ذخيره سازي داده، شاخص بندي، از پيش محاسبه کردن تجميع ها و سخت افزارهاي ويژه از آن دسته روش ها هستند.
OLAP  چند بعدي است. سيستم بايد يک شماي مفهومي چند بعدي از داده ها را مهيا نمايد،: يک نياز اساسي که شامل مفاهيم سلسله مراتبي هم باشد. همچنين بايد قابليت داشتن تعداد دلخواه بعد و سطح تجميع را فراهم کند.
اشتراکي: منظور اين است که سيستم همه نيازمند يهاي امنيتي را براي محرمانه ماندن داده ها و براي دسترسي هاي چندگانه خواندن/نوشتن پياد ه سازي کند. به خصوص محرمانه ماندن مقوله مشكلي است. براي تحليل مناسب پايگاه داده هاي مربوط به OLAP بايد شامل هر مقدار داده که ممکن است باشند. براي محدود کردن دسترسي به داد ه هاي محرمانه، بايد يک مراقبت خاص براي دسترسي هاي درست و سطوح دسترسي تعريف شود.

مدلهاي داده هاي رابطه اي و چند بعدي

مدل داده رابطه اي بر اساس دو مفهوم اساسي موجوديت و رابطه بنا نهاده شده است .
مدل داده چندبعدي  MD بر پايه دو ساختار جدولي اصلي بنا نهاده شده است
•    جدول حقايق Fact Table
•    جداول ابعاد  Dimension Table
جدول حقايق: قلب حجم داد ه اي ما را تشکيل مي دهد و شامل دو سري فيلد است: کليدهاي خارجي به ابعاد و شاخص ها جداول حقايق را مي توان به عنوان تابعي از ابعاد بر روي شاخص ها تصور کرد.
: Measure معيارهايي هستند که بر روي آن ها تحليل انجام مي گيرد و درون جدول حقايق يا شاخصها قرار دارند. شاخصها قبل از شکل گيري انبار داده توسط مديران و تحليل گران به دقت مشخص مي شوند. چون در مرحله کار با انبار اطلاعات اساسي هر تحليل بر اساس همين شاخص ها شکل مي گيرد. شاخص ها تقريبًا هميشه مقادير عددي را شامل مي شوند. مثلا براي يک فروشگاه زنجيره اي اين شاخصها مي توانند واحدهاي فروخته شده کالاها و مبلغ فروش به تومان باشند.   Grainيک جدول حقيقت طول زمان (يا ساير مفاهيم) مرتبط با هر رکورد در جدول است. انتخاب  Grain بستگي به ميزان جرئياتي دارد که کاربران به هنگام جستجو نياز دارند . Grain ي يک جدول حقيقت اثر مستقيمي روي اندازه جدول دارد تعداد رديفهاي جدول حقيقت را مي توان با تخمين مقادير ممکن هر بعد مرتبط با جدول حقيقت و ضرب آنها در هم ، حدس زد Grain روي مقادير ممکن بعضي از ابعاد مي توان اثر بگذارد.
: Dimension هر موجوديت در اين مدل مي تواند با يک بعد تعريف شود. ولي بعدها با موجوديتهاي مدل ER متفاوتند زيرا آ نها سازمان شاخصها يا بعد را تعيين مي کنند. علاوه بر اين داراي يک
ساختار سلسله مراتبي هستند . اجزاي بعدها member  ، نام دارند و تقريبٌا همه بعدها member هاي خود را در يک يا چند سطح سلسله مراتبي سازما ندهي مي نمايند که اين سلسله مراتب نمايانگر مسير تجميع و ارتباط بين سطوح پايين و سطوح بالاتر است. وقتي يک دسته از member هاي خاص با هم مفهوم جديدي را ايجاد مي کنند، به آنها يک سطح مي گوييم .
اما لازم به ذکر است که ممکن است همه ابعاد داراي ساختار سلسله مراتبي نباشند. بلكه برخي ابعاد به صورت فهرستي از مقادير مي باشند. براي مثال بعد جنسيت داراي دو نوع داده زن و مرد است که هيچ ساختار سلسله مراتبي براي آنها متصور نيست.

شماهاي داده اي
: Star Schema متداول ترين شما، شماي ستاره اي است. که در آن انبار داده با  شماي ستاره اي با
استفاده از اجزاي زير تعريف مي شود:
١ يک جدول مرکزي بزرگ به نام جدول حقايق که شامل حجم زيادي از داده هاي بدون تکرار است.
٢ مجموع هاي از جدو لهاي کمکي کوچکتر به نام جدول بعد ، که به ازاي هر بعد يکي از اين جداول موجود خواهد بود.
٣ شکل اين شما به صورت يک ستاره است که جدول حقايق در مرکز آن قرار گرفته و هر يک از جداول بعد به وسيله شعاع هايي به آن مربوط هستند. مشكل اين مدل احتمال پيشامد افزونگي  در آن است.
: Snowflake Schema يا شماي دانه برفي. در واقع شماي دانه برفي، نوعي از شماي ستار ه اي است که در آن بعضي از جداول بعد نرمال شده اند. و به همين خاطر داراي تقسيمات بيشتري به شکل جداول اضافي مي باشد که از جداول بعد جدا شده اند.
تفاوت اين دو شما در اين است که جداول شماي دانه برف نرمال هستند و افزونگي در آن ها کاهش يافته
است. که اين براي کار کردن با داد ه ها و از لحاظ فضاي ذخير ه سازي مفيد است. ولي در عوض کارايي را پايين مي آورد، زيرا در محاسبه query ها به join هاي بيشتري نياز داريم.
: Fact Constellations در کاربر د هاي پيچيده براي به اشتراک گذاشتن ابعاد نياز به جداول حقايق چندگانه احساس مي شود که يک يا چند جدول بعد را در بين خود به اشتراک مي گذارند. اين نوع شما به صورت مجموعه اي از شماهاي ستار ه اي است و به همين دليل شماي کهکشان يا شماي منظومه اي
ناميد ه مي شود. اين شما به ما اين امکان را مي دهد که جداول بعد بين جداول حقايق مختلف به اشتراک گذاشته شوند.
در بسياري از موارد شماي ستاره اي و شماي دانه برفي براي data mart مورد استفاده قرار مي گيرند ولي fact constellations براي کل يک انبار داده به کار مي آيد.

ملاحظات مربوط به طراحي پايگاه داده انبار
در طراحي جدول هاي مربوط به انبار بايد اصول مدل داده چند بعدي در نظر گرفته شود.
نخست بايست با توجه به ليست تحليلها شاخص هاي data mart رامشخص کرد. توجه به اين نکته ضروري است که با توجه به ابزاري که data mart با آن طراحي خوا هد شد ، کافي است شاخص هايي لحاظ شوند که امکان محاسبه کردن و يا افزودن آ نها به شاخص ها در هنگام کار با data mart فراهم نيست .

انتقال اطلاعات به جدولهاي طراحي شده
پس از ساختن data mart  اکنون زمان آن است که داده هاي پايگاه داده منبع در جدولهاي جديد جايگزين شوند.
ابتدا جداول ابعاد که احتمالا با تغييرات کمي درساختار جديد قرار گرفته اند، با در نظر گرفتن تغييرات احتمالي نا مها و ساختارها ، با نوشتن اسکريپت هاي مناسب جايگزين مي گردند. در مرحله بعد کليدهاي خارجي جدول حقايق با پيوند زدن جداول بعد و انتخاب کليدهاي آن ها پر مي شود. در آخر نوبت به پر کردن شاخص ها مي رسد. در اين مرحله همانطور که پيشتر هم به آن اشاره شد، با توجه به امکانات ابزار پياد ه سازي اسکريپت هاي لازم جهت پرکردن اوليه شاخص ها نوشته و اجرا خواهد شد.

ساخت حجم هاي داده اي در AM
ساخت حجم هاي داده اي با استفاده از ابزار Microsoft Analysis Manager بسيار ساده است. روال کار بدين نحو است که ابتدا با استفاده از ويزاردهاي از پيش تعريف شده، يک منبع داده را انتخاب مي کنيم. منبع داده در واقع پايگاه داده اي است که ما آن را با ملاحظات خاصي با مدل چند بعدي و براي انبار داده ساخته ايم. درواقع در اين مرحله به AM اطلاع مي دهيم مايل هستيم داد ه هاي ما را از روي پايگاه داده مذکور بار کند.  در گام بعدي درAM  ويزارد ديگري را که مربوط به ساخت حجم هاي داد ه اي است را فعال مي کنيم تا از ما درباره اين که کدام جدول مربوط به جدول حقايق است؛ کدام فيلدهاي آن شاخص هستند ، کدام جداول را ميخواهيم به عنوان جدول بعد تعريف کنيم و نهايتًا اينکه آيا ساختار جدول بعد ما از نوع شماي ستاره اي است يا دانه برفي ، سوال کرده وحجم داده اي مورد نظر ما را ايجاد کند.

عمليات بر روي حجم هاي داده اي
Roll Up يا Drill-up با بالا رفتن در ساختار سلسله مراتبي مفهومي يک حجم داده اي ، با کاهش دادن بعد، يک مجموعه با جزئيات کمتر)خلاصه شده(  ايجاد مي نمايد. بالا رفتن در ساختار سلسله مراتبي به معناي حذف قسمتي از جزئيات است. براي مثال اگر قبلا بعد مکان بر حسب شهر بوده آن را با بالا رفتن در ساختار سلسله مراتبي بر حسب کشور درمي آوريم. ولي وقتي با کاهش دادن بعد سروکار داريم منظور حذف يکي از ابعاد و جايگزين کردن مقادير کل است. در واقع همان عمل تجميع است.
:  Drill Down بر عکس عمل Roll-up است و از موقعيتي با جزئيات داد ه اي کم به جزئيات زياد مي رود. اين کار با پايين آمدن در ساختار سلسله مراتبي) به سمت جزئيات بيشتر(يا با ايجاد ابعاد اضافي انجام مي گيرد.
: Slice با انتخاب و اعمال شرط بر روي يکي از ابعاد يک subcube به شکل يک برش دو بعدي ايجاد مي کند. در واقع همان عمل انتخاب است.
Dice با انتخاب قسمتي از ساختار سلسله مراتبي بر روي دو يا چند بعد يک  subcubeايجاد مي نمايد.
Pivot يا rotate اين عمليات بردارهاي بعد را در ظاهر مي چرخاند
: Drill-across نتيجه اجراي query هايي که نتيجه اجراي آنها حجم هاي داده اي مرکب با بيش از يک fact-table است.
Ranking سلو لهايي را باز مي گرداند که در بالا يا پايين شرط خاصي واقع هستند. مثلا ده  محصولي که بهترين فروش را داشته اند.

دیدگاه خود را بنویسید: