(انباره داده)Data warehouse

استاد درس ذخیره پروژه ای در رابطه با Data warehouse رو مطرح کرده خواستم دوستان هم آشنایی مختصری با این موضوع پیدا کنند پس یه تعریف خلاصه ازش ارائه میدم.

مقدمه

انباره های داده پایه گذار فن آوری لازم برای ساخت و بهره برداری از برنامه های هوشمندی هستند که بعضا در برخی فیلم های تخیلی با آنها آشنا شده ایم. برنامه هایی که اطلاعات را برای صاحبان خود جمع آوری نموده و پس از تجزیه و تحلیل با آنها به مشاوره می پردازند.

تاريخچه: Datawarehouse

“بعد از رشد استفاده از TPS ها به عنوان سيستمهاي پرداش تراکنش در بخش هاي عملياتي سازمان، نياز جدي به سيستمهاي اطلاعاتي که بتوانند عمليات گزارش گيري را علي الخصوص در رده گزارشهاي مديريتي ساماندهي کنند احساس مي شد. علي الخصوص بوجود آمدن جزاير فنآوري، سيستمهايي که به صورت جدا از هم فعاليت مي کرد و امکان تهيه گزارشات ترکيبي از اطلاعات سيستمهاي مختلف و انجام پرس و جو ها را مشکل و يا غير ممکن مي نمود. بنابراين حرکت به سمت سيستمهاي اطلاعات مديريت (Management Information System) و بويژه سيستمهاي گزارشگيري مديريتي (MRS:Management Reporting System) آغاز شد. اما مشکل آنجا بود که اين سيستمها به شدت به TPS ها وابسته بودند و داده هاشان اغلب يکي بود. اين باعث مي شد که تغيير يکي باعث انتشار تغييرات در همه سيستمها شود. از سوي ديگر ساختار داده اي مشابه، امکان تهيه گزارشات زماني و موضوعي را مشکل مي ساخت. اين شد که مدل جديدي از تفکر به نام انباره داده ها ايجاد شد.”

تعريف: Datawarehouse

– تعريف Ralhp Kimball از انباره داده : يک DW نسخه اي از داده هاي تراکنشي است که به صورت اختصاصي براي پرس و جو ها و گزارش گيري ،سازمان دهي شده است.

A data warehouse is a copy of transaction data specifically structured for querying and reporting.

گرچند به اين تعريف دو ايراد وارد است:که اولاً گاهي داده هايي که در يک DW ذخيره مي شوند ،غيرتراکنشي هستند . اگرچه معمولاً 95 تا 99 درصد داده ها تراکنشي هستند . ثانياً خروجي اصلي سيستم هاي DW ، ليست گيري هاي فهرست وار (queries) در حجم کم و يا گزارش هاي اداري در حجم زياد هستند.

– تكنولوژي انبار داده‌ها شامل مجموعه‌ای مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات به پشتيباني از تصميم گیری می پردازد . دليل اصلي ساخت انبار داده ها، بهبود كيفيت اطلاعات در سازمان است. در واقع داده‌ها از درون سازمان و از منابع داخلي و خارجي تهيه مي‌شوند و به اشكال گوناگون از داده‌های ساختاریافته گرفته تا داده‌های بدون ساختارمانند فايل‌هاي متني يا چند رسانه‌ای، در مخزني مجتمع مي‌شوند. انبار داده‌ها يا DWH این مخزن داده‌هاست كه به صورتي قابل درك در دسترس كاربران نهايي كسب و كار قرار مي‌گيرد.

– اگر تعاريف زير برقرار باشد:

داده : حقيقت قابل مشاهده ، فايل ضبط

اطلاع : مجموعه سازماندهي شده از حقيقت ها ؛ داده هاي با ارتباط و هدف

سيستم عملياتي : محيطي از داده ها و برنامه هاي لازم براي ادامه فعاليتهاي يک سازمان

انبار داده ي اطلاعاتي :مجموعه اي از داده و برنامه ها، براي “تحليل ” و “تصميم گيري “، جدا از سيستم عملياتي يک انباره داده(DW) معماري جداگانه اي است براي نگهداري داه هاي حساس تاريخي که اين داده ها از انبار داده هاي عملياتي به دست آمده اند و به صورتي قابل درک براي عمليات تحليل سازمان درآمده اند.

– يک تعريف از W.H.INMON

يک DW مجموعه اي از اطلاعات يکپارچه که داراي قابليت آناليز کردن و استخراج داده ها (query)ميباشد

“repository of integrated information, available for querying and analysis “

بعضي از خصوصيات Data warehouse ها از اين قرارند :

•يکپارچه بودن

•متغير با زمان

•غير فرار

•موضوع گرا (Subject-oriented)

دلايل استفاده از DW ها

– تهيه گزارشات (Reports) و انجام پرس و جو هايي (Query) که نياز به عمليات ورودي/خروجي (IO) بسياري هستند: از اهداف سيستمهاي پردازش تراکنش (TPS:Transaction Processing System) آن است که گزارشات مورد نياز بخش هاي عملياتي و مديريتي را توليد کنند. تهيه اين گزارشات معمولا سخت و باحجم زياد IO همراه است و باعث کند شدن خود سيستمها مي گردد. بنابراين شرکت هاي تجاري به دنبال راهي هستند تا در کمترين زمان و با کمترين هزينه به سيستم هايي دست يابند که زمان پردازش تراکنش ها در آن ها قابل قبول باشد . بهترين راهکار استفاده از DW هايي بود که از منابع IO مجزايي براي گزارش گيري و انجام پرس و جو استفاده مي کردند.

– استفاده از مدل هاي داده اي و يا تکنولوژي هاي سرور به منظور بالا بردن سرعت عمليات گزارش گيري و پرس و جو ها که سيستم هاي عادي پردازش تراکنش ها(TPS) براي آن ها مناسب نيست.

– ايجاد محيطي براي براي تسهيل و آسان نمودن به دست آوردن گزارش ها و پرس و جو ها و يا ايجاد وسيله اي براي سرعت بخشيدن به عمليات گزارش گيري: اغلب مي توان DW اي ساخت که کاربراني باسطح آگاهي کمتر بتوانند گزارش ها و پرس و جوهاي ساده اي را تهيه کنند .

– براي ايجاد انباري از داده هاي تصفيه شده ي سيستم هاي پردازش تراکنش ها (TPS)که مي توانند به طور پيوسته گزارش از آن تهيه نمود. اين انبار الزاماً احتياجي به ثابت بودت TPS ها ندارد :DW ها اين امکان را به شما مي دهند که داده ها را بدون تغيير دادن سيستم هاي پردازش تراکنش ها ،تصفيه کنند. (clean up) توجه کنيد که در برخي از پياده سازي ها ، DW ها به گونه اي هستند که در آن ها امکان يافتن اصلاحات انجام شده بر روي داده هاي DW و فرستادن feedback به TPS ها براي اعلام اين تغييرات ، وجود دارد. گاهي اوقات اين گونه رفتار کردن با تغييرات داده ها بامعناتر از اين است که تغييرات را به طور مستقيم بر روي خود TPS ها اعمال کنيم .

– براي آن که بر اساس قواعد ، گزارش گيري و پژوهش را بر روي داده هايي که از چندين TPS مختلف مي آيند و يا از يک منبع داده اي خارجي مي آيند، يا اينکه داده هايي هستند که تنها براي گزارش گيري و انجام تحقيقات بايد ذخيره شوند ، تسهيل بخشيم:براي مدت زمان مديدي ، شرکت هايي که نياز به گزارش هايي بر پايه ي داده هاي چندين TPS مختلف ، داشتند ؛ مجبور بودند داده هاي هر TPS را بيرون کشيده ، سپس آن ها را مرتب نموده و در هم ادغام نمايند تا به داده ي چکيده اي برسند که مناسب گزارش گيري است .در بسياري از موارد اين روش مناسب است.اما در شرکت هايي که با حجم عظيمي از داده هايي مواجه هستند که مرتباً نياز به مرتب سازي و ادغام دارند ؛ در صورتي که نياز به گزارش گيري از داده هاي تصفيه شده ي TPS ها داشته باشيم ؛ DW ها کارايي بيشتري دارند.

-براي ايجاد مخزني از داده هاي TPS ها ، که شامل داده هاي يک بازه ي زماني بسيار طولاني هستند وبه همين دليل کارايي کنترل آن ها توسط خود TPS پايين مي آيد . :داده هاي قديمي تر غالباً از يک TPS خالي مي شوند تا زمان پاسخ مورد انتظار دراين سيستم ها ، به راحتي کنترل شود .براي انجام تحقيقات و گزارش ها ممکن است داده هاي قديمي و داده هاي جاري مورد نياز باشند که در اين موارد استفاده از DW به علت مهم نبودن زمان انتظار براي پاسخ ، موثر خواهد بود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *