مقدمه
بازار ابزار استخراج داده ها از دو راه ابتدایی خود در حال ظهور میباشد . بسیاری از ابزارهایی كه در اینجا توضیح داده میشوند ، در مرحلة اول انتشار میباشند.
موقعیت در بازار CRM كه عموماً بخشی از سیستم تجارت الكترونیكی در نظر گرفته میشود ، پیچیده تر میباشد و بنابراین با سرعت وب یا شبكه در حال حركت میباشد. بازار CRM ، حتی بیشتر از بازار ابزار استخراج دادهها با چندین فروشنده كه بر تعریف خود بازار و موقعیت خود در این بازار متمركزند ، توصیف میگردد.
این اشتباه، با ماهیت بسیار دینامیك خود بازار كه یك فعالیت قابل رویت تحكیم مشتری، شركتهای ادغامیو تملیك ها را تحمل میكند، بیشتر میگردد. علی رغم كل این چالشها، باز رو به تكامل میرود و فروشندگان، پیشرفت مهمیدر علمیبودن ابزار، قابلیت استفاده و قابلیت اداره كسب میكنند.
اولین بخش این فصل ، به كاربردهای بسته بندی شده استخراج داده ها میپردازد. این كاربردها ، بر اساس چندین تكنیك استخراج داده ها ادغام شده در ابزارهای بهتر میباشد . همراه با بهترین عملكرد ها ، اسلوب شناسی های خوب تعریف شده و فرآیندها، راه خود را در محیط های تولید شركتها كه در آن استخراج داده ها بخشی از یك فرآیند موسسه ای شده میشود مییابند كه شامل رشد و یادگیری سازمانی میشود .
بازار استخراج داده ها
بیائید بازار استخراج داده ها را از نقطه نظر منحنی اقتباسی تكنولوژی در نظر بگیریم ایمنی به اقتباس كنندگان اولیه ، از تكنولوژی لبة یادگیری برای دستیابی به مزیت رقابتی استفاده میكنند ؛ هنگامیكه تكنولوژی تكامل مییابد ، شركتهای بیشتری آن را اقتباس میكنند ، و در یك حالت تجارت زمانی و عادی درج مینمایند . همچنین مناطق عملی بودن ابزاهای استخراج داده ها بزرگتر و بزرگتر میشوند. به عنوان مثال ، تكنولوژی وایت اوك ( یك شركت استخراج داده ها در مریلند) از جانب كمیسیون فدرال الكترون، مجوز فروش سیستم گچین ماینر Capain Miner را كسب كرده است كه بی نظمیدر دخالتهای سیاسی فدرال را كشف میكند . نورتل، یك بسته كشف كلاهبرداری را توسعه داده است به نام سوپر اسلوت فراود ادوایسور ، كه از تكنولوژیهای شبكة عصبی استفاده میكند .
صنعت ابزار استخراج داده ها ، برخلاف تكنولوژیهای استخراج داده ها ، در مرحلة عدم تكامل قرار دارد و میكوشد تا بازار را تعیین نماید . و وجودش را تائید كند . به همین دلیل است كه در مییابیم بازار ابزارهای استخراج داده ها تحت تاثیر موارد زیر قرار دارد:
qادغام پیوسته و مداوم ابزارها با اتكاء به تكنولوژیهای مكمل و به عنوان مثال OLAP
q ظهور كاربردهای بسته بندی شدة عمودی و یا اجزاء استخراج داده ها برای توسعة كاربرد .
q استراتژیهای بسیار اقتباس شده شركت بین فروشندگان ابزار استخراج داده ها و فروشندگان تهیه كنندگان راه حل جامع و ادغام كننده های سیستم ها : فروشندگان مقیاس مؤسسه ، همانند IBM NCR ، اوراكل ، میكروسافت ) به عنوان مثال ، اوراكل چندین شریك متعدد استخراج داده ها به عنوان بخشی از او را كل ویرهاوس اینتیشیتیو از جمله آنگاسن دیتا مایند ، دیتاپكیج اینفورمیشن دیسكاوری ، SRA , SPSS اینترنشنال و تینكینگ ماشینز را انتخاب كرده است .
اصول طبقه بندی ابزارهای استخراج داده ها
ما میتوانیم كل بازار ابزارهای استخراج داده ها را به سه گروه اصلی تقسیم نمائیم ؛ ابزارهای دارای هدف كلی ، ابزارهای ادغام شدة استخراج داده ها DSSOLAP ، و ابزارهای به سرعت در حال رشد و برای كاربرد.
ابزارهای هدف كلی بخش بزرگتر و كامل تر بازار را اشغال میكند . آنها بنا به تعریف و برای كاربرد نیستند و حوزه آنها از نظر ماهیت افقی است . این ابزار شامل موارد زیر میشود .
· SAS اینترپراز ماینر
· IBM اینتلیجنت مایننر
· یونیكا PRW
· SPSS كلمنتین
· SGI ماین ست
· اوراكل داروین
· آنگاس نالج سیكر
بخش ابزار مركب یا اداغام شدة استخراج داده ها بر شرط تجاری بسیار واقعی و اجباری داشتن ابزار چند منظورة تقویت تصمیم تاكید میكند كه گزارش مدیریت ، پردازش تحلیلی روی خط ، و قابیت های استخراج داده ها در یك قالب كاری عادی را فراهم میكند . نمونه های این ابزار های مركب شامل كاكنوس سیناریو و بیزینس آبجكت میشود.
بخش ابزارهای ویژة كاربرد ، به سرعت در حال حركت است ، و فروشندگان در این فضا ، میكوشند تا خود را با ارائة راه حلهای تجاری به جای جستجوی تكنولوژی برای یك راه حل ، از سابرین متمایز نمایند . حوزة این ابزار ، بنا به تعریف از نظر ماهیت عمودی است . در بین این ابزارها ، موارد زیر قرار دارند:
· KD1 ( متمركز بر خرده فروشی است )
· حق انتخابها و انتخابها ( بر صنعت بیمه متمركز است )
· HNC ( بر كشف كلاهبرداری متمركز است )
· یونیكا مدل 1 ( بر بازاریابی متمركز است )
ارزیابی ابزار : صفات و اسلوب شناسی ها
كل این عوامل ارائه یك توصیف بهینه از ابزارهای استخراج طولانی تر موجود را مشكل ساخته است . بنابراین . بطور كلی ابزارهای استخراج داده ها را میتوان با استفاده از صفات زیر ، توصیف نمود :
qتكامل محصول و ثبات و استحكام شركت . به دلیل عدم تكامل كلی بازار تجاری برای ابزارهای استخراج داده ها ، این مقوله محصولاتی را توضیح میدهد كه برای جنبش از چند سال وجود داشته اند.
q سكوها و معماری. سكوهای متنوع از نظر تجاری موجود را تقویت كنید ، مدل چند تأبیری مشتری / خادم را تقویت كنید . هدف قابلیت سنجش، دسترسی به سرعت نزدیك به خطی و سنجش زمان اجرا ، به عنوان میزان داده ها ( اندازة بانك اطلاعاتی ) ، تعداد متغیرها ، و تعداد كاربران متصل به هم میباشد كه در حال رشد هستند .
q تداخلهای داده ها ، قابلیت ابزار برای دسترسی به بانكهای اطلاعاتی ارتباطی ، فایلهای یكنواخت و سایر فورمتها.
q قابلیتهای استخراج داده ها از جمله تكنیكها ، الگوریتم ها و كاربردهای تحلیلی ، تكنیكهای استخراج داده ( ANN ، CART ، ایفاء قانون و غیره ) با تداخل عادی كاربر كه ابزار میتواند آن را تقویت نماید، توانایی ایجاد و مقایسة چندین مدل ؛ و توانایی برای تقویت تعدادی از انواع مختلف تجزیه و تحلیل از جمله طبقه بندی ، پیشگویی و كشف اتحاد.
q ایجاد داده ها قابلیت تغییر شكل و طبقه بندی متغیرهای پیوسته ، ایجاد متغیرهای جدید ، استفاده از تاریخها و زمان ، استفاده از ارزشهای از دست رفته و غیره.
q مدل (خصوصیت تفسیر ، ارزیابی ، صف بندی) . این مقوله ، ابزار را از نظر قابلیت انجام كارهای زیر ، ارزیابی میكند:
· شناسایی مدل بطور اتوماتیك یا دستی ، توسط كاربر
· توضیح نتایج و تعریف مقایسهای اعتمادی یعنی احتمالات طبقه بندی ، حدود اعتماد و غیره
· ارزیابی نتایج مدل با درجه و تناسب
· گزارش دخالت و سهم هر متغیر در مدل ، گزارش درجة افزایش و غیره
· صف بندی مدل برای امتیاز بانكهای اطلاعاتی منبع
· استخراج مقرارت از مدل
· دسته بندی قوانین استخراج شده در یك شكل استاندارد ( به عنوان مثال كد SQL، اظهارات روشی )
qعملكرد
· اعتبار پیشگویی اعتبار بر اساس نرخ خطای نمونة پیشگویی میباشد ؛ اعتبار مدل را میتوان با درجة افزایش اندازه گیری نمود.
· كارایی پردازش . اجزای بهینة زمان اجرای الگوریتم ها
qتداخلهای كاربر . این مقوله در مییابد آیا ابزار یك كاربر مبتدی و یا كارشناس را تقویت میكند یا نه و موارد زیر را تقویت مینماید:
· الگوهای سنجش تجاری . قابلیت ایجاد الگوهای از قبل بسته بندی شده ، برای تقویت بسته های تجاری ویژه ( به عنوان مثلا بازاریابی هدف ، امتیازدهی اعتبار، كشف كلاهبرداری ).
· تداخل متادیتا . قابلیت تقویت وظیفة طراحی معنایی ؛ دستیابی به متادیتا برای كدگذاری جداول مقادیر مقوله ای ، دستیابی به قوانین استخراج ، تغییر شكل و مهاجرت به تعریف دیدگاه تجاری خروجی مدل
qقابلیت اداره
· كنترل پیچیدگی . این یكی از روشهای اصلاح تصمیم مدل است ، بنابراین مدل را بیشتر قابل اداره مینماید . به عنوان مثال ، استفاده از پارامترهای بسیار آزاد منجر به تناسب بیش از حد میگردد ( قبلاً بحث شد ) ؛ این پیچیدگی را میتوان با زوال وزن ، كنترل نمود . الگوریتم های درخت تصمیم CART از فاز شاخه زنی یا ضریب برای كاهش پیچیدگی مدل درخت استفاده مینمایند .
· سختی . اعتبار درخت و موجود بودن به قابلیت یا بهبود سریع از یك نقطة ضعف . استفاده از اجزاء كلیدی به منظور ادغام در قالب كاری مدیریت سیستم ها ( به عنوان مثال BMCpatrol ، Tivolitme10 و غیره.)
· مرسوم سازی . قابلیت ابزار برای ایجاد یك معماری باز، انعطاف پذیر و قابل گسترش با تداخلهای برنامه ریزی كاربرد منتشر شده و نقاط خروجی كاربر كه امكان این كاربردهای تقویت تصمیم، ویژة كاربر و همینطور ادغام با سایر كاربردها را فراهم میآورد.
هر گاه كه ممكن باشد، ما ابزارهایی كه از این مقوله ها استفاده میكند را مورد بحث قرار خواهیم داد. با این وجود ، به دلیل این كه هدف این فصل ، ایجاد یك بررسی كلی از ابزرهای برجسته و استخراج داده ها میباشد و صفات یا خصوصیات عملكرد كه میتوانیم تنها با انجام یك ارزیابی جامع از محصول با استفاده از دادهها بدست آوریم ، در این بحث در نظر گرفته نخواهد شد . دیگر این كه فروشنده یك معیار منتشر شده یا اطلاعات بررسی كاربر در مورد عملكرد ابزار را فراهم نماید.
ارزیابی ابزار
ابزارهایی كه بطور مفصل در این فصل بحث شد ، شامل كلمنتین (SPSS) ، كاكنوس 4t hought ، كاكنوس سناریو ، دینا ماینر دیتا مایند ) ، داروین ( اوراكل ) ایستگاه كاری استخراج بانك اطلاعاتی (HNC) سریهای تصمیم ( نئوویستا ) ، اینترپرایزماینر SAS . اینتلیجنت ماینر (IBM) ، نالوج سیكر و نالوج استادیو (AGNOSS) ، و مدل 1 و PRW ( یونیكا ) . ابزارهای دیگر بطور مختصر مورد بحث قرار میگیرند . سطح جزئیات موجود برای برخی از این ابزارها به دلیل فقدان تكامل محصول محدود میباشد . این ابزارها به ترتیب حروف الفبا مورد بحث قرار میگیرند.
كلمنیتین (SPSS)
بررسی ، كلمنیتین ، یك ابزار كاربرد استخراج داده ها از SPSS میباشد . این ابزار یك تداخل كاربر گرافیكی را با چندین نوع تكنیكهای تجزیه و تحلیل از جمله شبكه های عصبی به قوانین اتحاد و تكنیكهای القاء قانون ، تركیب میكند . این قابلیتهای فنی ، در یك محیط برنامه ریزی دیداری كه استفاده از آن ساده است ارائه میشوند .
استعارة گرافیكی كه كلمنتین استفاده میكند، استعارة گرفتن ، انداختن و اتصال گره های عمل روی صفحه است. گره هایی برای دسترسی داده ها ، ساخت دادهها ، تجسم داده ها ، یادگیری ماشین ، تجزیه و تحلیل مدل وجود دارد . فرایند توسعة مدلی مركب از انتخاب گره های صحیح از یك پالت ، قرار داده آنها روی صفحه و اتصال گره ها میباشد.
كلمنتین دارای یك سری غنی از قابلیت های دسترسی اطلاعات از جمله فایلهای یكنواخت و بانكهای اطلاعاتی ارتباطی ( از طریق ODBC ) میباشد . بیشتر، كلمنتین قابلیت دائمیساختن نتایج طراحی را از طریق نوشتن آنها در ODBC – Compliant DBMS دارد.
ساخت داده های ورودی شامل هماهنگی در نماها و توانایی اشتقاق حوزه های جدید ، میشود . قابلیت های تجسم داده های كلمین شامل نمودارهای پراكندگی ، طرحهای خطی و تجزیه و تحلیل وب میباشد.
كلمنتین روی سیستم های اینتل پنتیو اجرا میشود كه سریهای ویندوز ، NT ، HP 9000 كه HPUX10 و بالا سیلیكون گرافیكس كه IRIX ، Sun SPARC كه سولاریس 2.x و دیجیتال APLHA كه دیجیتال UNIX 3.X یا VMS 6.X را اجرا میكند .
دسترسی به اطلاعات ساخت و پیش پردازش . كلمنتن فایهای متن تحریر شده ، فایلهای ارزش مجزا شده با كاما و فایلهای ثبت ثابت (ASCII) را وارد میكند . سایر منابع اطلاعاتی از طریق یك تداخل ODBC حمایت میشوند . سیستم های بانك اطلاعاتی ارتباطی اصلی ، از جمله اوراكل سیباس ، اینفورمیكس و CA-IN gres از طریق ODBC در دسترس میباشد.
قابلیت های ساخت داده های كلمنتین شامل موارد زیر میشود:
· ادغام ثبت ها از طریق توالی ثبت
· تراز داده ها با افزایش نسبت ثبت ها با خصوصیات ویژه
· تراكم تعیین شده كاربر
· تصفیه ثبتهای بیگانه و نامربوط
· اشتقاق جدید حوزه با استفاده از فرمولهای تعیین شدة كاربر و اپراتورهای منطقی
· قابلیت های نمونه گیری داده هاا ، از جمله اولین و آخرین N ثبت ، 1 در N نمونه گیری ، و نمونه گیری اتفاقی تكنیك های استخراج داده ها ، الگوریتم ها و كاربردها
· كلمنتین ـ الگوریتم های القایی قانون ـ شبكه های عصبی و از جمله شبكه های كوهونن ، او قوانین مربوطه را تقویت میكند :
فهرست مطالب
عنوان
صفحه
بخش اول : تأثیر استخراج دادهها بر CRM.......................................................................... 1
فصل اول : روابط مشتری
مقدمه..................................................................................................................................... 2
استخراج دادهها چیست........................................................................................................... 5
یك نمونه .............................................................................................................................. 6
ارتباط با فرآیند تجاری .......................................................................................................... 8
استخراج دادهها و مدیریت روابط مشتری ................................................................................ 11
استخراج دادهها چگونه به بازاریابی بانك اطلاعاتی كمك مینماید............................................... 12
امتیاز دهی ............................................................................................................................. 13
نقش نرمافزار مدیریت مبارزه................................................................................................... 13
افزایش ارزش مشتری ............................................................................................................ 14
تركیب استخراج دادهها و مدیریت مبارزه ................................................................................. 15
ارزیابی مزایای یك مدل اسخراج داده ها .................................................................................. 15
فصل دوم: استخراج دادهها و ذخیره دادهها- یك منظره مرتبط به هم
مقدمه ................................................................................................................................... 17
استخراج دادهها و ذخیره دادهها ، یك ارتباط ............................................................................ 18
بررسی ذخیره دادهها............................................................................................................... 21
ذخیره دادهها ROI................................................................................................................. 21
ذخایر داده های علمی واطلاعاتی ............................................................................................ 23
تعریف و خصوصیات یك مخزن اطلاعاتی ............................................................................. 30
معماری انباردادهها ................................................................................................................. 34
استخراج دادهها ..................................................................................................................... 38
استخراج دادههای تعریف شده ................................................................................................ 38
قملروهای كاربرد استخراج دادهها............................................................................................. 40
مقولههای استخراج دادهها و كانون تحقیق ................................................................................ 41
فصل سوم: مدیریت رابطه با مشتری
مقدمه..................................................................................................................................... 48
سودمندترین مشتری ............................................................................................................... 49
مدیریت رابطه مشتری............................................................................................................. 50
بانك اطلاعاتی متمركز برمشتری ............................................................................................. 53
اداره مبارزات ........................................................................................................................ 54
تكامل تدریجی بازاریابی ........................................................................................................ 56
بازاریابی حلقه بسته ............................................................................................................... 57
معماریCRM....................................................................................................................... 57
نسل بعدیCRM................................................................................................................... 58
بخش دوم: بنیاد - تكنولوژیها و ابزار ....................................................................................... 60
فصل چهارم : اجزاء ذخیره سازی دادهها
مقدمه ................................................................................................................................... 61
معماری كلی ......................................................................................................................... 62
بانك اطلاعاتی انبار دادهها ...................................................................................................... 63
ابزارهای ذخیرهسازی، تحصیل، تهذیب و انتقال ........................................................................ 64
متادیتا.................................................................................................................................... 65
ابزار دسترسی ........................................................................................................................ 70
دسترسی و تجسم اطلاعات .................................................................................................... 71
اصول مشاهده یا تجسم دادهها ................................................................................................ 72
ابزار بررسی و گزارش ........................................................................................................... 76
كاربردها ............................................................................................................................... 77
ابزار OLAP......................................................................................................................... 77
ابزارها استخراج دادهها ........................................................................................................... 78
کامپیوتر