دادهکاوی (Data Mining) به مفهوم استخراج اطلاعات نهان و یا الگوها و روابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است. بسیاری از مردم داده کاوی را مترادف واژه های رایج کشف دانش از دادهها (KDD) میدانند. دادهکاوی، پایگاهها و مجموعه حجیم دادهها را در پی کشف و استخراج، مورد تحلیل قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
در سال ۱۹۶۰ آماردانان اصطلاح “Data Fishing” یا “Data Dredging”به معنای “صید داده” را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از دادهها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن دادهها در پایگاه داده اصطلاح داده کاوی در حدود سال ۱۹۹۰ رواج بیشتری یافت. اصطلاحات دیگری نظیر “Data Archaeology”یا “Information Harvesting” یا “Information Discovery” یا”Knowledge Extraction” نیز بکار رفتهاند.
داده با اطلاعات چه فرقی دارد؟
بسیاری از مردم به اشتباه می پندارند که داده با اطلاعات تفاوت ندارد و عموما این دو واژه را به جای هم استفاده می کنند. داده (Data) می تواند هر نوع از کاراکتر شامل متن، عدد، کلمه، صدا و تصویر باشد و در صورتی که توسط انسان مشاهده شود لزوما معنای خاصی هم در بر نخواهد داشت. داده ها عموما خام، دسته بندی و طبقه بندی نشده هستند و در صورتی که بخواهیم از آنها به صورت مستقیم استفاده کنیم عموما بی فایده خواهد بود.
حال آنکه پس از طبقه بندی، دسته بندی و ساختاردهی به داده ها اطلاعات (Information) به وجود می آید. می توان از داده ها برای تصمیم گیری و یا ایجاد دانش در مورد یک مقوله استفاده کرد. اطلاعات عموما برای کاربر مفهوم دارد و قابل استفاده است.
مثال: تاریخ دمای سراسر جهان در صد سال گذشته داده است، حال آنکه روند افزایش یا کاهش دما در این سالها یک اطلاعات است.
نمرات دانشجویان یک کلاس داده است، اما ترتیب نمرات، میانگین، و ارتباط نمره این درس با معدل دانشجو یا یک درس دیگر یک نمونه از اطلاعات است.
انبوه داده بلای جان سازمان ها
یک کسب و کار فرضی فعال در زمینه فروش را در نظر بگیرید، این سازمان هر روز صدها مورد فروش را از دهها مشتری ثبت می کند، تمام داده های مربوط به یک خرید از جمله نام و قیمت و دسته کالاها و اطلاعات مربوط به خریدار را ثبت می کند. پس از گذشت مدتی این سازمان انبوهی از داده ها بی معنا دارد که نمی تواند از آنها بهره ببرد. این سازمان اگر بخواهد بفهمد کدام مشتریان از چه کالایی بیشتر خوششان آمده راهی ندارد، نمی تواند بفهمد خریداران با هزینه بالا از چه کالایی خرید می کنند و خریداران با سبد قیمتی پایین چه کالایی را می پسندند؛ نمی داند کدام کالا فروش بهتری دارد، چه کالایی در انبار می ماند، چه کالایی حجم سرمایه سازمان را درگیر می کند و در یک کلام: از میان انبوه داده هیچ دانش مفیدی استخراج نمی کند.
داده کاوی چیست؟
سازمان ها برای تصمیم گیری و برنامه ریزی به اطلاعات نیاز دارند، بخش مهمی از این اطلاعات از خود سازمان ناشی می شود، از داده های قبلی و الگوهای عملکرد سازمان استخراج می شوند، داده های خود سازمان نشان دهنده رفتار مشتریان و همکاران و بیان کننده موفقیت یا شکست سازمان در یک عمل خاص هستند.
برای استخراج اطلاعات مفید از میان انبوه حجم داده های ثبت شده باید از فن داده کاوی استفاده کرد.
داده کاوی فنی است که از میان پایگاه داده سازمان، به دنبال الگوهای پنهان در میان داده ها، ارتباط میان آنها، روند و الگوی آنها می گردد. داده کاوی از توابع و الگوریتم های پیشرفته ریاضی استفاده می کند تا ارتباط میان دو دسته از داده و امکان رخ دادن یک نتیجه را در آینده پیش بینی کند.
ویژگی های اصلی داده کاوی:
- کشف اتوماتیک الگوها
- پیش بینی احتمالی نتایج و خروجی ها
- ایجاد اطلاعات اجرایی و مفید
- تمرکز بر روی داده های بزرگ و مجموعه پایگاه های داده
داده کاوی چه کاری می تواند انجام دهد؟
داده کاوی عموما توسط سازمان های مشتری محور استفاده می شود، این سازمان ها (فروشگاه ها، تولید کنندگان، خرده فروشان و فروشگاه های اینترنتی) می توانند با استفاده از داده کاوی ارتباط میان اقدامات خود و عوامل درونی سازمان مثل قیمت کالاها، تخفیفات، هزینه تبلیغات و دیگر عوامل داخلی را با عوامل بیرونی مثل مشخصات مشتریان (سن، جنسیت، درآمد و محل سکونت)، رقبا و عوامل عمومی بازار (سطح درآمد جامعه، وضعیت رونق و رکود اقتصادی) را پیدا کنند. علاوه بر این می توان شاخص هایی مثل رضایت مشتری، درآمد و سود سازمان، مجموع سرمایه درگردش و هزینه های جاری و میزان افزایش و کاهش آنها در طول زمان را استخراج کند.
به طور مثال شرکت ویدئوی خانگی Blockbuster از داده های سابق مشتریان استفاده میکند و به انها ویدئوهایی پیشنهاد می دهد تا آنها را تماشا کنند. والمارت (بزرگترین خرده فروش زنجیره ای جهان) برای بهبود عمکلرد عرضه کنندگان خود از داده کاوی در مقیاسی وسیع استفاده کرده است. داده های ۲۹۰۰ فروشگاه در ۶ کشور برای این کار استفاده شده اند و در مجموع ۷٫۵ ترابایت داده مورد بررسی قرار گرفت. ۳۵۰۰ تامین کننده به داده های دسترسی پیدا کردند تا بتوانند الگوهای خرید مشتریان، عمکلرد یک کالا و محصول خاص را بررسی کنند و برنامه های خود را بر این پایه و اساس بهبود دهند.
چیستی:
داده کاوی به بهرهگیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بودهاند اطلاق میشود. این ابزارها ممکن است مدلهای آماری، الگوریتمهای ریاضی و روشهای یاد گیرنده (Machine Learning Methods) باشند که کار این خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکههای عصبی (Neural Networks) یا درختهای تصمیم گیری (Decision Trees) به دست میآورند بهبود میبخشد. داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود برنامههای کاربردی که با بررسی فایلهای متن یا چند رسانهای به کاوش دادهها میپردازند پارامترهای گوناگونی را در نظر میگیرد که عبارت اند از:
- قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود مثلاً خرید قلم به خرید کاغذ.
- ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
- پیش بینی(Prediction): در پیش بینی هدف پیش بینی یک متغیر پیوسته میباشد. مانند پیش بینی نرخ ارز یا هزینههای درمانی.
- ردهبندی یا طبقهبندی (Classification): فرایندی برای پیدا کردن مدلی است که ردههای موجود در دادهها را تعریف مینماید و متمایز میکند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها (متغیر هدف) ناشناخته میباشد، استفاده نمود.در حقیقت در ردهبندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روشهای مورد استفاده در پیش بینی و ردهبندی عموماً یکسان هستند.
- خوشهبندی (Clustering): گروه بندی مجموعهای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشههای دیگر داشته باشند.
- مصورسازی (visualization): مصورسازی دادهها یکی از قدرتمندترین و جذابترین روشهای اکتشاف در دادهها میباشد.
برنامههای کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانکهای اطلاعاتی یافت میشود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامههای مربوط به داده کاوی در عین برخورداری از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی (verification) را به کار میبرند که در آن فرضیهای بسط داده شده آنگاه دادهها برای تایید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارایه فرضیههای متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده میشوند و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سختافزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهای برقرار شود.
در نتیجه قابلیتهای پیچیدهاش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحلهای در روند کشف دانش در پایگاه دادهها میدانند (KDD). مراحل دیگری در روند KDD به صورت تصاعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش میباشد. بسیاری از پیشرفتها در تکنولوژی و فرایندهای تجاری بر رشد علاقهمندی به داده کاوی در بخشهای خصوصی و عمومی سهمی داشتهاند. بعضی از این تغییرات شامل:
- رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار میگیرند.
- توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکههای عصبی و الگوریتمهای پیشرفته.
- گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز شده را از روی دسک تاپ میدهد.
- و افزایش توانایی به تلفیق داده از منابع غیر متجانس به یک منبع قابل جستجو میباشد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمعآوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیرهسازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقاً قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیادهسازی و پیامد اشتباه را هم دارد. اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد. همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.
داده کاوی چه فایده ای دارد؟
- شناخت مشتریان سودآور: می توانید مشتریانی که بیشترین سود شما از آنها حاصل شده را شناسایی کنید و برای حفظ وفاداری مشتری تلاش کنید.
- بهینه سازی سبد محصول: شناخت محصولات پر فروش، محصولات سودآور محصولات زیان ده از دیگر فواید داده کاوی است. با این کار می توانید در بهتر کردن سبد محصول خود اقدام کنید.
- شناخت مشتریان وفادار و قدیمی: می توانید بفهمید مشتریان قدیمی شما چه کسانی هستند و با چه برنامه ای خرید می کنند، چه کالایی را دوست دارند و چه کالایی باعث وفاداری آنها شده است.
- بررسی طول عمر مشتری: با استفاده از داده کاوی می توانید طول عمر مشتری و چرخه آن، میزان سود حاصل عایده از هر مشتری در هر مرحله را بررسی کنید.
- شناسایی رفتار مشتری: اگر شما بتوانید رفتار مشتریان خود را بشناسید و آن را با ویژگی های مشتری تطابق دهید می توانید در زمینه بخش بندی و قسمت بندی بازار موفق عمل کنید. اگر امروز بتوانید برای یک محصول خود به صورت مستند بخش بندی بازار انجام دهید در ادامه نیز در این امر موفق خواهید بود.
- بررسی عمکلرد یک برنامه بازاریابی: اگر می خواهید بدانید یک برنامه بازاریابی و تبلیغاتی که انجام داده اید چه اثرات آشکار و پنهانی داشته و برای انتخاب آن در آینده تصمیم بگیرید بی شک داده کاوی بسیار مفید خواهد بود.
- کشف الگو و روند: با استفاده از داده کاوی و بررسی میزان خرید مشتریان می توانید الگوهای فصلی خرید را استخراج کنید، روند کاهش و یا افزایش آن را تحلیل کنید و در صورت نیاز اقدام اصلاحی انجام دهید.
- پیش بینی فروش: با استفاده از اطلاعات گذشته و بهره بردن از الگو و ارتباط میان داده ها و رونده می توانید فروش خود را در آینده پیش بینی کنید. روند فصلی فروش را بیابید و برای فروش یک محصول جدید برنامه ریزی کنید.
استراتژی و داده کاوی
صد البته کاربرد های داده کاوی بسیار زیاد است و می تواند در شرکت ها و سازمان ها مختلف متفاوت باشد. آنچه در بالا بیان شد خلاصه ای از کاربردهای داده کاوی در بخش فروش و بازاریابی بود. شما می توانید با استفاده از داده کاوی در حل مشکلات سازمان مفید واقع شوید. استراتژیست های بزرگ موفق برای مستدل و دقیق بودن استراتژی ها و برنامه ریزی های خود باید از داده کاوی و اطلاعات به دست آمده از آن حد اکثر استفاده را ببرند. در واقع برنامه ریزی استراتژیک بدون استفاده از داده کاوی مثل رانندگی با چشمان بسته است! اگر یک استراتژیست می خواهد در زمینه برنامه ریزی کاربردی و اجرایی موفق باشد باید از سلاح داده کاوی استفاده کند.
محدودیتهای داده کاوی:
در حالیکه محصولات داده کاوی ابزارهای قدرتمندی میباشند، اما در نوع کاربردی کافی نیستند. برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
اگرچه {داده کاوی} به الگوهای مشخص و روابط آنها کمک میکند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند. تصمیماتی از این قبیل بر عهده خود کاربر است. برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود. با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.
تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی میباشد که لزوماً روابط اتفاقی را تشخیص نمیدهد. برای مثال برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.
ابزارهای داده کاوی:
معروفترین ابزارهای دادهکاوی به ترتیب پرطرفدار بودن:
- آر (زبان برنامهنویسی)
- پایتون (زبان برنامهنویسی)
- Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده میشود.
- نرم افزار RapidMiner
- نرمافزار وکا
- متلب