داده کاوی چیست؟

داده کاوی چیست؟

داده‌کاوی (Data Mining) به مفهوم استخراج اطلاعات نهان و یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ است. بسیاری از مردم داده کاوی را مترادف واژه های رایج کشف دانش از داده‌ها (KDD) می‌دانند. داده‌کاوی، پایگاه‌ها و مجموعه‌ حجیم داده‌ها را در پی کشف و استخراج، مورد تحلیل قرار می‌دهد. این گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.

در سال ۱۹۶۰ آماردانان اصطلاح “Data Fishing” یا “Data Dredging”به معنای “صید داده” را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده‌ها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن داده‌ها در پایگاه داده اصطلاح داده کاوی در حدود سال ۱۹۹۰ رواج بیشتری یافت. اصطلاحات دیگری نظیر “Data Archaeology”یا “Information Harvesting” یا “Information Discovery” یا”Knowledge Extraction” نیز بکار رفته‌اند.

داده با اطلاعات چه فرقی دارد؟

بسیاری از مردم به اشتباه می پندارند که داده با اطلاعات تفاوت ندارد و عموما این دو واژه را به جای هم استفاده می کنند. داده (Data)  می تواند هر نوع از کاراکتر شامل متن، عدد، کلمه، صدا و تصویر باشد و در صورتی که توسط انسان مشاهده شود لزوما معنای خاصی هم در بر نخواهد داشت. داده ها عموما خام، دسته بندی و طبقه بندی نشده هستند و در صورتی که بخواهیم از آنها به صورت مستقیم استفاده کنیم عموما بی فایده خواهد بود.

حال آنکه پس از طبقه بندی، دسته بندی و ساختاردهی به داده ها اطلاعات (Information) به وجود می آید. می توان از داده ها برای تصمیم گیری و یا ایجاد دانش در مورد یک مقوله استفاده کرد. اطلاعات عموما برای کاربر مفهوم دارد و قابل استفاده است.

مثال: تاریخ دمای سراسر جهان در صد سال گذشته داده است، حال آنکه روند افزایش یا کاهش دما در این سالها یک اطلاعات است.

نمرات دانشجویان یک کلاس داده است، اما ترتیب نمرات، میانگین، و ارتباط نمره این درس با معدل دانشجو یا یک درس دیگر یک نمونه از اطلاعات است.

داده کاوی

انبوه داده بلای جان سازمان ها

یک کسب و کار فرضی فعال در زمینه فروش را در نظر بگیرید، این سازمان هر روز صدها مورد فروش را از دهها مشتری ثبت می کند، تمام داده های مربوط به یک خرید از جمله نام و قیمت و دسته کالاها و اطلاعات مربوط به خریدار را ثبت می کند. پس از گذشت مدتی این سازمان انبوهی از داده ها بی معنا دارد که نمی تواند از آنها بهره ببرد. این سازمان اگر بخواهد بفهمد کدام مشتریان از چه کالایی بیشتر خوششان آمده راهی ندارد، نمی تواند بفهمد خریداران با هزینه بالا از چه کالایی خرید می کنند و خریداران با سبد قیمتی پایین چه کالایی را می پسندند؛ نمی داند کدام کالا فروش بهتری دارد، چه کالایی در انبار می ماند، چه کالایی حجم سرمایه سازمان را درگیر می کند و در یک کلام: از میان انبوه داده هیچ دانش مفیدی استخراج نمی کند.

داده کاوی چیست؟

سازمان ها برای تصمیم گیری و برنامه ریزی به اطلاعات نیاز دارند، بخش مهمی از این اطلاعات از خود سازمان ناشی می شود، از داده های قبلی و الگوهای عملکرد سازمان استخراج می شوند، داده های خود سازمان نشان دهنده رفتار مشتریان و همکاران و بیان کننده موفقیت یا شکست سازمان در یک عمل خاص هستند.

برای استخراج اطلاعات مفید از میان انبوه حجم داده های ثبت شده باید از فن داده کاوی استفاده کرد.

داده کاوی فنی است که از میان پایگاه داده سازمان، به دنبال الگوهای پنهان در میان داده ها، ارتباط میان آنها، روند و الگوی آنها می گردد. داده کاوی از توابع و الگوریتم های پیشرفته ریاضی استفاده می کند تا ارتباط میان دو دسته از داده و امکان رخ دادن یک نتیجه را در آینده پیش بینی کند.

ویژگی های اصلی داده کاوی:

  • کشف اتوماتیک الگوها
  • پیش بینی احتمالی نتایج و خروجی ها
  • ایجاد اطلاعات اجرایی و مفید
  • تمرکز بر روی داده های بزرگ و مجموعه پایگاه های داده

داده کاوی چه کاری می تواند انجام دهد؟

داده کاوی عموما توسط سازمان های مشتری محور استفاده می شود، این سازمان ها (فروشگاه ها، تولید کنندگان، خرده فروشان و فروشگاه های اینترنتی) می توانند با استفاده از داده کاوی ارتباط میان اقدامات خود و عوامل درونی سازمان مثل قیمت کالاها، تخفیفات، هزینه تبلیغات و دیگر عوامل داخلی را با عوامل بیرونی مثل مشخصات مشتریان (سن، جنسیت، درآمد و محل سکونت)، رقبا و عوامل عمومی بازار (سطح درآمد جامعه، وضعیت رونق و رکود اقتصادی) را پیدا کنند. علاوه بر این می توان شاخص هایی مثل رضایت مشتری، درآمد و سود سازمان، مجموع سرمایه درگردش و هزینه های جاری و میزان افزایش و کاهش آنها در طول زمان را استخراج کند.

به طور مثال شرکت ویدئوی خانگی Blockbuster از داده های سابق مشتریان استفاده میکند و به انها ویدئوهایی پیشنهاد می دهد تا آنها را تماشا کنند. والمارت (بزرگترین خرده فروش زنجیره ای جهان) برای بهبود عمکلرد عرضه کنندگان خود از داده کاوی در مقیاسی وسیع استفاده کرده است. داده های ۲۹۰۰ فروشگاه در ۶ کشور برای این کار استفاده شده اند و در مجموع ۷٫۵ ترابایت داده مورد بررسی قرار گرفت. ۳۵۰۰ تامین کننده به داده های دسترسی پیدا کردند تا بتوانند الگوهای خرید مشتریان، عمکلرد یک کالا و محصول خاص را بررسی کنند و برنامه های خود را بر این پایه و اساس بهبود دهند.

چیستی:

داده کاوی به بهره‌گیری از ابزارهای تجزیه و تحلیل داده‌ها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بوده‌اند اطلاق می‌شود. این ابزارها ممکن است مدلهای آماری، الگوریتم‌های ریاضی و روش‌های یاد گیرنده (Machine Learning Methods) باشند که کار این خود را به صورت خودکار و بر اساس تجربه‌ای که از طریق شبکه‌های عصبی (Neural Networks) یا درخت‌های تصمیم گیری (Decision Trees) به دست می‌آورند بهبود می‌بخشد. داده کاوی منحصر به گردآوری و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل می‌شود برنامه‌های کاربردی که با بررسی فایل‌های متن یا چند رسانه‌ای به کاوش داده‌ها می‌پردازند پارامترهای گوناگونی را در نظر می‌گیرد که عبارت اند از:

  • قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ.
  • ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
  • پیش بینی(Prediction): در پیش بینی هدف پیش بینی یک متغیر پیوسته می‌باشد. مانند پیش بینی نرخ ارز یا هزینه‌های درمانی.
  • رده‌بندی یا طبقه‌بندی (Classification): فرایندی برای پیدا کردن مدلی است که رده‌های موجود در داده‌ها را تعریف می‌نماید و متمایز می‌کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها (متغیر هدف) ناشناخته می‌باشد، استفاده نمود.در حقیقت در رده‌بندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روش‌های مورد استفاده در پیش بینی و رده‌بندی عموماً یکسان هستند.
  • خوشه‌بندی (Clustering): گروه بندی مجموعه‌ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه‌های دیگر داشته باشند.
  • مصورسازی (visualization): مصورسازی داده‌ها یکی از قدرتمندترین و جذابترین روش‌های اکتشاف در داده‌ها می‌باشد.

برنامه‌های کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار می‌روند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانک‌های اطلاعاتی یافت می‌شود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامه‌های مربوط به داده کاوی در عین برخورداری از این قابلیت‌ها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل داده‌ها روشی بر پایه راستی آزمایی (verification) را به کار می‌برند که در آن فرضیه‌ای بسط داده شده آنگاه داده‌ها برای تایید یا رد آن بررسی می‌شوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارایه فرضیه‌های متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده می‌شوند و به کمک الگوریتم‌هایی روابط چند بعدی بین داده‌ها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی می‌شوند. به طور مثال در یک فروشگاه سخت‌افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطه‌ای برقرار شود.

در نتیجه قابلیت‌های پیچیده‌اش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحله‌ای در روند کشف دانش در پایگاه داده‌ها می‌دانند (KDD). مراحل دیگری در روند KDD به صورت تصاعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش می‌باشد. بسیاری از پیشرفت‌ها در تکنولوژی و فرایندهای تجاری بر رشد علاقه‌مندی به داده کاوی در بخش‌های خصوصی و عمومی سهمی داشته‌اند. بعضی از این تغییرات شامل:

  • رشد شبکه‌های کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار می‌گیرند.
  • توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکه‌های عصبی و الگوریتم‌های پیشرفته.
  • گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع داده‌های متمرکز شده را از روی دسک تاپ می‌دهد.
  • و افزایش توانایی به تلفیق داده از منابع غیر متجانس به یک منبع قابل جستجو می‌باشد.

علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال گذشته افزایش سریع جمع‌آوری و نگه داری حجم اطلاعات وجود داشته‌است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت داده‌های دنیا به طور تخمینی هر ساله دوبرابر می‌گردد. در همین زمان هزینه ذخیره‌سازی داده‌ها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده‌است. مطابقاً قدرت محاسبه‌ها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کرده‌است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده‌است. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده‌سازی و پیامد اشتباه را هم دارد. اینها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توانایی کار گروهی پایگاههای داده و نرم‌افزارها بین ارگانها و تخطی‌های بالقوه به حریم شخصی می‌باشد. همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگان‌ها که کارشان تاثیر بر امنیت دارد، نادیده گرفته می‌شود.

داده کاوی

داده کاوی چه فایده ای دارد؟

  • شناخت مشتریان سودآور: می توانید مشتریانی که بیشترین سود شما از آنها حاصل شده را شناسایی کنید و برای حفظ وفاداری مشتری تلاش کنید.
  • بهینه سازی سبد محصول: شناخت محصولات پر فروش، محصولات سودآور محصولات زیان ده از دیگر فواید داده کاوی است. با این کار می توانید در بهتر کردن سبد محصول خود اقدام کنید.
  • شناخت مشتریان وفادار و قدیمی: می توانید بفهمید مشتریان قدیمی شما چه کسانی هستند و با چه برنامه ای خرید می کنند، چه کالایی را دوست دارند و چه کالایی باعث وفاداری آنها شده است.
  • بررسی طول عمر مشتری: با استفاده از داده کاوی می توانید طول عمر مشتری و چرخه آن،  میزان سود حاصل عایده از هر مشتری در هر مرحله را بررسی کنید.
  • شناسایی رفتار مشتری: اگر شما بتوانید رفتار مشتریان خود را بشناسید و آن را با ویژگی های مشتری تطابق دهید می توانید در زمینه بخش بندی و قسمت بندی بازار موفق عمل کنید. اگر  امروز بتوانید برای یک محصول خود به صورت مستند بخش بندی بازار انجام دهید در ادامه نیز در این امر موفق خواهید بود.
  • بررسی عمکلرد یک برنامه بازاریابی: اگر می خواهید بدانید یک برنامه بازاریابی و تبلیغاتی که انجام داده اید چه اثرات آشکار و پنهانی داشته و برای انتخاب آن در آینده تصمیم بگیرید بی شک داده کاوی بسیار مفید خواهد بود.
  • کشف الگو و روند: با استفاده از داده کاوی و بررسی میزان خرید مشتریان می توانید الگوهای فصلی خرید را استخراج کنید، روند کاهش و یا افزایش آن را تحلیل کنید و در صورت نیاز اقدام اصلاحی انجام دهید.
  • پیش بینی فروش: با استفاده از اطلاعات گذشته و بهره بردن از الگو و ارتباط میان داده ها و رونده می توانید فروش خود را در آینده پیش بینی کنید. روند فصلی فروش را بیابید و برای فروش یک محصول جدید برنامه ریزی کنید.

استراتژی و داده کاوی

صد البته کاربرد های داده کاوی بسیار زیاد است و می تواند در شرکت ها و سازمان ها مختلف متفاوت باشد. آنچه در بالا بیان شد خلاصه ای از کاربردهای داده کاوی در بخش فروش و بازاریابی بود. شما می توانید با استفاده از داده کاوی در حل مشکلات سازمان مفید واقع شوید. استراتژیست های بزرگ موفق برای مستدل و دقیق بودن استراتژی ها و برنامه ریزی های خود باید از داده کاوی و اطلاعات به دست آمده از آن حد اکثر استفاده را ببرند. در واقع برنامه ریزی استراتژیک بدون استفاده از داده کاوی مثل رانندگی با چشمان بسته است! اگر یک استراتژیست می خواهد در زمینه برنامه ریزی کاربردی و اجرایی موفق باشد باید از سلاح داده کاوی استفاده کند.

محدودیت‌های داده کاوی:

در حالیکه محصولات داده کاوی ابزارهای قدرتمندی می‌باشند، اما در نوع کاربردی کافی نیستند. برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.

اگرچه {داده کاوی} به الگوهای مشخص و روابط آنها کمک می‌کند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند. تصمیماتی از این قبیل بر عهده خود کاربر است. برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود. با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.

تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی می‌باشد که لزوماً روابط اتفاقی را تشخیص نمی‌دهد. برای مثال برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.

ابزارهای داده کاوی:

معروف‌ترین ابزارهای داده‌کاوی به ترتیب پرطرفدار بودن:

داده کاوی چیست؟
به این مطلب رای دهید
Telegram Facebook WhatsApp +Google Twitter LinkedIn

دیدگاه خود را بیان کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

This site uses Akismet to reduce spam. Learn how your comment data is processed.