مقالات فراگیری ماشین وب کاوی چیست؟
وب کاوی چیست؟

وب کاوی چیست؟

قبل از بیان مفهوم وب کاوی و کاربرد های آن لازم است که یک تعریف اولیه از وب را داشته باشیم:

وب مجموعه ای از فایلهای پیوند داده ها شده است که در یک یا چند وب سرور قرار داده ها شده است.

بر اساس تعریف ویکی پدیا: وب کاوی (Web mining) کاربرد تکنیک‌های داده کاوی برای شناسایی الگوها در وب می‌باشد. بر اساس نوع تحلیل مورد نظر، وب کاوی به سه دسته کاربرد کاوی وب (Web usage mining)، محتوا کاوی وب (web content mining) و ساختار کاوی وب (web structure mining) تقسیم می‌شود.

انواع داده هایی که در وب وجود دارند :

  • غیر ساختیافته : مانند متن ساده
  • نیمه ساختیافته :مانند HTML Page
  • داده های ساختیافته : مانند جدول

با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می­شوند. طی این گزارش پس از معرفی وب کاوی و بررسی مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره می­شود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند. برای این منظور مدل­ها، الگوریتم­ها و کاربردهای هر طبقه معرفی می­شوند. در شکل زیر مدل مفهومی از وب کاوی را نشان می دهد.

وب کاوی

 

و اگر بخواهیم این مفهوم را دقیق تر برسی کنیم:

وب کاوی

مراحل وب کاوی:

وب کاوی شامل چهار مرحله اصلی می باشد:

  • پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می­باشد.
  • انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
  • تعمیم: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می­شود.
  • تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می شوند.

در مرحله اول داده­ها از منابع موجود در وب مانند خبرنامه­های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی وبازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می­باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه ای یا منطق مرتبه اول باشد. در مرحله سوم از تکنیک­های داده­کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می­کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است. به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می­باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها (KDD) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می­کند. شکل زیر ساختار وب کاوی را نشان می دهد.

ساختار وب کاوی

ساختار وب کاوی

انواع وب کاوی:

روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند:

  • کاوش محتوای وب
  • کاوش ساختار وب
  • کاوش استفاده از وب

چالش های وب کاوی:

وب کاوی با چالش ها و محدودیت های متنوعی روبه رو است. از یک دیدگاه می توان این محدودیت ها را به دو گروه تکنیکی و غیر تکنیکی تقسیم کرد. از محدودیت های غیر تکنیکی می توان به عدم پشتیبانی مدیریت، کافی نبودن بودجه و عدم وجود منابع مورد نیاز مانند نیروی انسانی متخصص اشاره کرد. اما مشکلات تکنیکی بسیار است که به برخی از آنها در این جا اشاره می شود:

داده های ناصحیح و نادقیق: برای آن که فرآیند وب کاوی با موفقیت انجام شود، لازم است داده های جمع آوری شده صحیح و در قالب مناسب باشند. اما معمولا مشکلات زیادی در این زمینه وجود دارد. اولا، داده ها ممکن است دقیق نباشند. ثانیا داده ها می توانند ناکامل بوده و برخی مقادیر موجود نباشد. ثالثا تخمین میزان اطمینان درباره صحت و دقت داده ها به سادگی امکان پذیر نیست.

عدم وجود ابزارها: محدودیت دیگر وب کاوی، عدم وجود ابزارهای مناسب و کامل برای آن می باشد. در این راستا، متخصصان باید تصمیم بگیرند آیا برای یک کاربرد از وب کاوی، ابزار خاص آن کاربرد را توسعه دهند و یا از ابزارهای موجود استفاده کنند.

ابزارهای سفارشی: ابزارهای موجود تنها یکی از انواع وب کاوی مانند طبقه بندی یا خوشه بندی را پشتیبانی می کنند. اما بهتر آن است که یک ابزار قادر به انجام چندین تکنیک وب کاوی باشد تا کاربران بتوانند با توجه به نیازمندی های خود از تکنیک مناسب استفاده کنند.

البته در حال حاضر تحقیقات بسیاری در زمینه وب کاوی در حال انجام است که هدف آن ها حل این مشکلات می باشد.

 

کاربردهای وب کاوی:

تکنیک­ها و روش­های وب کاوی از کاربرد وسیعی در حوزه­های مختلف همچون تجارت الکترونیکی، دولت الکترونیکی، آموزش الکترونیکی، آموزش از راه دور، سازمان های مجازی، مدیریت دانش، کتابخانه های دیجیتال، … برخوردارند. در این قسمت برخی از حوزه های کاربردی وب کاوی و نمونه کاربردهای موفقی که از تکنیک های وب کاوی استفاده کرده اند، معرفی می­شوند.

  • تجارت الکترونیکی:

تکنیک های وب کاوی می توانند تا حد چشمگیری به موفقیت تجارت الکترونیکی کمک نمایند. اگر سازمانی بخواهد از طریق وب فعالیت تجاری کند، باید تصمیم بگیرد چه نوع داده ای را در وب قرار دهد. وب کاوی می تواند در تشخیص نوع این داده ها به سازمان ها کمک کند. برای مثال سایتی که کتاب می فروشد، باید روش مناسبی برای تبلیغ کتب مختلف انتخاب کند. برای این منظور این سایت می تواند، بر اساس علایق کاربران، آن ها را دسته بندی کرده و تبلیغات مربوط به یک کتاب خاص را برای گروه کاربران مربوطه انجام دهد. به عنوان مثال دیگر، اگر سازمانی قصد تجارت با سازمان دیگری را داشته باشد، می تواند از وب کاوی برای یافتن شریک تجاری مناسب و تشخیص رقبا استفاده کند. همچنین می تواند خط مشی رقبا را تعیین کرده و بر اساس آن سرویس ها و کالاهای خود را قیمت گذاری کند.

قبل از آن که سازمانی از وب کاوی استفاده کند، باید زمینه(هایی) را که استفاده از وب کاوی در آن مثمرثمر خواهد بود، تعیین کند. سپس به جمع آوری داده در آن زمینه خاص می پردازد. مثلا داده های مربوط به کاربران را جمع آوری می کند. مرحله بعد، تعیین نوع کاوش است. به عنوان مثال می توان کاربران و رقبا را دسته بندی کرد و یا ارتباط بین کاربران، رقبا و شرکا را استخراج نمود. در پایان نیز باید روش های برای اعتبار سنجی نتایج به دست آمده معرفی شود.

یک نمونه از سایت های تجاری که از تکنیک های وب کاوی همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، … استفاده می کند، سایت Amazon است که موفقیت های چشمگیری برای آن به دنبال داشته است.

  • موتورهای جستجو:

بیشتر موتورهای جستجو برای بازیابی صفحات مرتبط با پرس وجوی کاربر از محتوای صفحات وب استفاده می کنند. Google اولین موتور جستجویی بوده است که از ساختار پیوندها در وب و کاوش آن برای بازیابی و رتبه بندی صفحات استفاده کرده است. برای این منظور Google از الگوریتم Page Rank که در بخش های قبل معرفی شد، استفاده می کند. همچنین Google دارای این قابلیت است که اطلاعات مربوط به جریان کلیک های کاربر را نگهداری کند. این اطلاعات استفاده از وب، برای بهبود نتایج بازیابی شده و سفارشی سازی آن ها به کار می رود.

از دیگر سرویس های Google که در آن از تکنیک های وب کاوی استفاده می شود، می توان به Google News اشاره کرد. این سرویس اخبار موجود در روزنامه های مختلف وب را جمع آوری کرده و سپس با استفاده از روش های طبقه بندی و خوشه بندی آن ها را در گروه ها و دسته های مختلف سازماندهی می کند.

  • حراجی در وب:

سایت ebay یکی از موفق ترین سایت های تجاری وب است که امکان به حراج گذاشتن کالاهای مختلف را فراهم می کند. اما متاسفانه این خاصیت وب که اشخاص در آن می توانند در آن اطلاعات واقعی خود را ارائه نکنند، برای ebay مشکلاتی به وجود آورده است، چرا که نمی توان بین پیشنهادهای واقعی و غیر واقعی تمایز قائل شد. ebay برای حل این مشکل از تکنیک های وب کاوی استفاده کرده است. برای این منظور رفتار و الگوهای ارائه کردن پیشنهاد توسط شرکت کنندگان در حراجی، تحلیل می شود تا الگوی پیشنهادات غیر واقعی مشخص و با آن برخورد مناسب گردد.

وب کاوی چیست؟
5 (100%) 1 vote
Telegram Facebook WhatsApp +Google Twitter LinkedIn

دیدگاه خود را بیان کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

This site uses Akismet to reduce spam. Learn how your comment data is processed.