مقالات فراگیری ماشین انواع روش های وب کاوی
انواع روش های وب کاوی

انواع روش های وب کاوی

روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند:

  • کاوش محتوای وب
  • کاوش ساختار وب
  • کاوش استفاده از وب

 کاوش محتوای وب:

کاوش محتوای وب فرآیند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا می تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول باشد. در این میان کاوش متن بیش از سایر زمینه ها مورد تحقیق قرار گرفته است. از جمله این تحقیقات می توان به تشخیص موضوع، استخراج الگوهای ارتباط، خوشه بندی و طبق بندی اسناد وب اشاره کرد. روش ها و تکنیک های موجود در این گروه، از تکنیک های بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده می کنند. هر چند در پردازش تصویر و بینایی ماشین تحقیقات زیادی در زمینه استخراج دانش از تصاویر انجام شده است، اما به کارگیری این تکنیک ها در کاوش محتوای وب چندان چشمگیر نبوده است.

کاوش ساختار وب:

وب را می توان به صورت گرافی که گره های آن اسناد و یال های آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرآیند استخراج اطلاعات ساختاری از وب می باشد.

 کاوش استفاده از وب:

کاوش استفاده از وب، کاربرد تکنیک های داده کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد. این نوع از وب کاوی، داده های مربوط به استفاده کاربران از وب را مورد کاوش قرار می دهد. باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک های کاوش محتوای وب می توانند علاوه بر به کارگیری متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنین می توان از ترکیب تکنیک های فوق برای حاصل شدن نتایج بهتر استفاده کرد.

وب کاوی و بازیابی اطلاعات:

بعضی محققین معتقدند که کشف منبع یا سند (بازیابی اطلاعات) در وب، نمونه ای از وب کاوی است و برخی وب کاوی را مرتبط با بازیابی اطلاعات هوشمند می دانند. منظور از بازیابی اطلاعات، بازیابی خودکار اسناد مرتبط و در عین حال بازیابی کمترین حد ممکن از اسناد غیر مرتبط می باشد. اهداف اصلی بازیابی اطلاعات شاخص گذاری متون و جستجو برای اسناد مرتبط در یک مجموعه می باشد. در حال حاضر تحقیقات در زمینه بازیابی اطلاعات شامل مدلسازی، طبقه بندی اسناد، واسط های کاربری، تصویر سازی داده، جداسازی و … می باشد. آنچه در این میان می تواند به عنوان نمونه ای از وب کاوی در نظر گرفته شود، طبقه بندی اسناد است که در شاخص گذاری مورد استفاده قرار می گیرد. با چنین دیدگاهی وب کاوی به بخشی از فرآیند بازیابی اطلاعات مبدل می گردد.

 وب کاوی و استخراج اطلاعات:

هدف از استخراج اطلاعات تبدیل مجموعه ای از اسناد به اطلاعات خلاصه شده و تحلیل شده می باشد. در حالی که تمرکز اصلی در بازیابی اطلاعات بر انتخاب اسناد مرتبط است، استخراج اطلاعات بر استخراج وقایع مرتبط از اسناد تکیه دارد. همچنین در استخراج اطلاعات، ساختار یا بازنمایی یک سند مد نظر قرار می گیرد، در حالی که در بازیابی اطلاعات، یک سند مجموعه ای نامرتب از کلمات است. ساخت یک سیستم استخراج اطلاعات برای محیط پویا و متنوعی چون وب امکان پذیر نیست و بیشتر سیستم های ایجاد شده بر سایت های وب خاصی متمرکز می شوند. برخی دیگر از سیستم های استخراج اطلاعات از تکنیک های یادگیری ماشین و داده کاوی برای یادگیری قوانین و الگوهای استخراج استفاده می کنند. با این دیدگاه، وب کاوی بخشی از فرآیند استخراج اطلاعات می باشد . البته دیدگاه های دیگری درباره ارتباط این دو وجود دارد. برخی معتقدند استخراج اطلاعات گونه ای از مرحله پیش پردازش (مرحله بعد از بازیابی اطلاعات و قبل از اعمال تکنیک های داده کاوی) در فرآیند وب کاوی می باشد. به طور کلی دو گونه متفاوت از استخراج اطلاعات وجود دارد. استخراج اطلاعات از متون غیر ساخت یافته و استخراج اطلاعات از داده های نیمه ساخت یافته. برای استخراج اطلاعات از متون غیر ساخت یافته معمولا نوعی پیش پردازش زبانی قبل از به کارگیری تکنیک های داده کاوی استفاده می شود. بنابراین این نوع از استخراج اطلاعات ارتباط نزدیکی با تکنیک های پردازش زبان طبیعی دارد. اما با ایجاد و گسترش وب نیاز به روش های بازیابی اطلاعات از متون ساخت یافته می باشد. استخراج اطلاعات ساخت یافته متفاوت از استخراج اطلاعات غیر ساخت یافته است، چرا که معمولا از اطلاعاتی مانند تگ های HTML، جدا کننده ها، … استفاده می کند. بیشتر روش های ساخت یافته ای که در وب به کار می روند، از تکنیک های یادگیری ماشین برای استخراج قوانین استفاده می کنند.

الگوریتم های کاوش ساختار وب:

  • HITS
  • Page Rank
  • الگوریتم جریان بیشینه
  •  Average Clicks

کاربردهای کاوش ساختار وب:

تعیین میزان کیفیت صفحات مرتبط با یک موضوع، طبقه بندی صفحات، پیمایش وب، پیدا کردن اجتماعات وب، طراحی سایت های تطبیقی و شخصی سازی صفحات.

در توضیح موارد فوق باید ذکر کرد که منظور از اجتماع وب مجموعه ای از صفحات وب است که راجع به موضوعات مشابه هستند یا علایق مشترک ایجاد کنندگان این صفحات را منعکس می کنند. منظور از پیمایش وب این است که در پیمایش حجم وسیع صفحات وب بهتر است اول صفحاتی منعکس شوند که مرتبط با موضوع مورد نظر می باشند.

کاوش استفاده ازوب: کاوش استفاده از وب، کاربرد تکنیک های داده کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد. این نوع از وب کاوی، داده های مربوط به استفاده کاربران از وب را مورد کاوش قرار می دهد و به استخراج الگوهایی بامعنی از داده های تولید شده در تعامل بین کلاینت و سرورهای وب می پردازد. این نوع کاوش بر تکنیک­هایی تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پیش­بینی می­کند. داده­ای که در این نوع کاوش مورد استفاده قرار می­گیرد، داده­هایی است که در نتیجه تعامل کاربران با وب ایجاد و نگهداری شده­اند.

انواع داده های استفاده از وب:

  • داده های سرورهای وب
  • داده های سرورهای پراکسی
  • داده های کلاینت

روش های کاوش استفاده از وب:

  • قوانین انجمنی
  • الگوهای ترتیبی
  • خوشه بندی

کاربردهای کاوش استفاده از وب:

  • خصوصی سازی محتوای وب
  • پیش بازیابی
  •  بهبود طراحی سایت های وب

باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک های کاوش محتوای وب می توانند علاوه بر به کارگیری متن مستندات، ازاطلاعات کاربران هم استفاده کنند. همچنین می توان از ترکیب تکنیک های فوق برای حاصل شدن نتایج بهتر استفاده کرد.

انواع روش های وب کاوی
5 (100%) 1 vote
Telegram Facebook WhatsApp +Google Twitter LinkedIn

دیدگاه خود را بیان کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

This site uses Akismet to reduce spam. Learn how your comment data is processed.