قبل از بیان مفهوم وب کاوی و کاربرد های آن لازم است که یک تعریف اولیه از وب را داشته باشیم:
وب مجموعه ای از فایلهای پیوند داده ها شده است که در یک یا چند وب سرور قرار داده ها شده است.
بر اساس تعریف ویکی پدیا: وب کاوی (Web mining) کاربرد تکنیکهای داده کاوی برای شناسایی الگوها در وب میباشد.
بر اساس نوع تحلیل مورد نظر، وبکاوی به سه دسته کاربرد کاوی وب (Web usage mining)، محتوا کاوی وب (web content mining) و ساختار کاوی وب (web structure mining) تقسیم میشود.
انواع داده هایی که در وب وجود دارند :
- غیر ساختیافته : مانند متن ساده
- نیمه ساختیافته :مانند HTML Page
- داده های ساختیافته : مانند جدول
با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود.
وبکاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد.
در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد.
روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم میشوند.
طی این گزارش پس از معرفی وبکاوی و بررسی مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره میشود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند.
برای این منظور مدلها، الگوریتمها و کاربردهای هر طبقه معرفی میشوند.
در شکل زیر مدل مفهومی از وب کاوی را نشان می دهد:
و اگر بخواهیم این مفهوم را دقیق تر برسی کنیم:
مراحل وب کاوی
وب کاوی شامل چهار مرحله اصلی می باشد:
- پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر میباشد.
- انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
- تعمیم: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف میشود.
- تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می شوند.
در مرحله اول دادهها از منابع موجود در وب مانند خبرنامههای الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی وبازیابی می شوند.
مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل میباشد.
این پیش پردازش می تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه ای یا منطق مرتبه اول باشد. در مرحله سوم از تکنیکهای دادهکاوی و یادگیری ماشین برای تعمیم استفاده می شود.
به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب میباشد.
این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها (KDD) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل میکند. شکل زیر ساختار وب کاوی را نشان می دهد.
انواع وب کاوی
روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند:
- کاوش محتوای وب
- کاوش ساختار وب
- کاوش استفاده از وب
چالش های وب کاوی
وب کاوی با چالش ها و محدودیت های متنوعی روبه رو است. از یک دیدگاه می توان این محدودیت ها را به دو گروه تکنیکی و غیر تکنیکی تقسیم کرد.
از محدودیت های غیر تکنیکی می توان به عدم پشتیبانی مدیریت، کافی نبودن بودجه و عدم وجود منابع مورد نیاز مانند نیروی انسانی متخصص اشاره کرد.
اما مشکلات تکنیکی بسیار است که به برخی از آنها در این جا اشاره می شود:
داده های ناصحیح و نادقیق
برای آن که فرآیند وب کاوی با موفقیت انجام شود، لازم است داده های جمع آوری شده صحیح و در قالب مناسب باشند. اما معمولا مشکلات زیادی در این زمینه وجود دارد.
اولا، داده ها ممکن است دقیق نباشند. ثانیا داده ها می توانند ناکامل بوده و برخی مقادیر موجود نباشد.
ثالثا تخمین میزان اطمینان درباره صحت و دقت داده ها به سادگی امکان پذیر نیست.
عدم وجود ابزارها
محدودیت دیگر وب کاوی، عدم وجود ابزارهای مناسب و کامل برای آن می باشد.
در این راستا، متخصصان باید تصمیم بگیرند آیا برای یک کاربرد از وب کاوی، ابزار خاص آن کاربرد را توسعه دهند و یا از ابزارهای موجود استفاده کنند.
ابزارهای سفارشی
ابزارهای موجود تنها یکی از انواع وبکاوی مانند طبقه بندی یا خوشه بندی را پشتیبانی می کنند.
اما بهتر آن است که یک ابزار قادر به انجام چندین تکنیک وب کاوی باشد تا کاربران بتوانند با توجه به نیازمندی های خود از تکنیک مناسب استفاده کنند.
البته در حال حاضر تحقیقات بسیاری در زمینه وبکاوی در حال انجام است که هدف آن ها حل این مشکلات می باشد.
کاربردهای وب کاوی
تکنیکها و روشهای وب کاوی از کاربرد وسیعی در حوزههای مختلف همچون تجارت الکترونیکی، دولت الکترونیکی، آموزش الکترونیکی، آموزش از راه دور، سازمان های مجازی، مدیریت دانش، کتابخانه های دیجیتال، … برخوردارند. در این قسمت برخی از حوزه های کاربردی وب کاوی و نمونه کاربردهای موفقی که از تکنیک های وب کاوی استفاده کرده اند، معرفی میشوند.
-
تجارت الکترونیکی
تکنیک های وبکاوی می توانند تا حد چشمگیری به موفقیت تجارت الکترونیکی کمک نمایند.
اگر سازمانی بخواهد از طریق وب فعالیت تجاری کند، باید تصمیم بگیرد چه نوع داده ای را در وب قرار دهد.
وبکاوی می تواند در تشخیص نوع این داده ها به سازمان ها کمک کند.
برای مثال سایتی که کتاب می فروشد، باید روش مناسبی برای تبلیغ کتب مختلف انتخاب کند.
برای این منظور این سایت می تواند، بر اساس علایق کاربران، آن ها را دسته بندی کرده و تبلیغات مربوط به یک کتاب خاص را برای گروه کاربران مربوطه انجام دهد.
به عنوان مثال دیگر، اگر سازمانی قصد تجارت با سازمان دیگری را داشته باشد، می تواند از وب کاوی برای یافتن شریک تجاری مناسب و تشخیص رقبا استفاده کند.
قبل از آن که سازمانی از وبکاوی استفاده کند، باید زمینه(هایی) را که استفاده از وب کاوی در آن مثمرثمر خواهد بود، تعیین کند.
سپس به جمع آوری داده در آن زمینه خاص می پردازد. مثلا داده های مربوط به کاربران را جمع آوری می کند.
مرحله بعد، تعیین نوع کاوش است. به عنوان مثال می توان کاربران و رقبا را دسته بندی کرد و یا ارتباط بین کاربران، رقبا و شرکا را استخراج نمود.
در پایان نیز باید روش های برای اعتبار سنجی نتایج به دست آمده معرفی شود.
یک نمونه از سایت های تجاری که از تکنیک های وبکاوی همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، … استفاده می کند، سایت Amazon است که موفقیت های چشمگیری برای آن به دنبال داشته است.
-
موتورهای جستجو
بیشتر موتورهای جستجو برای بازیابی صفحات مرتبط با پرس وجوی کاربر از محتوای صفحات وب استفاده می کنند.
Google اولین موتور جستجویی بوده است که از ساختار پیوندها در وب و کاوش آن برای بازیابی و رتبه بندی صفحات استفاده کرده است.
برای این منظور Google از الگوریتم Page Rank که در بخش های قبل معرفی شد، استفاده می کند.
همچنین Google دارای این قابلیت است که اطلاعات مربوط به جریان کلیک های کاربر را نگهداری کند. این اطلاعات استفاده از وب، برای بهبود نتایج بازیابی شده و سفارشی سازی آن ها به کار می رود.
از دیگر سرویس های Google که در آن از تکنیک های وبکاوی استفاده می شود، می توان به Google News اشاره کرد.
این سرویس اخبار موجود در روزنامه های مختلف وب را جمع آوری کرده و سپس با استفاده از روش های طبقه بندی و خوشه بندی آن ها را در گروه ها و دسته های مختلف سازماندهی می کند.
-
حراجی در وب
سایت ebay یکی از موفق ترین سایت های تجاری وب است که امکان به حراج گذاشتن کالاهای مختلف را فراهم می کند.
اما متاسفانه این خاصیت وب که اشخاص در آن می توانند در آن اطلاعات واقعی خود را ارائه نکنند، برای ebay مشکلاتی به وجود آورده است، چرا که نمی توان بین پیشنهادهای واقعی و غیر واقعی تمایز قائل شد. ebay برای حل این مشکل از تکنیک های وبکاوی استفاده کرده است.
برای این منظور رفتار و الگوهای ارائه کردن پیشنهاد توسط شرکت کنندگان در حراجی، تحلیل می شود تا الگوی پیشنهادات غیر واقعی مشخص و با آن برخورد مناسب گردد.