تیک۴

معرفی نرم افزار Weka

معرفی نرم افزار Weka

تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده­اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار می­دهند، روی الگوریتمهای خاصی متمرکز شده­اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای مصور سازی ، روشهای پیش پردازش داده ها، واسطهای کاربر پسند ، پلت فرم های سازگار برای اجرا،‌ قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، ‌نرم افزار Weka با داشتن امکانات بسیار گسترده،‌ امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامه­های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی می­شود.

میزکار Weka، مجموعه­ای از الگوریتم­‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده­‏ها می‏­باشد. این نرم­افزار به گونه­ای طراحی شده است که می‏­توان به سرعت، روش­‏های موجود را به صورت انعطاف­پذیری روی مجموعه­‏های جدید داده، آزمایش نمود. این نرم­افزار، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ­‏های تجربی فراهم می‏­کند. این پشتیبانی‏ها، آماده سازی داده­‏های ورودی، ارزیابی آماری چارچوب­‏های یادگیری و نمایش گرافیکی داده­‏های ورودی و نتایج یادگیری را در بر می­گیرند. همچنین، هماهنگ با دامنه وسیع الگوریتم­‏های یادگیری، این نرم­افزار شامل ابزارهای متنوع پیش پردازش داده­هاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر می‏­تواند روش­‏های متفاوت را در آن با یکدیگر مقایسه کند و روش­‏هایی را که برای مسایل مدنظر مناسب­تر هستند، تشخیص دهد.

نرم­افزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت “Waikato Environment for knowledge Analysis” استخراج گشته است. همچنین Weka ، نام پرنده­ای با طبیعت جستجوگر است که پرواز نمی‏­کند و در نیوزلند، یافت می‏­شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏­شود و نیز تحت سیستم عامل­‏های لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی ، آزمایش شده است.

این نرم­افزار، یک واسط همگون برای بسیاری از الگوریتم­‏های یادگیری متفاوت، فراهم کرده است که از طریق آن روش­‏های پیش پردازش، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده­‏ موجود، قابل اعمال است.

نرم افزار Weka، پیاده سازی الگوریتم­‏های مختلف یادگیری را فراهم می‏­کند و به آسانی می‏­توان آنها را به مجموعه های داده خود اعمال کرد.

همچنین، این نرم­افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه­‏ های داده­‏ها، همانند الگوریتم­‏های گسسته سازی می‏­باشد. در این محیط می‏­توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته­بندی حاصله و کارآیی­اش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامه­ای میسر است.)

این محیط، شامل روش­‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‏بندی، خوشه­ بندی، کاوش قواعد انجمنی و انتخاب ویژگی می‏­باشد. با در نظر گرفتن اینکه، داده­‏ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده­‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم­‏ها، ورودی­‏های خود را به صورت یک جدول رابطه­ای به فرمت ARFF دریافت می‏­کنند. این فرمت داده­‏ها، می‏­تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه داده­ای تولید گردد.

یکی از راه­‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏­باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی­‏هایی در مورد نمونه­‏های جدید است. سومین راه، اعمال یادگیرنده­‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏­باشد. روش­‏های یادگیری Classifier نامیده می‏­شوند و در واسط تعاملی Weka ، می‏­توان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏­توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‏گیری کارآیی همه classifier به کار می‏­رود.

پیاده سازی­‏های چارچوب­‏های یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می‏­کند. ابزارهایی که برای پیش پردازش داده­‏ها استفاده می‏­شوند. filter نامیده می‏­شوند. همانند classifier ‏ها، می‏­توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی­‏های خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره می‏­شود.

علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتم­‏هایی برای یادگیری قواعد انجمنی، خوشه­ بندی داده­‏ها در جایی که هیچ دسته­ای تعریف نشده است، و انتخاب ویژگی‏های مرتبط در داده­‏ها می‏­شود.

در ادامه توضیحاتی در خصوص قسمت های مختلف این نرم افزار ذکر شده است و همچنین قابلیت های اصلی آن به صورت جزئی بررسی شده است که با مراجعه به آن ها می توانید بررسی کنید که آیا این نرم افزار به منظور اجرای پروزه شما مناسب می باشد یا خیر.

معرفی نرم افزار Weka

 این پکیج شامل چهار واسط کاربری متفاوت می‌باشد:

در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با داده‌ها به فرمت Arff میانه بهتری دارد.

حال شاید بخواهید با قابلیت های نرم افزار بیشتر آشنا شوید. در ادامه عملگرهای مختلف موجود در این نرم افزار تشریح شده اند.

توابع وکا:

 

خوشه‌بندی در وکا:

 

کشف قواعد انجمنی در وکا:

 

رده‌بندی معمول و جمعی در وکا:

در نرم افزار وکا همچنین قابلیت کار با مجموعه داده‌های بزرگ و به اصطلاح Big Data وجود دارد. در هنگام مواجه با این مسائل بهترین پیشنهاد استفاده از پکیج command-line می‌باشد. همچنین امکان نوشتن کد مستقیما در جاوا یا زبان‌های بر پایه جاوا مانند Groovy یا Jython نیز وجود دارد.

ویژگی های وکا:

 

معایب وکا:

برای یادگیری این نرم‌افزار منابع زیادی وجود دارد. یکی از این منابع که قسمت command line و بسیاری از عملگرهای این نرم افزار را به منظور پیش پردازش داده ها و مدلسازی یطور جامع تشریح کرده است توسط  Witten و Frank نوشته شده است.

خروج از نسخه موبایل