چکیده
دسته بندی متن از ابعاد بالا و پراکندگی زیاد فضای ویژگی رنج می برد. به همین دلیل، انتخاب ویژگی به عنوان مرحله مهمی از پیش پردازش در حوزه متن کاوی و به ویژه دسته بندی متن شناخته می شود. اخیراً رویکرد جدیدی به نام انتخاب ویژگی گروهی معرفی شده است که در آن، خروجی چندین روش انتخاب ویژگی برای به دست آوردن زیرمجموعه ی نهایی از ویژگی ها تجمیع می شوند. ادعا می شود که اصل "خرد جمعی" در بحث انتخاب ویژگی نیز می تواند منجربه انتخاب ویژگی قوی تر و پایدارتر هنگام برخورد با داده هایی با ابعاد بالا گردد. بنابراین در این کار، برای اولین بار از رویکرد انتخاب ویژگی گروهی در فاز آماده سازی داده های متنی، به منظور دسته بندی دقیق تر اسناد استفاده شده است. بطوریکه ابتدا مجموعه ی ویژگی ها با استفاده از 4 روش انتخاب ویژگی مبتنی بر فیلتر بصورت جداگانه رتبه بندی شده، سپس فرآیند تجمیع نتایج حاصله و رتبه بندی نهایی ویژگی ها بعنوان یک مسئله ی تصمیم گیری چندمعیاره فرموله و به کمک تکنیک بیشترین بیشترین ها حل می شود. به منظور اثبات ادعا، کارآمدی روش انتخاب ویژگی پیشنهادی در دسته بندی موضوعی مجموعه داده متنی رویترز، با استفاده از الگوریتم های دسته بندی بیزین ساده چندجمله ای و k-همسایه نزدیک براساس معیارهای دقت و F-score مورد ارزیابی قرار گرفته است. مقایسه ی نتایج، نشان دهنده ی افزایش حداقل 1درصدی و حداکثر 10 درصدی دقت دسته بندی نسبت به 4روش انتخاب ویژگی مبتنی بر فیلتر و 3 روش ساده تجمیع در استراتژی ناهمگن می باشد.