آنچه شما باید درباره فیلتر هرزنامه بیزی بدانید

by هینز تچابیچر

ببینید که آمار چگونه کمک میکند صندوق ورودی خود را پاک کنید

فیلترهای اسپم بیزی برای محاسبه احتمال پیام به عنوان هرزنامه بر اساس محتویات آن محاسبه می شود. بر خلاف فیلترهای ساده مبتنی بر محتوا، فیلتر کردن هرزنامه های بیزی از هرزنامه و پست الکترونیکی خوب یاد می شود و در نتیجه یک رویکرد بسیار ضد انعطاف پذیر قوی و سازگار و کارآمد است که از همه مهم تر، به سختی نتیجه مثبتی را به دست می دهد.

چگونه ایمیل های ناخواسته را تشخیص می دهید؟

در مورد چگونگی تشخیص هرزنامه فکر کنید. یک نگاه سریع به اغلب کافی است شما می دانید هر چه اسپم به نظر می رسد، و شما می دانید چه نامه ای به نظر می رسد.

احتمال هرزنامه به نظر می رسد مانند ایمیل خوب حدود ... صفر است.

فیلترهای مبتنی بر محتوا برآورده نمی شوند

آیا فیلترهای اسپم اتوماتیک مانند این کار نمی کنند؟

فیلترهای اسپم مبتنی بر محتوا به سادگی تلاش می کنند. آنها به دنبال کلمات و سایر ویژگی های معمول هرزنامه هستند. هر عنصر مشخصه دارای نمره می باشد و نمره هرزنامه برای کل پیام از نمرات فردی محاسبه می شود. برخی از فیلترهای به ثمر رساند همچنین ویژگی های ایمیل های مشروع را بررسی می کنند و نمره نهایی پیام را کاهش می دهند.

رویکرد فیلتر نمره کار می کند، اما همچنین دارای چندین نقص:

لیست ویژگی ها از هرزنامه (و ایمیل خوب) در دسترس برای مهندسین فیلتر ساخته شده است. برای دریافت هرزنامه معمولی ممکن است کسی متوجه شود که پست الکترونیکی باید در صدها آدرس ایمیل جمع آوری شود. این کار باعث کاهش کارآیی فیلترها می شود، به ویژه که ویژگی های ایمیل خوب برای هر فرد متفاوت است ، اما این در نظر گرفته نمی شود.
ویژگی هایی که به دنبال آن هستند بیشتر یا کمتر در سنگ قرار می گیرند . اگر اسپم ها تلاش خود را برای سازگاری انجام دهند (و هرزنامه آنها را مانند فیلترهای خوب به نظر می رسد)، ویژگی های فیلتر کردن باید به صورت دستی تنظیم شود - یک تلاش بزرگتر.
امتیاز اختصاص داده شده به هر کلمه احتمالا براساس تخمین خوب است، اما هنوز هم خودسرانه است. و مانند لیست ویژگی ها، آن را نه به جهان در حال تغییر هرزنامه به طور کلی و نه به نیازهای فردی سازگار است.

فیلترهای اسپم بیزی برای خودنمایی، بهتر شدن و بهتر شدن

فیلترهای اسپم بیزی نیز نوعی از فیلترهای مبتنی بر محاسبه نمره هستند. هرچند که رویکرد آنها با مشکلاتی از فیلترهای اسپم به ثمر رسانده می شود، و این به طرز قاطعانه ای دارد. از آنجا که ضعف فیلترهای به ثمر رساند در فهرست ویژگی های ساخته شده دستی و نمرات آنها، این فهرست حذف شده است.

در عوض، فیلترهای اسپم بیزی برای ساختن این فهرست خودشان. در حالت ایده آل، شما با یک (بزرگ) دسته ای از ایمیل هایی که شما به عنوان هرزنامه دسته بندی کرده اید و دسته ای از ایمیل های خوب را شروع می کنید. فیلترها هر دو را بررسی می کنند و ایمیل های قانونی و همچنین هرزنامه را تجزیه و تحلیل می کنند تا احتمال ویژگی های مختلفی که در هرزنامه ها مشاهده می شود، و در ایمیل های خوب محاسبه شود.

یک Filter Spam Baysian یک ایمیل را بررسی می کند

ویژگی های یک فیلتر اسپم بیزی میتواند باشد:

البته در متن پیام، البته، و
سرفصل های آن (فرستنده ها و مسیرهای پیام ، به عنوان مثال!)، بلکه همچنین
جنبه های دیگر مانند کد HTML / CSS (مانند رنگ و قالب بندی دیگر)، و یا حتی
جفت کلمه، عبارات و
متا اطلاعات (به عنوان مثال به عنوان یک عبارت خاص به نظر می رسد).

برای مثال، اگر به عنوان مثال، "دکارتی"، هرگز به هرزگی ظاهر نشود، اما اغلب در ایمیل قانونی شما دریافت می شود، احتمال اینکه "دکارتی" نشان دهنده هرزنامه باشد، نزدیک به صفر است. از سوی دیگر "Toner" به طور انحصاری و اغلب در هرزنامه ظاهر می شود. "تونر" احتمال بسیار زیاد بودن در هرزنامه پیدا می کند که خیلی کمتر از 1 (100٪) است.

هنگامی که یک پیام جدید وارد می شود، با فیلتر اسپم بیزی تجزیه و تحلیل می شود و احتمال پیام کامل هرزنامه ها با استفاده از خصوصیات فرد محاسبه می شود.

فرض کنید یک پیام حاوی هر دو "دکارتی" و "تونر" است. از این کلمات به تنهایی هنوز معلوم نیست که آیا ما هرزنامه یا پست الکترونیکی داریم. ویژگی های دیگر (امیدوار و احتمالا احتمالا) نشان دهنده یک احتمال است که به فیلتر امکان می دهد که پیام را به عنوان هرزنامه و پست الکترونیکی خوب طبقه بندی کند.

فیلترهای اسپم بیزی می توانند به طور خودکار یاد بگیرند

اکنون که ما یک طبقه بندی داریم، می توان از این پیام برای آموزش بیشتر فیلتر استفاده کرد. در این مورد، احتمال این که "کارتسین" نشاندهنده پست خوب باشد، کاهش یافته است (اگر پیام حاوی هر دو "دکته" و "تونر" به عنوان هرزنامه شناخته شود)، یا احتمال "تونر" که نشان دهنده هرزنامه است، باید بازبینی شود.

با استفاده از این تکنیک خودکار انطباق، فیلترهای بیزی می توانند از هر دو خود و تصمیمات کاربر یاد بگیرند (اگر او به صورت دستی تصحیح اشتباه توسط فیلتر ها را تصحیح کند). سازگاری فیلترینگ بیزی نیز باعث می شود که آنها برای کاربر فرد ایمیل بسیار موثر باشند. در حالی که هرزنامه هر فرد ممکن است ویژگی های مشابه داشته باشد، ایمیل های قانونی برای همه مشخصا متفاوت هستند.

اسپم ها چگونه می توانند فیلترهای بیزی جدید را دریافت کنند؟

خصوصیات ایمیل های قانونی به همان اندازه که برای هرزنامه فیلتر کردن هرزنامه ها به عنوان هرزنامه مهم است، بسیار مهم است. اگر فیلترها به طور خاص برای هر کاربر آموزش دیده شوند، اسپم ها حتی زمان بیشتری را برای کار با فیلترهای هرز (یا حتی بیشتر افراد) کار خواهند کرد و فیلترها می توانند تقریبا هر چیزی را که اسپم ها تلاش می کنند، سازگار کنند.

هرگاه اسپم ها آن را فیلتر های بیزی خوب آموزش ببینند، پیام های هرزنامه آنها کاملا شبیه ایمیل های معمولی است که همه می توانند دریافت کنند.

اسپم ها معمولا چنین ایمیل های معمولی ارسال نمی کنند. فرض کنید این به این دلیل است که این ایمیل ها به عنوان ایمیل ناخواسته کار نمی کند. بنابراین، شانس این است که این کار را انجام نخواهند داد که ایمیل های عادی، خسته کننده تنها راه پیشگیری از فیلترهای هرزنامه است.

با این حال اگر اسپم ها به ایمیل های معمولی نگاه می کنند، ما مجددا در جعبه های ورودی ما شاهد تعداد زیادی از هرزنامه ها خواهیم بود و ممکن است ایمیل ها مانند زمان قبل از بیزی (و یا حتی بدتر) نیز ناامید کننده باشند . هرچند این نیز بازار را برای بسیاری از انواع اسپم خراب کرده است و بنابراین برای مدت طولانی ادامه نخواهد یافت.

شاخص های قوی می توانند یک فیلتر اسپم بیزی در Achilles & # 39؛ پاشنه

یک استثنا میتواند برای اسپمها شناخته شود تا بتوانند از فیلترهای بیزی استفاده کنند حتی با محتوای معمولشان. طبق آمار بیزی، یک کلمه یا مشخصه ای که اغلب به نظر می رسد در پست الکترونیکی خوب است، می تواند بسیار مهم باشد، زیرا هر پیام را از نگاه به عنوان هرزنامه برای تبدیل شدن به عنوان ژامبون توسط فیلتر انتخاب کند.

اگر اسپم ها راهی برای تعیین کلمات صحیح پیام خود را پیدا کنند، با استفاده از درآمد حاصل از بازدهی HTML برای دیدن پیامهایی که شما برای آنها باز کرده اید، می توانید یکی از آنها را در یک ایمیل ناخواسته شامل کنید و حتی از طریق یک ایمیل خوب، فیلتر بیسین آموزش دیده.

جان گراهام کامیمینگ این را با اجازه دادن به دو فیلتر بیسین در برابر یکدیگر کار کرده است، و "بد" که ادعا می کند که پیام ها از فیلتر "خوب" عبور کنند. او می گوید که کار می کند، هرچند این فرآیند زمان گیر و پیچیده است. ما فکر نمی کنیم که بیشتر این اتفاق می افتد، حداقل در مقیاس وسیع، و نه به ویژگی های ایمیل افراد. ممکن است اسپم ها (برای سعی کنند) برخی از کلمات کلیدی را برای سازمان ها (به عنوان مثال "Almaden" برای بعضی از افراد در IBM ممکن است) کشف کنند.

معمولا، هرزنامه همیشه (به طور قابل توجهی) از ایمیل معمولی متفاوت خواهد بود یا هرگز اسپم نخواهد شد.

خط پایین: قدرت فیلترینگ بیزی می تواند ضعف آن باشد

فیلترهای اسپم بیزی شامل فیلترهای محتوا هستند که:

به طور خاص آموزش داده شده است تا هرزنامه ایمیل شخصی و ایمیل خوب را شناسایی کند و آنها را بسیار مؤثر و دشوار برای انطباق با هرزنامه ها قرار دهد.
می تواند به طور مداوم و بدون تلاش زیادی و یا تجزیه و تحلیل دستی انطباق با آخرین ترفندهای اسپم.
یک ایمیل خوب برای کاربر شخصی را در حساب کاربری خود قرار دهید و میزان بسیار مثبت کاذب را کم کنید .
متأسفانه، اگر این باعث اعتماد کور به فیلترهای ضد هرزنامه بیزی می شود، اشتباه گاه به گاه حتی جدی تر می شود . اثر متقابل منفی کاذب (هرزنامه که به طور دقیق مانند ایمیل معمولی ظاهر می شود) دارای مزاحمت و ناراحتی کاربران است.