آنچه شما باید درباره فیلتر هرزنامه بیزی بدانید

ببینید که آمار چگونه کمک میکند صندوق ورودی خود را پاک کنید

فیلترهای اسپم بیزی برای محاسبه احتمال پیام به عنوان هرزنامه بر اساس محتویات آن محاسبه می شود. بر خلاف فیلترهای ساده مبتنی بر محتوا، فیلتر کردن هرزنامه های بیزی از هرزنامه و پست الکترونیکی خوب یاد می شود و در نتیجه یک رویکرد بسیار ضد انعطاف پذیر قوی و سازگار و کارآمد است که از همه مهم تر، به سختی نتیجه مثبتی را به دست می دهد.

چگونه ایمیل های ناخواسته را تشخیص می دهید؟

در مورد چگونگی تشخیص هرزنامه فکر کنید. یک نگاه سریع به اغلب کافی است شما می دانید هر چه اسپم به نظر می رسد، و شما می دانید چه نامه ای به نظر می رسد.

احتمال هرزنامه به نظر می رسد مانند ایمیل خوب حدود ... صفر است.

فیلترهای مبتنی بر محتوا برآورده نمی شوند

آیا فیلترهای اسپم اتوماتیک مانند این کار نمی کنند؟

فیلترهای اسپم مبتنی بر محتوا به سادگی تلاش می کنند. آنها به دنبال کلمات و سایر ویژگی های معمول هرزنامه هستند. هر عنصر مشخصه دارای نمره می باشد و نمره هرزنامه برای کل پیام از نمرات فردی محاسبه می شود. برخی از فیلترهای به ثمر رساند همچنین ویژگی های ایمیل های مشروع را بررسی می کنند و نمره نهایی پیام را کاهش می دهند.

رویکرد فیلتر نمره کار می کند، اما همچنین دارای چندین نقص:

فیلترهای اسپم بیزی برای خودنمایی، بهتر شدن و بهتر شدن

فیلترهای اسپم بیزی نیز نوعی از فیلترهای مبتنی بر محاسبه نمره هستند. هرچند که رویکرد آنها با مشکلاتی از فیلترهای اسپم به ثمر رسانده می شود، و این به طرز قاطعانه ای دارد. از آنجا که ضعف فیلترهای به ثمر رساند در فهرست ویژگی های ساخته شده دستی و نمرات آنها، این فهرست حذف شده است.

در عوض، فیلترهای اسپم بیزی برای ساختن این فهرست خودشان. در حالت ایده آل، شما با یک (بزرگ) دسته ای از ایمیل هایی که شما به عنوان هرزنامه دسته بندی کرده اید و دسته ای از ایمیل های خوب را شروع می کنید. فیلترها هر دو را بررسی می کنند و ایمیل های قانونی و همچنین هرزنامه را تجزیه و تحلیل می کنند تا احتمال ویژگی های مختلفی که در هرزنامه ها مشاهده می شود، و در ایمیل های خوب محاسبه شود.

یک Filter Spam Baysian یک ایمیل را بررسی می کند

ویژگی های یک فیلتر اسپم بیزی میتواند باشد:

برای مثال، اگر به عنوان مثال، "دکارتی"، هرگز به هرزگی ظاهر نشود، اما اغلب در ایمیل قانونی شما دریافت می شود، احتمال اینکه "دکارتی" نشان دهنده هرزنامه باشد، نزدیک به صفر است. از سوی دیگر "Toner" به طور انحصاری و اغلب در هرزنامه ظاهر می شود. "تونر" احتمال بسیار زیاد بودن در هرزنامه پیدا می کند که خیلی کمتر از 1 (100٪) است.

هنگامی که یک پیام جدید وارد می شود، با فیلتر اسپم بیزی تجزیه و تحلیل می شود و احتمال پیام کامل هرزنامه ها با استفاده از خصوصیات فرد محاسبه می شود.

فرض کنید یک پیام حاوی هر دو "دکارتی" و "تونر" است. از این کلمات به تنهایی هنوز معلوم نیست که آیا ما هرزنامه یا پست الکترونیکی داریم. ویژگی های دیگر (امیدوار و احتمالا احتمالا) نشان دهنده یک احتمال است که به فیلتر امکان می دهد که پیام را به عنوان هرزنامه و پست الکترونیکی خوب طبقه بندی کند.

فیلترهای اسپم بیزی می توانند به طور خودکار یاد بگیرند

اکنون که ما یک طبقه بندی داریم، می توان از این پیام برای آموزش بیشتر فیلتر استفاده کرد. در این مورد، احتمال این که "کارتسین" نشاندهنده پست خوب باشد، کاهش یافته است (اگر پیام حاوی هر دو "دکته" و "تونر" به عنوان هرزنامه شناخته شود)، یا احتمال "تونر" که نشان دهنده هرزنامه است، باید بازبینی شود.

با استفاده از این تکنیک خودکار انطباق، فیلترهای بیزی می توانند از هر دو خود و تصمیمات کاربر یاد بگیرند (اگر او به صورت دستی تصحیح اشتباه توسط فیلتر ها را تصحیح کند). سازگاری فیلترینگ بیزی نیز باعث می شود که آنها برای کاربر فرد ایمیل بسیار موثر باشند. در حالی که هرزنامه هر فرد ممکن است ویژگی های مشابه داشته باشد، ایمیل های قانونی برای همه مشخصا متفاوت هستند.

اسپم ها چگونه می توانند فیلترهای بیزی جدید را دریافت کنند؟

خصوصیات ایمیل های قانونی به همان اندازه که برای هرزنامه فیلتر کردن هرزنامه ها به عنوان هرزنامه مهم است، بسیار مهم است. اگر فیلترها به طور خاص برای هر کاربر آموزش دیده شوند، اسپم ها حتی زمان بیشتری را برای کار با فیلترهای هرز (یا حتی بیشتر افراد) کار خواهند کرد و فیلترها می توانند تقریبا هر چیزی را که اسپم ها تلاش می کنند، سازگار کنند.

هرگاه اسپم ها آن را فیلتر های بیزی خوب آموزش ببینند، پیام های هرزنامه آنها کاملا شبیه ایمیل های معمولی است که همه می توانند دریافت کنند.

اسپم ها معمولا چنین ایمیل های معمولی ارسال نمی کنند. فرض کنید این به این دلیل است که این ایمیل ها به عنوان ایمیل ناخواسته کار نمی کند. بنابراین، شانس این است که این کار را انجام نخواهند داد که ایمیل های عادی، خسته کننده تنها راه پیشگیری از فیلترهای هرزنامه است.

با این حال اگر اسپم ها به ایمیل های معمولی نگاه می کنند، ما مجددا در جعبه های ورودی ما شاهد تعداد زیادی از هرزنامه ها خواهیم بود و ممکن است ایمیل ها مانند زمان قبل از بیزی (و یا حتی بدتر) نیز ناامید کننده باشند . هرچند این نیز بازار را برای بسیاری از انواع اسپم خراب کرده است و بنابراین برای مدت طولانی ادامه نخواهد یافت.

شاخص های قوی می توانند یک فیلتر اسپم بیزی در Achilles & # 39؛ پاشنه

یک استثنا میتواند برای اسپمها شناخته شود تا بتوانند از فیلترهای بیزی استفاده کنند حتی با محتوای معمولشان. طبق آمار بیزی، یک کلمه یا مشخصه ای که اغلب به نظر می رسد در پست الکترونیکی خوب است، می تواند بسیار مهم باشد، زیرا هر پیام را از نگاه به عنوان هرزنامه برای تبدیل شدن به عنوان ژامبون توسط فیلتر انتخاب کند.

اگر اسپم ها راهی برای تعیین کلمات صحیح پیام خود را پیدا کنند، با استفاده از درآمد حاصل از بازدهی HTML برای دیدن پیامهایی که شما برای آنها باز کرده اید، می توانید یکی از آنها را در یک ایمیل ناخواسته شامل کنید و حتی از طریق یک ایمیل خوب، فیلتر بیسین آموزش دیده.

جان گراهام کامیمینگ این را با اجازه دادن به دو فیلتر بیسین در برابر یکدیگر کار کرده است، و "بد" که ادعا می کند که پیام ها از فیلتر "خوب" عبور کنند. او می گوید که کار می کند، هرچند این فرآیند زمان گیر و پیچیده است. ما فکر نمی کنیم که بیشتر این اتفاق می افتد، حداقل در مقیاس وسیع، و نه به ویژگی های ایمیل افراد. ممکن است اسپم ها (برای سعی کنند) برخی از کلمات کلیدی را برای سازمان ها (به عنوان مثال "Almaden" برای بعضی از افراد در IBM ممکن است) کشف کنند.

معمولا، هرزنامه همیشه (به طور قابل توجهی) از ایمیل معمولی متفاوت خواهد بود یا هرگز اسپم نخواهد شد.

خط پایین: قدرت فیلترینگ بیزی می تواند ضعف آن باشد

فیلترهای اسپم بیزی شامل فیلترهای محتوا هستند که: