SPAMメールの振り分け
SPAMメールの完全な振り分けはなかなか難しい。
現時点でやっていることを揚げてみる。
なお、メーラは秀丸メールである。
以前書いたことに間違いがあったので、先に書いておこう。
メールの振り分けがひとつの条件にヒットすると、その後の条件を無視するように書いたが、それを後の条件も動作させるフラグがあった。
「高度な動作の指定」ダイアログの一番下に「この条件より優先順位の低い振り分けも実行して結果を合成する」というものだ。
これにチェックしておくと、それ以下の振り分けも動作する。
色付けやフラグ立てを先に行い、それから振り分けるという動作が可能である。
これはOutlook Expressと同様の動作(もちろん、それ以上なのだけれど)ができるということだ。
ということで、最初に色付けを色々しておく。
まず、一番嫌いなタイプ。
Reply-Toが自アドレスのタイプだ。
秀丸メールではX-TuruKame-Filterにスパムフィルタの結果が入るので、これに「safe (real mail from me)」が含まれるものは除く。
自分が送っていないメールの返信先が自分なのは最悪だろう。
次はToが自アドレスでないか、自アドレス以外も含まれるタイプである。
自アドレスを含んでいないか、含んでいても複数アドレス(「,」を含む)ある場合を対象とする。
ちゃんとしたところのメールはひとりずつにメールを送信するが、SPAMは一気に送信しようとするために、Toに多くのアドレスを詰め込むからだ。
まあ、普通にそういうことをする人もいるかもしれないが・・・
次はReceivedにunknownがあるタイプである。
これはSPAMでなくてもunknownとなるサーバを通ってくるものがある。
そこで、unknownが127.0.0.1のものは除外する。
それでも通常メールが対象になるが、それは仕方ないだろう。
こうした色付けをして、その後に通常の振り分け(PRなどは即削除してもいい)をして、残ったものを再度SPAMに振り分ける。
まず[spam](プロバイダやセキュリティーソフトが付けたもの)などを「SPAM」フォルダに振り分ける。(色付けもする)
ちなみに、日本・アメリカ等・西ヨーロッパ以外からのメール、および日本語と英語以外はすべてSPAMとなる設定である。
最後は日本語以外のものだ。
これは「てにをはがです」(各1文字づつ条件にする)などよく使う文字を含まないもので、safeなものは除外する。
これは「SPAM疑惑」フォルダに振り分ける。
英文できそうなところは信頼アドレスにしてあるので、ここで振り分けられるのはSPAM判定できなかったSPAMであるはずだ。
何度でも振り分けし直せるので、試して納得できるように条件を修正したり、信頼アドレスや迷惑ワードなどを登録していく。
いわば、「鍛える」のである。
現時点で保存しているメールではこれで100%振り分けられるようにした。
SPAMとそうでないものをひとつ残らず正しく振り分けるようになったということである。
もちろん、今後も正しくできるとは限らない。
毎日鍛えることになるが、100%にしておくべきだろう。
と、まあ、SPAMは内容もそうだが、送信先や返信先、あるいはunknownとなるサーバ使用などもチェックすべきだということで。
自分はDateではじいています。日本国内からだと+900が絶対につくんですよね。
日本国内
Date: Mon, 7 Dec 2009 17:08:51 +0900
日本国外
Date: Tue, 25 Aug 3610 17:41:36 +0200
食パンさん
ありがとうございます
なるほど、日本国内だとGMT+9:00だから+0900が入っていますね。
盲点でした。
韓国も同じ+0900になりますが、まあそれはまた別に判定するとして。
来ているメールを見ると、他国判定になっていても+0900が結構ありました。
かなりの数、日本(あるいは韓国)から発信国を偽装して送信しているようです。
今度調べてみたいと思います。