修士論文審査

2011/2/4 修論審査 1

修士論文審査

早稲田大学基幹理工学研究科5109B084-7

後藤研究室修士 2 年本嶋悠也

「 IP アドレスの特徴を用いた

SVM による spam メールの判別法」

2011/2/4 修論審査 2

Agenda

1. 研究の背景2. 研究の目的3. 既存手法4. 提案手法5. 実証実験

a. 実験１b. 実験２

6. まとめ7. 今後の課題

2011/2/4 修論審査 3

研究の背景 spam メールとは

受信者の意図に関わらず、自動的に送られてくるメール不特定多数の相手に送られる、内容として広告・宣伝・誘

導・詐欺等の性質が強いメール

問題点メール整理に伴う時間の浪費・受信者への精神的負担重要なメールの見落としネットワーク資源及びサーバ資源の浪費サーバ資源の浪費に伴うメール配送遅延マルウェアへの感染

2011/2/4 修論審査 4

研究の背景 spam メールは長年問題視されているメールのヘッダや本文に基づく対策手法は

精度の良いものが存在しているが、その計算量によって配送遅延の原因となる

メールのヘッダや本文によらない対策手法を提案する

2011/2/4 修論審査 5

研究の目的メールのヘッダや本文によらず、メール送信

者のIP アドレスで spam メール送信者か否かを判別する手法を SVM (Support Vector Machine)を用いて実現する。

2011/2/4 修論審査 6

既存手法 2008 年度卒業論文「 IP アドレスの特徴を

用いた spam メール送信者判別方法」ナイーブベイズ分類器を利用

IP ベースで spam メール送信者か否か判別各クラスにおける特徴の生起確率を用いる利用する特徴： BGP Prefix, AS 番号 , 国番号 , PTR,

OS

　 FNR ( ％ ) FPR ( ％ )

2008-04 0.346 5.903926

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

　 FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

表１：既存手法における判別精度

2011/2/4 修論審査 7

既存手法利用する特徴

BGP Prefix ：IP アドレスに対応する、 AS 番号に関連付けられたネットワー

ク AS 番号：

その IP アドレスが属するネットワークの AS 番号国番号：

その IP アドレスを割り当てられている国 PTR レコードの有無

逆引きドメイン名が設定されているか否か OS

IP アドレスから判定された、ホストの OS

例：早稲田大学 133.9.0.0/16

例：早稲田大学： AS17956

例： JP, US, CN, …

例： 133.9.81.1 → vox3.goto.info.waseda.ac.jp

例： Windows, Linux, Mac, …

2011/2/4 修論審査 8

提案手法 IP アドレスから求めることのできる特徴を特徴ベ

クトルとして SVM に適用し、 spam メール送信者を判別する IP アドレスベースで判別既存手法を踏まえつつ、新しい特徴を導入する

カテゴリカルでない特徴逆引きドメイン名に着目した特徴

SVM (Support Vector Machine) 教師あり機械学習の一つカーネル関数により、非線形な問題にも適用可能

※カテゴリカルな特徴：　順序性、等間隔性を持たない特徴

2011/2/4 修論審査 9

提案手法利用する特徴 ( 既存手法と同じ )

BGP Prefix AS 番号国番号 PTR レコードの有無 OS

2011/2/4 修論審査 10

提案手法利用する特徴（カテゴリカルでない特徴）

メール送信回数：その IP アドレスからメールが送られた回数 spam メール送信回数：その IP アドレスから送られたメールの

うち　 spam メールであると判定されたものの件数 ham メール送信回数：その IP アドレスから送られたメールのうち、 ham メール ( 正常なメール ) であると判定されたものの件数

グレイリスト：その IP アドレスから送られたメールの中で、グレイリストで受信が拒否されたものの件数

SMTPセッション： SMTPセッションを開始したが、メールが送られずにセッションを開始しただけで終わったものの件数

活動期間： 1 ヶ月の間にメールを送った日が何日間あったかナイーブベイズ分類器では特徴の生起確率を用いるため、カテゴリカルでない特徴を導入することが難しい

2011/2/4 修論審査 11

提案手法利用する特徴 ( 逆引きドメイン名に着目した特

徴 ) 逆引きドメイン名に含まれる数字の個数

逆引きドメイン名に含まれる数字の個数が、対応する IP アドレス

の数字の個数以上か否か S25R スパム対策方式のルール 1

逆引きドメイン名の最下位の名前が、数字以外の文字列で分断

された二つ以上の数字列を含むか否か

※S25R スパム対策方式

浅見秀雄が考案した手法。逆引きドメイン名の特徴に基づいて作られたルールを用いて、メール送信元がメール中継サーバかエンドユーザかを判断する。エンドユーザと思われるクライアントから送られたメールを spam メールと判断する。

2011/2/4 修論審査 12

提案手法特徴ベクトル

カテゴリカルな特徴その特徴を持つか否か (0 or 1) で与える

カテゴリカルでない特徴その特徴の値を [0,1] にスケーリングして与える

2011/2/4 修論審査 13

提案手法スケーリング

数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある

各特徴ごとに、

　　として [0,1] にスケーリングする)( )－特徴量の最小値(( )特徴量の最大値))) (－特徴量の最小値((その特徴の特徴量

2011/2/4 修論審査 14

実証実験実験１：カテゴリカルでない特徴を導入した場合の　

　　　　　　　判別率の評価実験２：逆引きドメイン名に着目した特徴を導入した　　　　　　場合の判別率の評価実験結果の評価

FPR: False Positive Ratio = 　　　　 legit を spammer と判別した数 / legit 数 FNR: False Negative Ratio = 　　　　 spammer を legit と判別した数 / spammer 数　　　として評価する交差確認法 (cross validation) を用いる

2011/2/4 修論審査 15

実験に用いるデータ協力者に提供して頂いた、 1 ヶ月間の SMTPログ

この SMTPログではメールは分類済み　　 (spam / ham / greylisted / session) ログを集計し、 spammer,legit らしい IP アドレスを抽出 spammer : spam メール送信者 legit : 正常なメール送信者

IP アドレスごとに特徴を求め、特徴ベクトルを作成する

legit spammer

3577 514360

表２： SMTPログから抽出した IP アドレスの件数

legit spammer

3577 3577ランダムサンプリング

2011/2/4 修論審査 16

実験１の結果カテゴリカルでない特徴を導入した場合の判別率

　 FPR　(%) FNR(%)

① 2.8432　 1.1997　

② 1.7412　 1.1086　

①カテゴリカルな特徴のみの場合

②カテゴリカルでない特徴含む場合



表３：カテゴリカルでない特徴を導入した場合の判別率の変化

FPR, FNR が共に改善された

2011/2/4 修論審査 17

実験２の結果逆引きドメイン名に着目した特徴を導入した場合の

判別率



　 FPR　(%) FNR(%)

② 1.7412　 1.1086　

③ 1.2327　 0.7426　

②逆引きドメイン名に着目した特徴を含まない場合　　　※実験１の②と同条件

③逆引きドメイン名に着目した特徴を含む場合

表４：逆引きドメイン名に着目した特徴を導入した場合の判別率の変化

FPR, FNR がさらに改善された

2011/2/4 修論審査 18

まとめ IP アドレスから求めることのできる特徴を SVM

に　適用し、メール送信者が spam メール送信者か否かを判別する手法を提案した

ベイズ分類器と違い、 SVM ではカテゴリカルでない　　特徴の導入が容易である

カテゴリカルでない特徴、逆引きドメイン名に着目した特徴の導入により判別率を向上させることができた

2011/2/4 修論審査 19

今後の課題判別に有効な新しい特徴の検討

提案手法で用いた特徴の他にも、判別に有効な特徴が存在する可能性がある

訓練量による判別率への影響訓練データの量が増えた場合にどうなるか spammer と同等の件数の legit を用意する

2011/2/4 修論審査 20

ご清聴ありがとうございました

2011/2/4 修論審査 21

2011/2/4 修論審査 22

補足資料

2011/2/4 修論審査 23

spam メール spam メールとは

受信者の意図に関わらず、自動的に送られてくるメール不特定多数の相手に送られる、内容として広告・宣伝・誘

導・詐欺等の性質が強いメール

問題点メール整理に伴う時間の浪費・受信者への精神的負担重要なメールの見落としネットワーク資源及びサーバ資源の浪費サーバ資源の浪費に伴うメール配送遅延マルウェアへの感染

2011/2/4 修論審査 24

BGP Prefix

BGP Prefix と AS 番号の対応表は、「 Route Views Archive Project 」のものを整形して使用

2011/2/4 修論審査 25

AS 番号 BGP Prefix 同様、対応表は Route Views

Archive Project のものを使用 AS 番号は BGP で経路制御を行う AS に割

り当てられる

2011/2/4 修論審査 26

AS (Autonomous System)

大規模な TCP/IP ネットワークにおいて、各組織が保有・運用する自律したネットワークインターネットはマクロに見ると、 AS を相互に接続した形態となっている

AS 間の経路制御に使われるプロトコルが BGP (Border Gateway Protocol)

AS 間の境界にあるルータは経路情報を交換する

2011/2/4 修論審査 27

国番号 MaxMind社の GeoIP というデータベースを使用。 GeoIP は IP アドレスを地理情報にマッピングした　データベースである。

2011/2/4 修論審査 28

OS passive fingerprinting の実装の一つである p0f

というツールを用いて OS を判定 passive fingerprinting は、 OS によって TCPパケッ

トに記載するヘッダのデフォルト値の組み合わせが異なるという性質を利用し、 TCPパケットに記録されたヘッダの各属性値の組み合わせから、そのパケットを送出したホストの OS を判定する技術

p0f では、事前に集めた各 OS と属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得た TCP ヘッダの属性とテーブルを比較することにより、 OS を判定する

2011/2/4 修論審査 29

グレイリスト spam メール対策手法の一つ

メール受信の際に送信元の情報をデータベースに登録し、メールは受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送された場合に受信する

spam メールを送信するサーバは、大量のメールを短時間に送信することを重視して、一時的エラーに対して再送を行わないという特徴を利用している

2011/2/4 修論審査 30

逆引きドメイン名 DNS を用いて IP アドレスからドメイン名に変換

する　ことを逆引きという逆引きによって得られるドメイン名が逆引きドメイン

名逆引きを設定していない IP アドレスも存在する ISP によって自動的に付加されている IP アドレスも存

在するドメイン名が IP アドレス形式のものはその可能性が高い　例： 192.168.0.1.example.com

2011/2/4 修論審査 31

S25R スパム対策方式浅見秀雄が考案した spam メール対策手法ルール

0: 逆引き失敗 1: 逆引き FQDN の最下位の名前が、数字以外の文字列で分断された二つ以上の文字列を含む

2: 逆引き FQDN の最下位の名前が、 5 個以上連続する数字を含む 3: 逆引き FQDN の上位3階層を除き、最下位または下位から 2 番目の名前が数字で始まる

4: 逆引き FQDN の最下位の名前が数字で終わり、かつ下位から 2 番目の名前が、 1 個のハイフンで分断された二つ以上の数字列を含む

5: 逆引き FQDN が 5 階層以上で、下位 2階層の名前がともに数字で終わる

6: 逆引き FQDN の最下位の名前が「 dhcp 」、「 dialup 」、「 ppp 」、または DSL系の名前で始まり、かつ数字を含む

2011/2/4 修論審査 32

カテゴリカルでない特徴の導入スケーリング

数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある

各特徴ごとに、

　　として [0,1] にスケーリングする)( )－特徴量の最小値(( )特徴量の最大値))) (－特徴量の最小値((その特徴の特徴量

2011/2/4 修論審査 33

訓練データの偏りに対する対策サンプリング

正例、負例の数に偏りがある場合、予測精度が低下する spammer の件数を legit と同じ数に減らすランダムサンプリング

　 legit 数 spammer 数 FPR　(%) FNR(%)

サンプリング前 3577 514360 12.57241799 0.05365505

サンプリング後 3577 3577 2.843188521 1.199672872

表：サンプリング前後の判別率の変化



2011/2/4 修論審査 34

SVM の分類結果を確率値に近似 SVM の出力をシグモイド関数に当てはめることで確

率値へのよい近似が得られることは実験的に示されている John Platt. “Probabilistic Outputs for Support Vector

Machines and Comparisons to Regularized Likelihood Methods” In Advances in Large Margin Classifiers. MIT Press, 1999.

34

2011/2/4 修論審査 35

交差確認法 10-fold cross validation(10 分割交差確認法 )

1. データを 10個に分ける2. 分けたうちの一つを除外した、 9 個のデータを使

ってパラメータを推定3. 除外するデータを毎回変えて、推定を 10 回繰り返す

4. 10 回の推定の平均値で評価する

2011/2/4 修論審査 36

各属性の生起確率の例 (BGP)

　spammer legit

BGP Prefix 生起確率 BGP Prefix 生起確率1 83.0.0.0/11 0.012366825 210.157.16.0/20 0.045848476

2 60.16.0.0/13 0.009378645 202.72.48.0/21 0.025719877

3 221.200.0.0/14 0.009291158 211.125.80.0/20 0.024042494

4 190.42.0.0/16 0.005385333 59.106.0.0/17 0.023483366

5 190.40.0.0/16 0.005150089 17.254.6.0/24 0.017892088

6 201.240.0.0/16 0.004932343 210.150.0.0/16 0.013139502

7 86.128.0.0/10 0.004638774 66.163.168.0/21 0.012300811

8 201.230.0.0/16 0.004391866 202.218.0.0/16 0.011182555

9 90.192.0.0/11 0.003830002 125.200.0.0/13 0.009225608

10 190.43.0.0/16 0.003769733 202.248.0.0/16 0.008946044

2011/2/4 修論審査 37

各属性の生起確率の例 (AS 番号 )

　spammer legit

AS 番号生起確率 AS 番号生起確率

1 9121 0.092810483 7506 0.072407045

2 4837 0.042635508 4713 0.071009226

3 4134 0.03673886 2514 0.042773274

4 6147 0.032210903 23820 0.034386357

5 7470 0.020983358 2497 0.033547666

6 19262 0.020178474 4694 0.033268102

7 3269 0.017063924 15169 0.033268102

8 22927 0.017011432 9370 0.032708974

9 7738 0.016595381 714 0.023483366

10 5617 0.015596081 4732 0.021805983

2011/2/4 修論審査 38

各属性の生起確率の例 ( 国情報 )

　spammer legit

国情報生起確率国情報生起確率

1 CN 0.098390233 JP 0.668157674

2 TR 0.093220701 US 0.241543193

3 US 0.075291625 GB 0.011462119

4 RU 0.052846256 CA 0.010902991

5 ES 0.05135897 FR 0.00866648

6 GB 0.048143324 DE 0.007268661

7 BR 0.047472587 CN 0.004473022

8 CO 0.045133758 KR 0.004193458

9 AR 0.035484874 NL 0.00363433

10 PE 0.032759157 IT 0.003354767

2011/2/4 修論審査 39

各属性の生起確率の例 (RDNS)

　spammer legit

DNS 逆引き生起確率 DNS 逆引き生起確率

1 1 0.677844311 1 0.952194576

2 0 0.322155689 0 0.047805424

2011/2/4 修論審査 40

各属性の生起確率の例 (OS)

　spammer legit

OS 生起確率 OS 生起確率

1 Windows 0.630855821 Linux 0.457366508

2 Bob 0.302910413 FreeBSD 0.14984624

3 　 0.028491718 UNKNOWN 0.138384121

4 Paul 0.018195427 Solaris 0.109868605

5 UNKNOWN 0.012392099 Windows 0.070170534

6 Linux 0.003365347 Oscar 0.041655018

7 FreeBSD 0.002130803 HP-UX 0.021246855

8 MacOS 0.00092931 OpenBSD 0.002516075

9 Solaris 0.000367447 BSD/OS 0.001956947

10 NetBSD 0.000202193 NetCache 0.001677383

2011/2/4 修論審査 4141

実験データの作成特徴を番号に対応付ける表を作成 BGP Prefix～ OS については

カテゴリカルデータとして扱い、個別に番号を振る順序性・等間隔性を持たない value は 0 or 1

[ 対応表 ]1:messages2:spam3:ham4:greylisted5:session6:active days7:bgp prefix 201.221.197.0/248:bgp prefix 119.235.0.0/209:bgp prefix 71.13.80.0/20～中略～59305:asn 843459306:asn 500659307:asn 42517～中略～67951:country code DJ67952:country code JM67953:country code PG～中略～68160:rdns68161:os SymbianOS68162:os OpenBSD～後略～

2011/2/4 修論審査 4242

実験データの作成先の表に基づいてフォーマットを変更[ 変更前 ]IP, messages, spam, ham, greylisted, session, active days, bgp prefix, asn, country code, rdns, os4.21.175.95,11,0,11,60,0,2,4.0.0.0/9,3356,US,0,Windows8.7.218.53,10,0,10,34,0,3,8.0.0.0/9,3356,US,1,Windows12.11.148.84,10,0,10,26,0,3,12.11.148.0/24,14267,US,1,Oscar

[ 変更後 ]1 1:11 2:0 3:11 4:60 5:0 6:2 3938:1 61094:1 68135:1 68160:0 68173:1 #4.21.175.951 1:10 2:0 3:10 4:34 5:0 6:3 37815:1 61094:1 68135:1 68160:1 68173:1 #8.7.218.531 1:10 2:0 3:10 4:26 5:0 6:3 49865:1 63130:1 68135:1 68160:1 68167:1 #12.11.148.84

2011/2/4 修論審査 4343

SVM の出力実験結果

浮動小数点数で得られる 0 以上なら legit, 0未満なら spammer

[ 実験結果の一部 ]28.2089913.51072951.1482799～中略～-1.000785-2.0499438-1.0010235～後略～

※legit:正常なメール送信者

　 spammer: spam メール送信者

2011/2/4 修論審査 442010/11/30 第一回修論進捗発表 44

SVM (Support Vector Machine)

教師あり機械学習マージン最大化非線形な問題でも分類可能

ソフトマージンカーネルトリック

w ・x+b=0

マージン

y=1

y=-1

2011/2/4 修論審査 45

2011/2/4 修論審査 46

2011/2/4 修論審査 47

訓練データの偏りに対する対策アンダーサンプリング

訓練データ中の spammer の数を減らして legitの数に合わせる

　 legit 数 spammer 数判別精度　 (%) FPR　(%) FNR(%)

サンプリング前 3577 514360 99.85984 12.57241799 0.05365505

サンプリング後 3577 3577 97.97855 2.843188521 1.199672872

表３：サンプリング前後の判別率の変化



FPR がかなり改善された

2011/2/4 修論審査 48

カテゴリカルでないデータも含めた学習カテゴリカルなデータ

BGP Prefix, AS 番号 , 国番号 , OS, PTR レコードの有無

カテゴリカルでないデータ messages, spam, ham, greylisted, session,

active days 値の大きさに引きずられてまともな結果がでなかった

ので、使用しないでいた数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまうので、そのような特徴を用いる場合は　　スケーリングしないと使い物にならないと

の指摘

2011/2/4 修論審査 49

カテゴリカルでないデータも含めた学習

1　1:10　2:0　3:10　4:34　5:0　6:3　25509:1　42636:1　46637:1　46660:1　46669:1

1　1:25　2:0　3:25　4:33　5:0　6:11　19636:1　41855:1　46637:1　46660:0　46668:1

1　1:21　2:0　3:21　4:19　5:0　6:11　20500:1　42125:1　46637:1　46660:1　46671:1

1　1:0.000965903602820438　2:0　3:0.000977708251857646　4:0.000913192952299097　5:0　6:0.125　25509:1　42636:1　46637:1　46660:1　46669:1

1　1:0.0024147590070511　2:0　3:0.00244427062964411　4:0.000886334336055006　5:0　6:0.458333333333333　19636:1　41855:1　46637:1　46660:0　46668:1

1　1:0.00202839756592292　2:0　3:0.00205318732890106　4:0.000510313708637731　5:0　6:0.458333333333333　20500:1　42125:1　46637:1　46660:1　46671:1

2011/2/4 修論審査 50

カテゴリカルでないデータも含めた学習

　判別精度　 (%) FPR　(%) FNR(%)

① 99.85984 12.57241799 0.05365505

② 99.92588 6.412015997 0.03014346

③ 97.97855 2.843188521 1.199672872

④ 98.57506 1.741230534 1.108640811

表４：カテゴリカルでないデータを含めた場合の判別率の変化

①カテゴリカルなデータのみ、サンプリングなし

②カテゴリカルでないデータ有り、サンプリングなし

③カテゴリカルなデータのみ、サンプリング有り

④カテゴリカルでないデータ有り、スケーリング有り

カテゴリカルでないデータ

2011/2/4 修論審査 51

2011/2/4 修論審査 5252

（再掲）実験 2 内容と結果使用する特徴を限定して SVM を適用、様子を見る

messages～ active days の特徴を省く

カーネル関数判別精度(%)

FPR (%) FNR (%)

線形分離 (default)

99.8405325

13.96507444

0.063570403

多項式カーネル 99.85723952

12.54191507

0.056228169

RBF カーネル 99.82759111

20.08528623

0.033825298

シグモイドカーネル

99.4721702

44.51718041

0.223138722※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数


FPR が高く、 FNR が非常に低い

表１：適用したカーネル関数とその判別率

訓練データの偏りによるも

の

spammer 数はlegit 数の約 150倍

2011/2/4 修論審査 53

パラメータチューニング SVM ではカーネルパラメータの選択が重要

特に RBF カーネルでは顕著上手くパラメータを設定できればかなり有効

LIBSVM 付属のツールによるパラメータ探索 grid.py

2010/11/30 第一回修論進捗発表 53

カーネル関数判別精度 (%)　 FPR (%)　 FNR (%)　

RBF カーネル 99.82759111

20.08528623

0.033825298

カーネル関数判別精度 (%)　 FPR (%)　 FNR (%)　

RBF カーネル 99.89082510.3669493

20.04718821

4

表２：パラメータ適用前の判別率

LIBSVM でも推奨されている

表３：パラメータ適用後の判別率


　 FNR: False Negative Ratio = spammer を legit と判別した数 / spammer数

2011/2/4 修論審査 54

確率値に近似した結果

2010/11/30 第一回修論進捗発表 54

label1-11111111

label 1 -11 0.961098 0.0389017-1 0.244081 0.7559191 0.96111 0.03888971 0.96111 0.03888971 0.961967 0.03803311 0.999864 0.000135861 0.966642 0.03335791 0.961014 0.03898561 0.962324 0.0376763

確率値での出力も可能度合いで判断することができる

legit らしさ、 spammer らしさ閾値を設定してフィルタリングオプション未使

用オプション使用

-w オプションで重みづけした結果

の分析に利用

2011/2/4 修論審査 552010/11/30 第一回修論進捗発表 55

2011/2/4 修論審査 562010/11/30 第一回修論進捗発表 56

実験 1 内容 (1/3) 卒論のときに利用していたデータを SVM に適用

森さんに提供して頂いた SMTPログ (2008 年 4 月～ 7 月 ) SVM-light というモジュールを利用 SVM-light で利用できるようにフォーマットを変更 10-fold cross validation

[SVM-light の学習データ・テストデータのフォーマット ]

＜ line＞ .=. ＜ target＞＜ feature＞ : ＜ value＞＜ feature＞ : ＜ value＞ ...＜ feature＞ : ＜ value＞

＜ target＞ .=. +1 | -1 | 0 | ＜ float＞

＜ feature＞ .=. ＜ integer＞ | 'qid '

＜ value＞ .=. ＜ float＞

feature は整数で表されるので、各特徴に番号を割り当てる必要がある

特徴量

クラス

特徴量のインデックス

修士論文審査

Documents