修士論文審査

56
2011/2/4 修修修修 1 修修修修修修 修修修修修 修修修修修修修修 5109B084-7 修修修修修 修修 2 修 修修 修修 IP 修修修修修修修修修修修 SVM 修修修 spam 修修修修修修修

Upload: brandon-gray

Post on 30-Dec-2015

41 views

Category:

Documents


0 download

DESCRIPTION

修士論文審査. 「 IP アドレスの特徴を用いた SVM による spam メールの判別法」. 早稲田大学 基幹理工学研究科 5109B084-7 後藤研究室 修士 2 年 本嶋 悠也. Agenda. 研究の背景 研究の目的 既存手法 提案手法 実証実験 実験1 実験2 まとめ 今後の課題. 研究の背景. spam メールとは 受信者の意図に関わらず、自動的に送られてくるメール 不特定多数の相手に送られる、内容として広告・宣伝・誘導・詐欺等の性質が強いメール 問題点 メール整理に伴う時間の浪費・受信者への精神的負担 重要なメールの見落とし - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 修士論文審査

2011/2/4 修論審査 1

修士論文審査

早稲田大学 基幹理工学研究科5109B084-7

後藤研究室 修士 2 年 本嶋 悠也

「 IP アドレスの特徴を用いた

SVM による spam メールの判別法」

Page 2: 修士論文審査

2011/2/4 修論審査 2

Agenda

1. 研究の背景2. 研究の目的3. 既存手法4. 提案手法5. 実証実験

a. 実験1b. 実験2

6. まとめ7. 今後の課題

Page 3: 修士論文審査

2011/2/4 修論審査 3

研究の背景 spam メールとは

受信者の意図に関わらず、自動的に送られてくるメール 不特定多数の相手に送られる、内容として広告・宣伝・誘

導・詐欺等の性質が強いメール

問題点 メール整理に伴う時間の浪費・受信者への精神的負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 マルウェアへの感染

Page 4: 修士論文審査

2011/2/4 修論審査 4

研究の背景 spam メールは長年問題視されている メールのヘッダや本文に基づく対策手法は

精度の良いものが存在しているが、その計算量によって配送遅延の原因となる

メールのヘッダや本文によらない対策手法を提案する

Page 5: 修士論文審査

2011/2/4 修論審査 5

研究の目的 メールのヘッダや本文によらず、メール送信

者のIP アドレスで spam メール送信者か否かを判別する手法を SVM (Support Vector Machine)を用いて実現する。

Page 6: 修士論文審査

2011/2/4 修論審査 6

既存手法 2008 年度 卒業論文 「 IP アドレスの特徴を

用いた spam メール送信者判別方法」 ナイーブベイズ分類器を利用

IP ベースで spam メール送信者か否か判別各クラスにおける特徴の生起確率を用いる利用する特徴: BGP Prefix, AS 番号 , 国番号 , PTR,

OS

  FNR ( % ) FPR ( % )

2008-04 0.346 5.903926

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

表1:既存手法における判別精度

Page 7: 修士論文審査

2011/2/4 修論審査 7

既存手法 利用する特徴

BGP Prefix :IP アドレスに対応する、 AS 番号に関連付けられたネットワー

ク AS 番号:

その IP アドレスが属するネットワークの AS 番号 国番号:

その IP アドレスを割り当てられている国 PTR レコードの有無

逆引きドメイン名が設定されているか否か OS

IP アドレスから判定された、ホストの OS

例:早稲田大学 133.9.0.0/16

例:早稲田大学: AS17956

例: JP, US, CN, …

例: 133.9.81.1 → vox3.goto.info.waseda.ac.jp

例: Windows, Linux, Mac, …

Page 8: 修士論文審査

2011/2/4 修論審査 8

提案手法 IP アドレスから求めることのできる特徴を特徴ベ

クトルとして SVM に適用し、 spam メール送信者を判別する IP アドレスベースで判別 既存手法を踏まえつつ、新しい特徴を導入する

カテゴリカルでない特徴逆引きドメイン名に着目した特徴

SVM (Support Vector Machine) 教師あり機械学習の一つ カーネル関数により、非線形な問題にも適用可能

※カテゴリカルな特徴: 順序性、等間隔性を持たない特徴

Page 9: 修士論文審査

2011/2/4 修論審査 9

提案手法 利用する特徴 ( 既存手法と同じ )

BGP Prefix AS 番号 国番号 PTR レコードの有無 OS

Page 10: 修士論文審査

2011/2/4 修論審査 10

提案手法 利用する特徴 (カテゴリカルでない特徴)

メール送信回数:その IP アドレスからメールが送られた回数 spam メール送信回数:その IP アドレスから送られたメールの

うち  spam メールであると判定されたものの件数 ham メール送信回数:その IP アドレスから送られたメールのうち、 ham メール ( 正常なメール ) であると判定されたものの件数

グレイリスト:その IP アドレスから送られたメールの中で、グレイリストで受信が拒否されたものの件数

SMTPセッション: SMTPセッションを開始したが、メールが送られずにセッションを開始しただけで終わったものの件数

活動期間: 1 ヶ月の間にメールを送った日が何日間あったかナイーブベイズ分類器では特徴の生起確率を用いるため、カテゴリカルでない特徴を導入することが難しい

Page 11: 修士論文審査

2011/2/4 修論審査 11

提案手法 利用する特徴 ( 逆引きドメイン名に着目した特

徴 ) 逆引きドメイン名に含まれる数字の個数

逆引きドメイン名に含まれる数字の個数が、対応する IP アドレス

の数字の個数以上か否か S25R スパム対策方式のルール 1

逆引きドメイン名の最下位の名前が、数字以外の文字列で分断

された二つ以上の数字列を含むか否か

※S25R スパム対策方式

浅見秀雄が考案した手法。逆引きドメイン名の特徴に基づいて作られたルールを用いて、メール送信元がメール中継サーバかエンドユーザかを判断する。エンドユーザと思われるクライアントから送られたメールを spam メールと判断する。

Page 12: 修士論文審査

2011/2/4 修論審査 12

提案手法 特徴ベクトル

カテゴリカルな特徴 その特徴を持つか否か (0 or 1) で与える

カテゴリカルでない特徴 その特徴の値を [0,1] にスケーリングして与える

Page 13: 修士論文審査

2011/2/4 修論審査 13

提案手法 スケーリング

数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある

各特徴ごとに、

  として [0,1] にスケーリングする)( )- 特徴量の最小値(( )特徴量の最大値))) (- 特徴量の最小値((その特徴の特徴量

Page 14: 修士論文審査

2011/2/4 修論審査 14

実証実験 実験1:カテゴリカルでない特徴を導入した場合の 

        判別率の評価 実験2:逆引きドメイン名に着目した特徴を導入した       場合の判別率の評価 実験結果の評価

FPR: False Positive Ratio =      legit を spammer と判別した数 / legit 数 FNR: False Negative Ratio =      spammer を legit と判別した数 / spammer 数   として評価する 交差確認法 (cross validation) を用いる

Page 15: 修士論文審査

2011/2/4 修論審査 15

実験に用いるデータ 協力者に提供して頂いた、 1 ヶ月間の SMTPログ

この SMTPログではメールは分類済み   (spam / ham / greylisted / session) ログを集計し、 spammer,legit らしい IP アドレスを抽出 spammer : spam メール送信者 legit : 正常なメール送信者

IP アドレスごとに特徴を求め、特徴ベクトルを作成する

legit spammer

3577 514360

表2: SMTPログから抽出した IP アドレスの件数

legit spammer

3577 3577ランダムサンプリング

Page 16: 修士論文審査

2011/2/4 修論審査 16

実験1の結果 カテゴリカルでない特徴を導入した場合の判別率

  FPR (%) FNR(%)

① 2.8432  1.1997 

② 1.7412  1.1086 

①カテゴリカルな特徴のみの場合

②カテゴリカルでない特徴含む場合

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

表3:カテゴリカルでない特徴を導入した場合の判別率の変化

FPR, FNR が共に改善された

Page 17: 修士論文審査

2011/2/4 修論審査 17

実験2の結果 逆引きドメイン名に着目した特徴を導入した場合の

判別率

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

  FPR (%) FNR(%)

② 1.7412  1.1086 

③ 1.2327  0.7426 

②逆引きドメイン名に着目した特徴を含まない場合   ※実験1の②と同条件

③逆引きドメイン名に着目した特徴を含む場合

表4:逆引きドメイン名に着目した特徴を導入した場合の判別率の変化

FPR, FNR がさらに改善された

Page 18: 修士論文審査

2011/2/4 修論審査 18

まとめ IP アドレスから求めることのできる特徴を SVM

に 適用し、メール送信者が spam メール送信者か否かを判別する手法を提案した

ベイズ分類器と違い、 SVM ではカテゴリカルでない  特徴の導入が容易である

カテゴリカルでない特徴、逆引きドメイン名に着目した特徴の導入により判別率を向上させることができた

Page 19: 修士論文審査

2011/2/4 修論審査 19

今後の課題 判別に有効な新しい特徴の検討

提案手法で用いた特徴の他にも、判別に有効な特徴が存在する可能性がある

訓練量による判別率への影響 訓練データの量が増えた場合にどうなるか spammer と同等の件数の legit を用意する

Page 20: 修士論文審査

2011/2/4 修論審査 20

ご清聴ありがとうございました

Page 21: 修士論文審査

2011/2/4 修論審査 21

Page 22: 修士論文審査

2011/2/4 修論審査 22

補足資料

Page 23: 修士論文審査

2011/2/4 修論審査 23

spam メール spam メールとは

受信者の意図に関わらず、自動的に送られてくるメール 不特定多数の相手に送られる、内容として広告・宣伝・誘

導・詐欺等の性質が強いメール

問題点 メール整理に伴う時間の浪費・受信者への精神的負担 重要なメールの見落とし ネットワーク資源及びサーバ資源の浪費 サーバ資源の浪費に伴うメール配送遅延 マルウェアへの感染

Page 24: 修士論文審査

2011/2/4 修論審査 24

BGP Prefix

BGP Prefix と AS 番号の対応表は、「 Route Views Archive Project 」のものを整形して使用

Page 25: 修士論文審査

2011/2/4 修論審査 25

AS 番号 BGP Prefix 同様、対応表は Route Views

Archive Project のものを使用 AS 番号は BGP で経路制御を行う AS に割

り当てられる

Page 26: 修士論文審査

2011/2/4 修論審査 26

AS (Autonomous System)

大規模な TCP/IP ネットワークにおいて、各組織が保有・運用する自律したネットワーク インターネットはマクロに見ると、 AS を相互に接続した形態となっている

AS 間の経路制御に使われるプロトコルが BGP (Border Gateway Protocol)

AS 間の境界にあるルータは経路情報を交換する

Page 27: 修士論文審査

2011/2/4 修論審査 27

国番号 MaxMind社の GeoIP というデータベースを使用。 GeoIP は IP アドレスを地理情報にマッピングした データベースである。

Page 28: 修士論文審査

2011/2/4 修論審査 28

OS passive fingerprinting の実装の一つである p0f

というツールを用いて OS を判定 passive fingerprinting は、 OS によって TCPパケッ

トに記載するヘッダのデフォルト値の組み合わせが異なるという性質を利用し、 TCPパケットに記録されたヘッダの各属性値の組み合わせから、そのパケットを送出したホストの OS を判定する技術

p0f では、事前に集めた各 OS と属性値の組み合わせから構成されるテーブルを用意し、パッシブ測定によって得た TCP ヘッダの属性とテーブルを比較することにより、 OS を判定する

Page 29: 修士論文審査

2011/2/4 修論審査 29

グレイリスト spam メール対策手法の一つ

メール受信の際に送信元の情報をデータベースに登録し、メールは受信せずに一時的エラーを示すステータスコードを返す。その後、一定時間以上経ってから同じサーバからメールが再送された場合に受信する

spam メールを送信するサーバは、大量のメールを短時間に送信することを重視して、一時的エラーに対して再送を行わないという特徴を利用している

Page 30: 修士論文審査

2011/2/4 修論審査 30

逆引きドメイン名 DNS を用いて IP アドレスからドメイン名に変換

する ことを逆引きという 逆引きによって得られるドメイン名が逆引きドメイン

名 逆引きを設定していない IP アドレスも存在する ISP によって自動的に付加されている IP アドレスも存

在する ドメイン名が IP アドレス形式のものはその可能性が高い 例: 192.168.0.1.example.com

Page 31: 修士論文審査

2011/2/4 修論審査 31

S25R スパム対策方式 浅見秀雄が考案した spam メール対策手法 ルール

0: 逆引き失敗 1: 逆引き FQDN の最下位の名前が、数字以外の文字列で分断された二つ以上の文字列を含む

2: 逆引き FQDN の最下位の名前が、 5 個以上連続する数字を含む 3: 逆引き FQDN の上位3階層を除き、最下位または下位から 2 番目の名前が数字で始まる

4: 逆引き FQDN の最下位の名前が数字で終わり、かつ下位から 2 番目の名前が、 1 個のハイフンで分断された二つ以上の数字列を含む

5: 逆引き FQDN が 5 階層以上で、下位 2階層の名前がともに数字で終わる

6: 逆引き FQDN の最下位の名前が「 dhcp 」、「 dialup 」、「 ppp 」、または DSL系の名前で始まり、かつ数字を含む

Page 32: 修士論文審査

2011/2/4 修論審査 32

カテゴリカルでない特徴の導入 スケーリング

数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまう場合がある

各特徴ごとに、

  として [0,1] にスケーリングする)( )- 特徴量の最小値(( )特徴量の最大値))) (- 特徴量の最小値((その特徴の特徴量

Page 33: 修士論文審査

2011/2/4 修論審査 33

訓練データの偏りに対する対策 サンプリング

正例、負例の数に偏りがある場合、予測精度が低下する spammer の件数を legit と同じ数に減らす ランダムサンプリング

  legit 数 spammer 数 FPR (%) FNR(%)

サンプリング前 3577 514360 12.57241799 0.05365505

サンプリング後 3577 3577 2.843188521 1.199672872

表:サンプリング前後の判別率の変化

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

Page 34: 修士論文審査

2011/2/4 修論審査 34

SVM の分類結果を確率値に近似 SVM の出力をシグモイド関数に当てはめることで確

率値へのよい近似が得られることは実験的に示されている John Platt. “Probabilistic Outputs for Support Vector

Machines and Comparisons to Regularized Likelihood Methods” In Advances in Large Margin Classifiers. MIT Press, 1999.

34

Page 35: 修士論文審査

2011/2/4 修論審査 35

交差確認法 10-fold cross validation(10 分割交差確認法 )

1. データを 10個に分ける2. 分けたうちの一つを除外した、 9 個のデータを使

ってパラメータを推定3. 除外するデータを毎回変えて、推定を 10 回繰り返す

4. 10 回の推定の平均値で評価する

Page 36: 修士論文審査

2011/2/4 修論審査 36

各属性の生起確率の例 (BGP)

 spammer legit

BGP Prefix 生起確率 BGP Prefix 生起確率1 83.0.0.0/11 0.012366825 210.157.16.0/20 0.045848476

2 60.16.0.0/13 0.009378645 202.72.48.0/21 0.025719877

3 221.200.0.0/14 0.009291158 211.125.80.0/20 0.024042494

4 190.42.0.0/16 0.005385333 59.106.0.0/17 0.023483366

5 190.40.0.0/16 0.005150089 17.254.6.0/24 0.017892088

6 201.240.0.0/16 0.004932343 210.150.0.0/16 0.013139502

7 86.128.0.0/10 0.004638774 66.163.168.0/21 0.012300811

8 201.230.0.0/16 0.004391866 202.218.0.0/16 0.011182555

9 90.192.0.0/11 0.003830002 125.200.0.0/13 0.009225608

10 190.43.0.0/16 0.003769733 202.248.0.0/16 0.008946044

Page 37: 修士論文審査

2011/2/4 修論審査 37

各属性の生起確率の例 (AS 番号 )

 spammer legit

AS 番号 生起確率 AS 番号 生起確率

1 9121 0.092810483 7506 0.072407045

2 4837 0.042635508 4713 0.071009226

3 4134 0.03673886 2514 0.042773274

4 6147 0.032210903 23820 0.034386357

5 7470 0.020983358 2497 0.033547666

6 19262 0.020178474 4694 0.033268102

7 3269 0.017063924 15169 0.033268102

8 22927 0.017011432 9370 0.032708974

9 7738 0.016595381 714 0.023483366

10 5617 0.015596081 4732 0.021805983

Page 38: 修士論文審査

2011/2/4 修論審査 38

各属性の生起確率の例 ( 国情報 )

 spammer legit

国情報 生起確率 国情報 生起確率

1 CN 0.098390233 JP 0.668157674

2 TR 0.093220701 US 0.241543193

3 US 0.075291625 GB 0.011462119

4 RU 0.052846256 CA 0.010902991

5 ES 0.05135897 FR 0.00866648

6 GB 0.048143324 DE 0.007268661

7 BR 0.047472587 CN 0.004473022

8 CO 0.045133758 KR 0.004193458

9 AR 0.035484874 NL 0.00363433

10 PE 0.032759157 IT 0.003354767

Page 39: 修士論文審査

2011/2/4 修論審査 39

各属性の生起確率の例 (RDNS)

 spammer legit

DNS 逆引き 生起確率 DNS 逆引き 生起確率

1 1 0.677844311 1 0.952194576

2 0 0.322155689 0 0.047805424

Page 40: 修士論文審査

2011/2/4 修論審査 40

各属性の生起確率の例 (OS)

 spammer legit

OS 生起確率 OS 生起確率

1 Windows 0.630855821 Linux 0.457366508

2 Bob 0.302910413 FreeBSD 0.14984624

3   0.028491718 UNKNOWN 0.138384121

4 Paul 0.018195427 Solaris 0.109868605

5 UNKNOWN 0.012392099 Windows 0.070170534

6 Linux 0.003365347 Oscar 0.041655018

7 FreeBSD 0.002130803 HP-UX 0.021246855

8 MacOS 0.00092931 OpenBSD 0.002516075

9 Solaris 0.000367447 BSD/OS 0.001956947

10 NetBSD 0.000202193 NetCache 0.001677383

Page 41: 修士論文審査

2011/2/4 修論審査 4141

実験データの作成 特徴を番号に対応付ける表を作成 BGP Prefix~ OS については

カテゴリカルデータとして扱い、個別に番号を振る 順序性・等間隔性を持たない value は 0 or 1

[ 対応表 ]1:messages2:spam3:ham4:greylisted5:session6:active days7:bgp prefix 201.221.197.0/248:bgp prefix 119.235.0.0/209:bgp prefix 71.13.80.0/20~中略~59305:asn 843459306:asn 500659307:asn 42517~中略~67951:country code DJ67952:country code JM67953:country code PG~中略~68160:rdns68161:os SymbianOS68162:os OpenBSD~後略~

Page 42: 修士論文審査

2011/2/4 修論審査 4242

実験データの作成 先の表に基づいてフォーマットを変更[ 変更前 ]IP, messages, spam, ham, greylisted, session, active days, bgp prefix, asn, country code, rdns, os4.21.175.95,11,0,11,60,0,2,4.0.0.0/9,3356,US,0,Windows8.7.218.53,10,0,10,34,0,3,8.0.0.0/9,3356,US,1,Windows12.11.148.84,10,0,10,26,0,3,12.11.148.0/24,14267,US,1,Oscar

[ 変更後 ]1 1:11 2:0 3:11 4:60 5:0 6:2 3938:1 61094:1 68135:1 68160:0 68173:1 #4.21.175.951 1:10 2:0 3:10 4:34 5:0 6:3 37815:1 61094:1 68135:1 68160:1 68173:1 #8.7.218.531 1:10 2:0 3:10 4:26 5:0 6:3 49865:1 63130:1 68135:1 68160:1 68167:1 #12.11.148.84

Page 43: 修士論文審査

2011/2/4 修論審査 4343

SVM の出力 実験結果

浮動小数点数で得られる 0 以上なら legit, 0未満なら spammer

[ 実験結果の一部 ]28.2089913.51072951.1482799~中略~-1.000785-2.0499438-1.0010235~後略~

※legit:正常なメール送信者

  spammer: spam メール送信者

Page 44: 修士論文審査

2011/2/4 修論審査 442010/11/30 第一回修論進捗発表 44

SVM (Support Vector Machine)

教師あり機械学習 マージン最大化 非線形な問題でも分類可能

ソフトマージン カーネルトリック

w ・x+b=0

マージン

y=1

y=-1

Page 45: 修士論文審査

2011/2/4 修論審査 45

Page 46: 修士論文審査

2011/2/4 修論審査 46

Page 47: 修士論文審査

2011/2/4 修論審査 47

訓練データの偏りに対する対策 アンダーサンプリング

訓練データ中の spammer の数を減らして legitの数に合わせる

  legit 数 spammer 数 判別精度  (%) FPR (%) FNR(%)

サンプリング前 3577 514360 99.85984 12.57241799 0.05365505

サンプリング後 3577 3577 97.97855 2.843188521 1.199672872

表3:サンプリング前後の判別率の変化

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

FPR がかなり改善された

Page 48: 修士論文審査

2011/2/4 修論審査 48

カテゴリカルでないデータも含めた学習 カテゴリカルなデータ

BGP Prefix, AS 番号 , 国番号 , OS, PTR レコードの有無

カテゴリカルでないデータ messages, spam, ham, greylisted, session,

active days 値の大きさに引きずられてまともな結果がでなかった

ので、使用しないでいた数値の範囲の大きな特徴が数値の範囲の小さい特徴を支配してしまうので、そのような特徴を用いる場合は  スケーリングしないと使い物にならないと

の指摘

Page 49: 修士論文審査

2011/2/4 修論審査 49

カテゴリカルでないデータも含めた学習

1 1:10 2:0 3:10 4:34 5:0 6:3 25509:1 42636:1 46637:1 46660:1 46669:1

1 1:25 2:0 3:25 4:33 5:0 6:11 19636:1 41855:1 46637:1 46660:0 46668:1

1 1:21 2:0 3:21 4:19 5:0 6:11 20500:1 42125:1 46637:1 46660:1 46671:1

1 1:0.000965903602820438 2:0 3:0.000977708251857646 4:0.000913192952299097 5:0 6:0.125 25509:1 42636:1 46637:1 46660:1 46669:1

1 1:0.0024147590070511 2:0 3:0.00244427062964411 4:0.000886334336055006 5:0 6:0.458333333333333 19636:1 41855:1 46637:1 46660:0 46668:1

1 1:0.00202839756592292 2:0 3:0.00205318732890106 4:0.000510313708637731 5:0 6:0.458333333333333 20500:1 42125:1 46637:1 46660:1 46671:1

Page 50: 修士論文審査

2011/2/4 修論審査 50

カテゴリカルでないデータも含めた学習

  判別精度  (%) FPR (%) FNR(%)

① 99.85984 12.57241799 0.05365505

② 99.92588 6.412015997 0.03014346

③ 97.97855 2.843188521 1.199672872

④ 98.57506 1.741230534 1.108640811

表4:カテゴリカルでないデータを含めた場合の判別率の変化

①カテゴリカルなデータのみ、サンプリングなし

②カテゴリカルでないデータ有り、サンプリングなし

③カテゴリカルなデータのみ、サンプリング有り

④カテゴリカルでないデータ有り、スケーリング有り

カテゴリカルでないデータ

Page 51: 修士論文審査

2011/2/4 修論審査 51

Page 52: 修士論文審査

2011/2/4 修論審査 5252

(再掲)実験 2 内容と結果 使用する特徴を限定して SVM を適用、様子を見る

messages~ active days の特徴を省く

カーネル関数 判別精度(%)

FPR (%) FNR (%)

線形分離 (default)

99.8405325

13.96507444

0.063570403

多項式カーネル 99.85723952

12.54191507

0.056228169

RBF カーネル 99.82759111

20.08528623

0.033825298

シグモイドカーネル

99.4721702

44.51718041

0.223138722※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer 数

FPR が高く、 FNR が非常に低い

表1:適用したカーネル関数とその判別率

訓練データの偏りによるも

spammer 数はlegit 数の約 150倍

Page 53: 修士論文審査

2011/2/4 修論審査 53

パラメータチューニング SVM ではカーネルパラメータの選択が重要

特に RBF カーネルでは顕著 上手くパラメータを設定できればかなり有効

LIBSVM 付属のツールによるパラメータ探索 grid.py

2010/11/30 第一回修論進捗発表 53

カーネル関数 判別精度 (%)  FPR (%)  FNR (%) 

RBF カーネル 99.82759111

20.08528623

0.033825298

カーネル関数 判別精度 (%)  FPR (%)  FNR (%) 

RBF カーネル 99.89082510.3669493

20.04718821

4

表2:パラメータ適用前の判別率

LIBSVM でも推奨されている

表3:パラメータ適用後の判別率

※FPR: False Positive Ratio = legit を spammer と判別した数 / legit 数

  FNR: False Negative Ratio = spammer を legit と判別した数 / spammer数

Page 54: 修士論文審査

2011/2/4 修論審査 54

確率値に近似した結果

2010/11/30 第一回修論進捗発表 54

label1-11111111

label 1 -11 0.961098 0.0389017-1 0.244081 0.7559191 0.96111 0.03888971 0.96111 0.03888971 0.961967 0.03803311 0.999864 0.000135861 0.966642 0.03335791 0.961014 0.03898561 0.962324 0.0376763

確率値での出力も可能 度合いで判断することができる

legit らしさ、 spammer らしさ 閾値を設定してフィルタリングオプション未使

用 オプション使用

-w オプションで重みづけした結果

の分析に利用

Page 55: 修士論文審査

2011/2/4 修論審査 552010/11/30 第一回修論進捗発表 55

Page 56: 修士論文審査

2011/2/4 修論審査 562010/11/30 第一回修論進捗発表 56

実験 1 内容 (1/3) 卒論のときに利用していたデータを SVM に適用

森さんに提供して頂いた SMTPログ (2008 年 4 月~ 7 月 ) SVM-light というモジュールを利用 SVM-light で利用できるようにフォーマットを変更 10-fold cross validation

[SVM-light の学習データ・テストデータのフォーマット ]

< line> .=. < target> < feature> : < value> < feature> : < value> ...< feature> : < value>

< target> .=. +1 | -1 | 0 | < float>

< feature> .=. < integer> | 'qid '

< value> .=. < float>

feature は整数で表されるので、各特徴に番号を割り当てる必要がある

特徴量

クラス

特徴量のインデックス