11 月 24 日 インターネット検索の応用
DESCRIPTION
11 月 24 日 インターネット検索の応用. ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu. ロボット型検索エンジンの使い方. 目的のページの作成者はどんな単語を使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする コアラ AND 動物 コアラ OR koala コアラ – ネット -ADSL. 一度検索して見つからなかったら. 同義語で検索する - PowerPoint PPT PresentationTRANSCRIPT
11 月 24 日インターネット検索の応用
ロボット型検索エンジンの使い方 goo Google
ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム
全文検索エンジン Namazu
ロボット型検索エンジンの使い方 目的のページの作成者はどんな単語を
使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする
コアラ AND 動物 コアラ OR koala コアラ –ネット -ADSL
一度検索して見つからなかったら
同義語で検索する シソーラス検索
http://www.gengokk.co.jp/thesaurus/ 用語辞典
http://e-words.jp/ IT 用語辞典 検索されたページを読んで使えそうな専門用
語を見つけ,その専門用語で検索する
goo で検索してみようhttp://www.goo.ne.jp
画像,カテゴリー,タウンページ,ケータイ 検索オプションを使う
いろいろな検索オプションを使う http://search.goo.ne.jp/advanced.jsp
教えて! goo みんなの疑問、みんなで解決!
ブログの検索 キャッシュページを見てみる
Web サーバーが一時的に利用できない場合や頻繁に書き換えを行っている Web ページを見るときに便利
Google で検索してみようhttp://www.google.co.jp
I’m Feeling Lucky を使う 会社のホームページを見る
検索オプションを使う いろいろな検索オプションを使う
関連ページを検索する 検索結果の関連ページリンク
キャッシュページを見てみる Web サーバーが一時的に利用できない場合や頻繁に書
き換えを行っている Web ページを見るときに便利 分野を絞って検索する その他
荷物検索,会社情報検索,株価検索,辞書検索,路線検索
ロボット型検索エンジンの仕組み
1. スパイダ(ロボット)と呼ばれる自動プログラムを使って Web サイトのページをダウンロードする
2. インデクサと呼ばれる自動プログラムでページの可視部分を抽出し,キーワード,タイトル,リンク,などの重要な情報を用いてページ解析する.
3. データベースに Web サイトの解析結果を追加し,ユーザが検索可能な状態にする.ランキングアルゴリズムにより,検索結果の順位が決定される
スパイダ ウェブ上のリンクをたどって情報を収集する
こと ウェブ(蜘蛛の巣)のリンク(糸)をたどっ
て目的の情報(獲物)を捕らえる → スパイダ(蜘蛛)
インデクサ 検索したいコンテンツをあらかじめ検
索しやすい形のファイルに変換するプログラム
各コンテンツを形態素解析技術を用いて単語を分解し,それらの単語をインデックスファイルに記録する
形態素解析 (インデクサ)
形態素 = 意味を担う最小の言語要素 形態素解析
単語の出現形から原形を求める処理(英語など) solving → solve + ing (進行形) easier → easy + er (比較級) problems → problem + s (複数)
単語分割と語の活用(日本語など) 日本的 → 日本 + 的 言語モデル → 言語 + モデル 使い込む → 使う + 込む
形態素解析の手法 (インデクサ)
最長一致法 分割数最小法
例:畜産物価格安定法 畜産物|価格|安定|法
最長一致法 (インデクサ)
文字列の先頭から解析を始め,後続する可能性がある単語が複数あるときは,最長の単語を選択して先に進む
○ (8) 畜産物|価格|安定|法 × (4) 畜産 価 安
分割数最小法 (インデクサ)
入力文字列を構成する単語の総数が最小になる解釈を優先する方法
例:言語学入門講座 ○ (3) 言語学|入門|講座 × (4) 言語|学|入門|講座 × (4) 言語学|入|門|講座
ランキングアルゴリズムGoogle の中身(ちょっとだけ)
Google の検索結果の順位付け 如何にすれば自分の作ったページを高順位に表
示させられるか. Google は何を基準に検索結果を順位付けしてい
るのか PageRank とその他のランキングアルゴリズ
ム
キーワード(検索語)の埋め込み方( Google に好かれるには)
キーワード : w が入力された時,検索結果の上位に表示されるためには キーワード w を
Webページのタイトル内に使う イメージファイル名, ALT属性, title属性に使う 大きな字で表示する トップページからのリンクで使用する 別のサイトや内部サイトへのリンクテキストで使用する メジャーなサイトへのリンクで使用する などなど
キーワード(検索語)の埋め込み方( Google に好かれるには) 続き
last modified (最終更新日)ヘッダを使う HTML の構文誤りのない Web ページを作る 1 つのファイルのサイズを大きくしない( 20k
バイト以下) HTML ファイル中のテキストの比率を高くする などなど
PageRank 学術論文の重要度
他の研究論文から何度引用されているかによって評価できる
Web ページの重要度 他の Web ページからのハイパーリンクの数で評
価できる
PageRank の式
85.0)10(:
1:)1(
PageRank1:)1(
PageRank:)(
))(
)(
)1(
)1(()1()(
通常 制動係数ンクの数から外に向けられるリページ
のページのページ
dd
TTC
TTPR
AAPR
TnC
TnPR
TC
TPRddAPR
Web ページ A の PageRank は Web ページ A にリンクしている各ページの PageRank を,それぞれのページからの外向きリンク数で割った値の総和
PageRank の図 1
A
B
ページ Bの方がページ Aよりも重要なページ
ハイパーリンク
ハイパーリンク
PageRank の図 2
AB
ページ Bの方がページ Aよりも重要なページ
ハイパーリンク
ハイパーリンク
たくさんの外部リンクを持つページ
個人で手軽に使える検索システムNamazu
URL: http://www.namazu.org 自分の管理している Web サイト内の検
索 例: http://ir.cs.yamanashi.ac.jp/~ysuz
uki
最後にインターネット検索での注意
Web に書いてあることを鵜呑みにしない 検索結果をいくつか読んでみる できれば他のメディアでも確認する
いろいろな検索サイトで検索を試してみる 検索サイトの「使い方」のページをよく読む
検索方法が頻繁に改良されているので,たまには読み直す
授業資料http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine.html
参考にした文献 インターネット 最強の検索術 関裕司著 リブロス刊 検索の鉄人 / 関裕司
http://www.shikencho.com/ GOOGLE HACKS オライリー・ジャパン SPIDERING HACKS オライリー・ジャパン
レポート ロボット型の検索エンジン( Google,goo など)を
使って検索してください. 検索して調べたいことを明確に書く 利用したキーワード,検索オプションを書く 目的のページの URL とその表示順位を書く
授業の前と後でインターネット検索についての考え方に変化はありましたか.あればどのように変化したか書いてください.なければ検索の方法について書いてください.
授業の感想を書いてください(悪く書いても減点はしません)
レポート(提出期限,提出方法)
提出期限 12 月 01 日 17:00 提出方法
Email [email protected] 宛て Subject は人間とコンピュータ レポート
レポート用紙 A3 号館 5 階 K514 号室の前のレポート入れ