Download - 修士論文
Amazon レビューにおける , レビューテキストが購買ランキン
グに与える要因の日米比較
東京工業大学 社会理工学研究科経営工学専攻 鍾研究室
14M42085 叶 昴
発表構成1. 研究背景2. 研究目的3. 分析の流れ4. 分析結果5. 結論・今後の課題6. 参考文献
研究背景と先行研究
国家間消費者の購買要因比較に関する研究•Nagashima(1970)日本人とアメリカ人を対象に,日本製とアメリカ製の製品に関する印象を分析.技術面と価格面の認識の違いがある•Godey et al.(2012)6 カ国において,消費者が贅沢品を購買する要因を分析.日本はどの国よりも,価格を重視して購買する.
05/01/2023 修論論文発表会 2
課題•アンケート調査は,アンケート作成・集計などにコストがかかる.•消費者が好む購買要因の変化を追うことができない.
1. 研究背景
グローバル化により,企業は国内のみでなく,海外市場の消費者行動を知る必要性が増大.
研究背景と先行研究
Web上のレビューデータを用いた研究• Mayzlin and Chevalier(2006)
レビューデータ(レビュー件数 , 平均評点など)は製品売上に影響 .
• Nicolay and Ghose(2011)定量データのみではなく,レビューテキストの内容も製品売上に影響 .
05/01/2023 修論論文発表会 3
1. インターネットの普及より,マーケティング・リサーチ方法が多様化.
2. レビューデータによる,製品の購買要因分析手法の登場 .課題製品特長の選定が人力によって行われるため,主観的である.
1. 研究背景
図 1 :日本のインターネット普及率推移
出所:総務省 (2015)
研究目的
国別の消費者の比較に関する先行研究の課題– アンケート調査には,膨大なコストと時間がかかる– 消費者が重視する製品特徴の変化を追えない.
研究目的
概要
05/01/2023 修論論文発表会 4
2. 研究目的
• Amazon レビューデータを用いて,日本とアメリカ消費者を例に製品購買に影響する要因を比較 .
• 製品特徴を示す単語を単語のクラスタリングにより,
自動的に作成.
• アンケートに代わり,レビューデータを用いた新たな国家間比較のマーケティング・リサーチ手法の提案 .
分析の流れ
05/01/2023 修論論文発表会 5
3. 分析の流れ
1.日本 (Amazon.jp) とアメリカ (Amazon.com) より,製品データとレビューデータを取得 . データの概要説明 .
製品データ
2. テキストの形態素解析 3. 単語の出現頻度をカウント 4. 単語のクラスタリング
レビューデータ
5. モデル作成パネルデータ分析
Amazonデータ取得
データセットの概要
• Amazon レビューの掃除機
05/01/2023 修論論文発表会 6
3. 分析の流れ
• 3 製品カテゴリーの売上 TOP100 の製品を分析対象 .• 「重複出現製品」と「部品・パーツ」製品 , 「レビューが
0 件」の製品,「データに欠損値がある」製品は対象外 .
表 1: 取得したデータの一覧 表 2: 取得したデータの一覧
期間: 2014 年 7 月 20 日~ 2015 年 10月 20 日
データセットの概要
• 現在の製品情報の例
• レビューデータの例
05/01/2023 修論論文発表会 7
3. 分析の流れ
表 3: 現在の製品情報の例
表 4: レビューデータの例
• データはプログラミング言語 Python を用いて Webスクレイピングによりデータを取得 .
データセットの概要
• Amazon では過去のデータは取得できない .日本の過去データは Web サイト「モノレート」から取得アメリカは「 Keepa 」から過去データを人力で取得.
• 過去の製品情報の例
05/01/2023 修論論文発表会 8
3. 分析の流れ
表 5: 過去の製品情報の例
データの記述統計
05/01/2023 修論論文発表会 9
3. 分析の流れ
表 6 : 取得情報の記述統計(日本)
レビューテキスト
表 7 : 取得情報の記述統計(アメリカ)
• 価格日本の方がアメリカよりもが高い .• レビュー件数はアメリカの方が日本より多い .
テキストの形態素解析
• レビューテキストは文章のままでは分析できない日本語の場合
– MeCab を用いて形態素解析を行うことで品詞情報を取得
英語の場合– 単語間がスペースが区切られている .– 動詞,名詞を原型に統一する( Stemming ) .– TreeTagger を使用して品詞情報取得
05/01/2023 修論論文発表会 10
例:この製品のデザインは良い!この | 製品 | の | デザイン | は | 良い | !
連体詞 名詞 助詞 名詞 助詞 形容詞 記号
3. 分析の流れ
単語の出現頻度をカウント
• 各レビュー内の「名詞」とその出現回数を数える.
05/01/2023 修論論文発表会 11
3. 分析の流れ
例: 「製品のデザインが良い」という文章には「製品」が 1回 , 「デザイン」が 1回出現する .
{“ 手軽” :3, “製品” :2, “手頃” :1}
{“ノズル” :4, “ ダニ” :2, “ ベッド” :1}
{“battery”:3, “life”:1, “quality”:3}
以下の名詞は削除1.ストップワード , 1 文字の名詞 , 「この」 , 「その」な
ど指示語2.全レビュー内において , 出現頻度が 1回のみのノイズ
単語3.全レビュー内の 10%以上で出現する単語
例:「掃除」 , 「吸引」など当たり前の単語を削除
図 2 :テキストの Bag-of-words 表現
テキストデータのクラスタリング
• 全ての単語を変数として扱うと , 次元が膨大になってしまう .LDA(Latent Dirichlet Allocation) を用いた次元削減
05/01/2023 修論論文発表会 12
3. 分析の流れ
図 3 :LDA のグラフィカルモデル
プログラミング Python言語のライブラリ gensim を使用アルゴリズムは変分ベイズ法の拡張 .トピック数 20, α, β = 1/ トピック数
: パラメータ
: 単語数
: レビュー数
: トピック分布 〜 Dir(α)
: トピック z
: 単語 w : カテゴリー数
: 単語分布〜 Dir(β)
図 4 : 使用記号の解説
例:「バッテリ」「充電」「電源」は同じ話題について書いている .
テキストデータのクラスタリング
05/01/2023 修論論文発表会 13
3. 分析の流れ
値段 価格 手頃
髪の毛 ゴミ ・・・
ダニ ほこり 充電
バッテリ 高級 ・・・
・・・
値段 手頃 高級 満足
・・・髪の毛 ゴミ ほこ
り ダニ
・・・
電池 充電 バッ
テリ チャ
ージ
文章のトピック分布 1
2
各レビューが「価格」 , 「ゴミ」等 ,どのトピックに属するかの確率分布を得る .
レビュー1
レビュー2
図 5 : トピックモデルの概念図出所:岩本 (2015) を参考に筆者作成
トピックの単語分布
1
2
3
モデルについて
1. パネルデータ分析
2. 製品の人気度・広告宣伝費などの omitted variable を考慮 .
05/01/2023 修論論文発表会 14
•説明変数に目的変数の 1 期前のラグを含むため , 動的パネル データ分析 (DGMM) に用いる, Arellano Bond Estimator を使用.•操作変数に過去の期間の価格データを用いる .
: 製品 j の期間 t におけるランキング
: 製品情報のデータベクトル
: 製品 j の期間 t における価格
: 製品 j の固定効果
: トピック変数データベクトル
•期間は1ヶ月ごとの 15 期間 .•固定効果モデルを使用 .
3. 分析の流れ
図 6 : モデル使用記号の解説Nicolay and Ghose(2011)
LDA による次元削減の結果(日本)
05/01/2023 修論論文発表会 15
4. 分析結果
表 8 : Amazon.jp における LDA によるトピック分類(一部)
• 「バッテリ」,「電池」,「交換」が 1つのトピックにまとまった.
• 「布団」,「小型」,「コンパクト」,「収納」が出現している.
LDA による次元削減の結果(アメリカ)
05/01/2023 修論論文発表会 16
表 9 : Amazon.com における LDA によるトピック分類(一部)
• 同様に充電に関してクラスターとしてまとまっている .• 「 second 」, 「 minute 」,「 dog 」 , 「 pet 」が出現し
ている.
4. 分析結果
分析結果(日本)
05/01/2023 修論論文発表会 17
4. 分析結果
表 10: 日本 (Amazon.jp) の分析結果(製品情報データ)
• Fixed Effect Model でも DGMM でも符号はほとんど一致
• 有意になっている変数は DGMM では減少.1 期前の売上ランキングに大きく影響されているため .
分析結果(日本) 続き
05/01/2023 修論論文発表会 18
表 11: 日本 (Amazon.jp) の分析結果(トピック変数の結果)
4. 分析結果
考察(日本)
1. 値段が上がると , 売上ランキングは下がる .
2. レビュー件数が増えれば , 売上げランキングは上がる
3. トピック変数を加えた場合 , 「平均評価」の係数が若干小さくなる傾向がある .
4. トピック 17 の係数が負 .消費者は「髪の毛」 , 「ホコリ」 , 「布団」がのゴミが吸収できるかに注目 .
05/01/2023 修論論文発表会 19
4. 分析結果
表 12:係数の符号
消費者は評価のみでなくレビューも読み , 製品の購入を判断すると考えられる.→先行研究と一致
分析結果(アメリカ)
05/01/2023 修論論文発表会 20
表 13: アメリカ( Amazon.com )の分析結果(製品情報データ)
4. 分析結果
Price の係数の値が日本よりも小さい「評価点数」が有意ではない
DGMM では「一期前のランキング」が有意になる
分析結果(アメリカ) 続き
05/01/2023 修論論文発表会 21
表 14: アメリカ( Amazon.com )の分析結果(トピック変数)
4. 分析結果
考察(アメリカ)
1. 日本と同様の部分「値段」,「レビュー数」,「星 5 レビュー数」が有意である .
2. 異なる部分「評価点数」が有意ではない
3. トピック変数について– 日本より有意であるトピックが多い .– トピックの符号は記号がほとんど正
理由仮説:マイナス意見が多いため名詞に係っている形容詞を調べる必要がある .
05/01/2023 修論論文発表会 22
4. 分析結果
表 15:係数の符号
日本とアメリカの比較
定量データ– 「価格」は日本の方が,アメリカよりも係数の数値
が高い傾向にある.日本人の方が価格を重要視するためと考えられる.→先行研究と一致
– 日本の方が「平均評価点数」,「レビュー件数」を気にする.
テキストデータ(有意になったトピック)– 共通して出現したトピック内の単語 「付属品」,「ノズル」,「ブラシ」,「充電」– 日本のみ:「小型」,「収納」,「手軽」,「布団」
– アメリカのみ:「 time 」,「 minutes 」,「 dog 」,「 cat 」,「 carpet 」
日米間の家の広さの差による影響があると考えられる.
05/01/2023 修論論文発表会 23
4. 分析結果
まとめ・貢献
まとめ• アンケートの代わりに,レビューデータを用いた日本
とアメリカ消費者の製品購買に影響を与える要因を比較.
• LDA を用いることで , 製品特徴を明らかにできた .– 先行研究で人力作業の部分を自動化に成功した.
• パネルデータ分析の結果,製品の売上に影響する要因を明らかにできた.– 日米の消費者が重要視する製品特徴には差がある.
• レビューデータを用いた比較分析の有用性を示せた.貢献• レビューデータを初めて国家間の消費者比較における
マーケティング・リサーチへ応用05/01/2023 修論論文発表会 24
5. 結論・今後の課題
示唆
•企業の製品プロモーションに対する提案1. 共通化する部分
「付属品」や「吸引能力」などの掃除機の性能2. 差別化する部分
日本は「価格設定」や「製品サイズ」,アメリカは「充電時間」,「ペットの汚れ」対策でできる.
•販売方法– 日本では,小型化を行うことで収納しやすさを訴求 .また,価格を重要視するため,時期によって「セール」や「値下げ」を行う.
– アメリカでは,「充電能力」や「ペットの毛の吸引」に焦点を当てる.
05/01/2023 修論論文発表会 25
5. 結論・今後の課題
今後の課題
• データの制約– Amazon以外のサイト,掃除機以外の製品でも同じ結果が得られるかの検証.
– ユーザー属性を取得できない• テキストデータの加工
– 表記のゆれ「ホコリ」,「ほこり」,「埃」の統一• LDA による次元削減
– 適切なトピック数の設定方法を見つける.• 提案モデル
– 名詞のみでなく,「名詞と形容詞」の係り受けを用いる.
– 製品のブランドや広告効果を考慮.
05/01/2023 修論論文発表会 26
5. 結論・今後の課題
参考文献
• Godey Bruno, et al.(2012), "Brand and country-of-origin effect on consumers' decision to purchase luxury products", Journal of Business Research, Vol.65(10) , pp. 1461- 1470.
• Mayzlin, Chevalier(2006), "The Effect of Word of Mouth on Sales: Online Book Reviews", Journal of Marketing Research, Vol.43(3) , pp. 345-354.
• Nagashima Akira(1970), "A Comparison of Japanese and U. S. Attitudes toward Foreign Products", Journal of Marketing, Vol.34(1) , pp. 68-74.
• Nikolay Archak, Anindya Ghose, Panagiotis G. Ipeirotis(2011), "Deriving the Pricing Power of Product Features by Mining Consumer Reviews", Journal of Management Science, Vol.57(8) , pp. 1485-1509.
05/01/2023 修論論文発表会 27
6. 参考文献
Appendix
05/01/2023 修論論文発表会 28
Amazon について
• アメリカの EC サイト.世界 13 カ国でサイトを運営• 日本での月間ユニークユーザー (2102) は 4,800万人
05/01/2023 修論論文発表会 29
製品情報のページ
Amazon について
• アメリカの EC サイト.世界 13 カ国でサイトを運営• 日本での月間ユニークユーザー (2102) は 4,800万人
05/01/2023 修論論文発表会 30
レビュー詳細のページ
なぜ Amazon なのか?
1. 複数国家で展開している大規模サイト2. 製品種類が豊富3. レビュー件数が多い4. 複数サイトを使用する場合,モデルにサイトによる固
定効果も考慮する必要があるため.
05/01/2023 修論論文発表会 31
なぜレビューデータを対象にするのか ?
• 製品に関する意見を的確に述べているためアンケートにおける自由記述欄と同様な役割を果たす.
• 電子上のクチコミ( Electronic-Word Of Mouse )と言われており,消費者の意見を最も表現している.
• ブログといった他の Web リソースは,まとまって収集することがむずかしい.また,ブログや SNS は製品以外のノイズとなる情報が多い.
05/01/2023 修論論文発表会 32
モノレートと Keepa
• モノレート
05/01/2023 修論論文発表会 33
過去の Amazon.co.jp の価格・売上ランキングを時系列で提供 .
モノレートと Keepa
• Keepa
05/01/2023 修論論文発表会 34
過去の Amazon.com の価格・売上ランキングを時系列で提供 .
なぜ掃除機にしたのか??
1. 先行研究は家電が主であった製品の「売上ランキング」と「売上」に相関があるとされているのは,本と家電製品しか先行研究で明らかにされていないため.
2. 生活家電の方が消費者によって差が出やすいMariek(2010), “Consumer Behavior and Culture: Consequences for Global Marketing and Advertising”, SEGA Inc.
3. Amazon.co.jp と Amazon.com の両者において十分のレビュー数が投稿されていたため.
05/01/2023 修論論文発表会 35
Web スクレイピングの方法
• プログラミング言語 Python の Beautiful Soup を使用Beautiful SoupPython に用いる HTML と XML のパーサー.任意のタグの中身のテキストや属性を取得する事が出来る.
例:<title>Beautiful Soupドキュメント — BeautifulSoup
Document 0.1 ドキュメント </title>なら、 Title の中身のテキストを取得した場合「 Beautiful Soupドキュメント — BeautifulSoup Document
0.1 ドキュメント」を得られる.
05/01/2023 修論論文発表会 36
データ構造の関係( ER 図)
05/01/2023 修論論文発表会 37
LDA について
• 使用記号と,トピックモデルの生成モデル.
05/01/2023 修論論文発表会 38
変分ベイズ法について
• 変分下限を最大化
05/01/2023 修論論文発表会 39
と分解できると仮定.
変分下限Fを最大にするトピック分布の事後分布
ディリクレ分布である変分事後分布 q(θd) のパラメータ
変分ベイズ法について
単語分布の変分事後分布
05/01/2023 修論論文発表会 40
ディリクレ分布である変分事後分布 q(φk) のパラメータ
変分べイズのアルゴリズム
05/01/2023 修論論文発表会 41
全トピックに関する情報
• 日本
05/01/2023 修論論文発表会 42
全トピックに関する情報
• 日本 続き
05/01/2023 修論論文発表会 43
全トピックに関する情報
• アメリカ
05/01/2023 修論論文発表会 44
全トピックに関する情報
• アメリカ 続き
05/01/2023 修論論文発表会 45
トピックの割合(日本)
• ほぼ均等
05/01/2023 修論論文発表会 46
トピックの割合(アメリカ)
• 若干トピック 6だけ多い
05/01/2023 修論論文発表会 47
パネルデータの一例
• レビューデータの扱い方• 一か月間に投稿されたデータを統合して,その期間の
データにまとめる.• 次の期間は前期の情報に更に値を累積して加えていく.
05/01/2023 修論論文発表会 48
パネルデータ分析を用いる理由
1. 製品の固定効果を見るため2. 先行研究と分析条件を合わせるため
05/01/2023 修論論文発表会 49
製品情報データ X, トピックデータ Y の変数の詳細
製品情報データベクトルX• 「価格( Price )」,「販売期間( Product age )」,
「星 1 のレビュー件数( Fraction of one-star-reviews )」,
「星 5 のレビュー件数( Fraction of five-star-reviews ) 」,「レビュー件数( Number of reviews )」,「平均評価点数( Average raiting )」,「評価点数の標準誤差( Raiting stdev )」,「レビューの文字数( Review length )」,
製品情報データベクトル Yレビューにおける各トピックが出現する確率例:レビュー R = (0.001, 0.022, 0.001, ….)
05/01/2023 修論論文発表会 50
Fixed Effect Model
パネルデータ( λ は固定効果)
• 前提 cor(λ,x ≠ 0) λ は固定効果サンプル内の平均と差分を取って λ を削除
• 時間変化しない変数をモデルに入れる場合は消えてしまう.(ダミー変数とか)
05/01/2023 修論論文発表会 51
Random Effect Model
• 前提 cor(λ, x) = 0この場合定数項が入っていれば λ は 0 になる.
このモデルを OLS で推移亭すると, λ を通して相関する.
自己相関が起きるので,一般化最小二乗法で推定する.
05/01/2023 修論論文発表会 52
Arellano Bond Estimator
• 自己相関項を含む時に用いる.
05/01/2023 修論論文発表会 53
取得過去データの時点
• 製品の価格と売上ランキングの時系列でデータは常に変化する.
• 各日付のデータのその日の 0:00 ~ 2:00 の間までに記録されたデータをその日の該当製品の「売上ランキング」と「価格」とする.
05/01/2023 修論論文発表会 54
平均評価はなぜ有意でなくなった?
• 多分レビュー件数が多かったから… ?• 今後検証する必要がある.
05/01/2023 修論論文発表会 55
ペット飼育数の比較(日本とアメリカ)
欧米との飼育率(飼育数 /世界数)の比較( 2006 )
05/01/2023 修論論文発表会 56
出所 :ペットフード工業会調査、英国王立動物虐待防止協会( RSPCA )調査、