個々のWebサイトが持つ情報の特性を考慮
した多角的意見集約・分析の研究
北海道大学
吉岡真治・原口誠・大久保好章
1
2
本研究の背景
• Webからの意見抽出・意見分析の研究
– 意見性判定・極性分析などにもとづく統計量による分
析
• 問題点
– 意見を記述している側の特性が考慮されない
一般的な傾向
と違う意見
単純に賛成が多いと
言って良いか?
特定のトピック その他
特定のサイ 賛成5
ト
反対3
賛成100
反対2
その他
賛成5000
反対4000
賛成300
反対500
あまり反対を述べない
サイトの反対意見
本研究の目的
3
• 情報抽出元である各々のWebサイトが持つ情報
の偏りなどの特徴の分析手法の提案
– コントラストセットマイニングの考え方を利用
• 特徴分析の結果を踏まえた多角的意見集約・分
析方法の提案
– 意見の違いを考慮した要約文の生成
– ピンポイントクラスタリングによるクラスタの発見
4
本研究の枠組み
• 意見収集・分析の枠組み
クラスタリングによる
多観点の意見分析
特定のトピックに対する
意見サイトの網羅的発見
サイトの特性を考慮した
意見分析
特定の
トピック
意見の
タイプ
特定の 賛成5
サイト 反対3
共通の観点
意見DB
その他
賛成100
反対2
その他 賛成300 賛成5000
反対500 反対4000
サイトの特性を考慮した意見分析
5
• コントラストセットマイニング
– 相関の変化に基づく分析
• コントラストセットマイニング(Bay et. al., 2001)
– あるデータ集合をその他の集合と比較した際に特徴的
に属性集合を発見
• DCペアマイニング (Taniguchi et. al., 2006)
– 全体のデータベースでの相関性と条件付けられた部分
データベースでの相関性の変化が大きいものを発見
6
従来型の共起語解析
• トピックとして与えられた語と相関性の高い語を
抽出
2つのアイテム
集合の相関性
(各DBごとの指標)
全体DB
correl( A, X i )
部分DB
correlc ( A, X i )
添え字のiは
全体DBにおける
相関性の値の順位
X1
X2
X2

X3

Xn



Xm

Xm
Xn


全体DB 部分DB
特徴語
全体でメジャーな
共起語は
部分でもメジャー
な可能性大
7
DCペアマイニング
• 2つのアイテム集合間の相関性の変化に注目
X1
X2
X2

X3

Xn



Xm

Xm
Xn


全体DB 部分DB
特徴語
相関性の
指標の比に
基づく指標
change
correlc ( A, X i )
correl( A, X i )
部分DBで
Xm
特徴的に共起


マイナーな共起語でも
X2
部分と全体の違いが
 大きいものに注目
X1

部分DBで
Xn
特徴的に無視
8
DCペアマイニングによる情報源分析
• 世界の新聞の比較による関心の比較
– 類似のトピックを扱いながら、異なる性質を持つ情報源を対象
とした実験
• 新聞が各国の読者の興味を想定して記事が書かれるのであれば、
各々の興味の違いを反映した情報源の違いが存在するはず
• 報道の非対称性
– 日本のニュースは日本・世界をどう伝えているか?
– 世界のニュースは日本・世界をどう伝えているか?
二つのレベルの研究課題
9
• 多言語の壁を乗り越えた多様な情報源の利用
– ユーザの利用形態に応じた言語知識の獲得と利用
• 新しい事象に関する新語の翻訳支援
• ニュース以外の分野にも応用可能
• 複数情報源からの情報・意見集約
– ニュースに特化した情報集約
• 時系列分析、ニュースの間を補完する情報の発見
• 全ての情報源を均等に扱うのか?
– いつも褒めていない人が褒めた話とアフィリエート目的の何でも褒
めている人の褒めた話は対等なのか?
10
DCペアマイニング適用の問題点
• 計算量の問題
– インタラクティブなシステムとしての利用が困難
• 結果の解釈が困難
– 非常に広範囲のトピックについて分析結果が表示さ
れるため、分析が容易ではない。
↓
• トピックを絞り込んだDCペアマイニング
– 相関の変化を求めるアイテム集合のペアの1つを
ユーザがトピックキーワードとして与える
– 残りのアイテム集合については、インデックス語の組
み合わせでなく、1語とすることにより、計算量を削減
相関性の指標
11
• DCペアマイニングにおける相関性の指標
P(X  Y)
correl(X,Y) =
P(X)P(Y)
– 相関性が高い場合に大きくなり、独立で1
– 問題点
• YがXを含む文書にのみ存在(完全に従属:
P(XY)=P(Y))する場合にP(Y)の値にかかわらず、上限
値 correl(X,Y)=1/P(X) となる。同様に、 correl(X,Y|C)の
上限値は1/P(X|C)となる。
• ここで、 1/P(X)>1/P(X|C)の場合に、条件付けCによって、
完全に従属するようなる場合にでも、相関性が下がったと
判定される
利用する相関性の指標
12
• 特徴語分析の研究における様々な共起度を表
す指標
– 頻度・Dice係数・対数尤度比・自己相互情報量・・・
• 共起度の指標の性質に関する分析[中條2004]
– TOEIC用の文書と、一般文書の違いをベースに、
TOEIC用学習語彙を共起度指標により抽出し、実際
の学習語彙集と比較
– 精度:頻度>Dice係数>対数尤度比>>ほかの指標
– 頻度とDice係数は順位相関係数が高い(0.9)
• 本研究では、頻度では見つけにくいデータを分
析したい ⇒ 対数尤度比を利用
相関性の変化を表す指標
13
• 対数尤度比
– XとYを含む記事に関する分割表
X Y あり なし
b
あり a
d
なし c
aN
bN
 b * log
(a  b)(a  c)
(a  b)(b  d)
cN
dN
c * log
 d * log
(a  c)(c  d)
(b  d)(c  d)
llf(X,Y)  – a * log
• 相関性の変化を比較する対象
– 全体と部分の比較では、部分のデータが支配的な場合に、差
が出にくい
– 特定の条件を満たさないデータによるデータベースと条件を
満たすデータによるデータベースにおける対数尤度比の変化
に注目
実験結果から分かった問題
14
• 部分データベースが全体のデータベースに比べ
て十分に小さくない場合、部分データベースの相
関性の強さが全体データベースの相関性にも反
映され、特徴的な情報が埋没
• 無相関に近い場合、相関性の指標値が0に近い
非常に小さい数になる場合があり、ほんの少し
でも相関性のあるものとの比が過大に評価
修正案
15
• 部分データベースと全体データベースにおける
相関性の比を取るのではなく、部分データベース
と残りのデータベースについて比を計算
• 無相関に近い状況の影響を減らすために、分
母・分子にともにある値を加算
correlc ( A, X i )  
correlc ( A, X i )  
今回の実験ではα=1を利用
ニュースサイト分析システム:
NSContrast
• ニュース記事の検索機能
– Boolean型の検索、確率モデルOkapiを用いた検索
– 相互情報量基準に基づく特徴語の抽出
• ニュースサイトの比較分析
– トピックキーワードを入力
– ローカルデータベースの作成基準
• ニュースサイトごとの特徴分析
• 特定期間(1ヶ月)ごとの特徴分析
– 分析結果の出力
•
•
•
•
全体データベースにおける特徴語
各ローカルデータベースに特徴的に現れる語群
各ローカルデータベースに特徴的に現れる語群
各ローカルデータベースに特徴的に現れない語群
16
収集したニュース記事
17
• 複数のサイトから新聞記事を収集
– 外国のサイトについては、日本語版があるものを利
用
– トップページからリンクのある記事を1時間に1回収集
(2006年5月1日~2007年9月30日)
– Webstemmerを用いて本文部分を抽出
http://www.unixuser.org/~euske/python/webstem
mer/
18
収集したニュース記事
• 収集記事数
サイトの名前(国名)
URL (http:// is removed )
Number of articles
朝日新聞 (日本)
www.asahi.com/
64216
日経新聞 (日本)
www.nikkei.co.jp/
52053
読売新聞 (日本)
www.yomiuri.co.jp/
60845
CNN (アメリカ)
www.cnn.co.jp/
10135
朝鮮日報 (韓国)
japanese.chosun.com/
16354
中央日報 (韓国)
japanese.joins.com/
12468
中央日報 (韓国語:翻訳) www.joins.com/
3945
人民日報 (中国)
3577
j.peopledaily.com.cn/
ただし、中央日報 (韓国語:翻訳)のみ収録期間が異なる(2007年5月~8月20日)
システムの実行結果
19
• 検索語:北朝鮮
– 全体としての特徴語:核・ミサイル・発射
– ローカルデータベースに特徴的に現れる語
• 全ての新聞社
– 情報源(記者名、AP通信など)
– 期間を長くすると、これらの情報が支配的
• 期間を限定(2006年)
– 朝鮮日報:イラク
» 北朝鮮とイラクの話はセットで報道されやすい
– ローカルデータベースに特徴的に現れない語
• CNN:拉致
– CNNは北朝鮮の拉致には興味がない、ただし、イラクでの拉致に
は興味がある
他の研究グループとの連携
20
• 世界ニュースレーダ
– 国際的な事象の報道
• 複数の国の報道を組み合わせ、多角的な分析
• マスメディアとBlogを組み合わせた分析
– 国境の壁による誤解の再生産
• 他国の正確な情報が伝わらないために誤解が発生し、再
生産される
– 近年の情報流通の促進により、誤解が発生している状況は、発見
できるようになってきている一方、誤解の再生産のスピードも上
がっている。
世界ニュース検討グループ
• 中川(東大)、神門(NII)、森(横浜国大)、
宇津呂(筑波大)、D. Evans(NII)、福原(東大)、
田浦(東大)、吉田(東大) 、吉岡(北大) (順不
同)
21
ダウンロード

PowerPoint