検索ログを用いた意味知識獲得のための ブートストラップ手法.


41 views
Uploaded on:
Description
小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research. 検索ログを用いた意味知識獲得のための ブートストラップ手法. 電子情報通信学会 言語理解とコミュニケーション研究会. キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要. ポケモン 攻略法. 検索. 研究背景. ポケモンの攻略法 が知りたい. アプローチ. 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ
Transcripts
Slide 1

小町守 (†) ・鈴木久美 (‡) (†) 奈良先端科学技術大学院大学情報科学研究科 (‡) Microsoft Research 検索ログを用いた意味知識獲得のための ブートストラップ手法 電子情報通信学会 言語理解とコミュニケーション研究会

Slide 2

キーワード検索は情報にアクセスする必須の手段 ユーザの興味を直接知ることが可能 アプリケーションには用語の意味カテゴリが重要 ポケモン 攻略法 検索 研究背景 ポケモンの攻略法 が知りたい

Slide 3

アプローチ 半教師あり学習によって検索ログから意味カテゴリをブートストラップ 意味カテゴリ ユーザがよく聞く対象 (cf. Pasca and Durme 2007) 検索ログ Web データそのものよりユーザの関心を反映 短いが用語のカテゴライズには有効 ユーザが ( 非明示的に ) 単語分割を指定 ブートストラップ 2 項関係抽出のさまざまなタスクで適用 (Brin 1998; Collins and Singer 1999; Etzioni et al. 2005) 少量のインスタンスから学習することができる (cf. Sekine and Suzuki 2007)

Slide 4

本研究による貢献 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた 汎用的な Espresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した 単語分割の知識が不要

Slide 5

目次 概要 関連研究 Tchai アルゴリズム 実験 まとめ

Slide 6

ブートストラップ手法 シードインスタンスから始めて反復的にパターン導出とインスタンス抽出を繰り返す ある関係にある少量のシードを増やすことができる コーパス ( 検索ログ ) 用語リスト 文脈パターン ポケモン + 攻略法 #+ 攻略法 ドラクエ + 攻略法 #: スロット +: 空白文字 ff ff+ 攻略法

Slide 7

インスタンスの検索と文脈パターン抽出 文脈パターンをスコアリングして上位のものを選択 先行研究ではジェネリックパターンの扱いが異なる ana ana+ 予約 #+ 予約 実際の検索ログ 抽出パターン インスタンス インスタンス以外の文字列を文脈パターンとして使用 = 単語分割が不要 高適合率・低再現率

Slide 8

インスタンス・パターンの尺度 Sekine & Suzuki (2007) Basilisk (Thelen and Riloff, 2002) ジェネリックパターンには低いスコアを割り当て、処理をスキップ ジェネリックパターンの再現率と適合率のちょうどいいところを求めるヒューリスティクス

Slide 9

Espresso アルゴリズム Espresso (Pantel and Pennacchiotti, 2006) 少量のシードインスタンスからスタート 以下のステップを反復 パターン導出 パターンのランキングと選択 インスタンス抽出 インスタンスとパターンの信頼度は相互に再帰的に定義

Slide 10

Espresso アルゴリズムの問題点 ジェネリックパターン・インスタンスの取り扱い Espresso で提案されている確信度 (certainty) の尺度は検索ログデータではうまく行かなかった ジェネリックパターンは多数のインスタンスと共起するので計算量が大きい 計算の効率 Espresso では全てのパターンの信頼度を毎回計算する

Slide 11

Tchai アルゴリズム ジェネリックパターンやインスタンスのフィルター ジェネリックパターン・インスタンスは単に用いない 反復初期の適合率の向上に貢献 信頼度の係数を修正 全てのインスタンスとパターンの間の最大 PMI を使うのではなく、あるインスタンスに対する全てのパターン・あるパターンに対する全てのパターンの間の最大 PMI を使う この修正がもっとも性能の改善に効果があった 性能の改善 最初のステップのときだけパターン導出を行う Tchai は Espresso と比較して 400 倍高速に動作するように

Slide 12

手法の比較

Slide 13

目次 概要 関連研究 Tchai アルゴリズム 実験 まとめ

Slide 14

実験 日本語の検索ログ 2007/01-02 ユニーク 1M ( 異なりで 166M) ターゲットとするカテゴリ 検索ログで頻度トップ 10,000 クエリを人手で 23 カテゴリに分類したリストを使用 (2006/12 のログから作成 ) 旅行 : 一番大きいカテゴリ (712 用語 ) 金融 : 一番小さいカテゴリ (240 用語 )

Slide 15

実験結果 高適合率 (92.1%) 旅行 金融 251 の新しい用語を獲得 人手の分類の曖昧性 旅行に関係する一般用語も含む

Slide 16

抽出できたインスタンスの例 シードが与えられていないサブカテゴリも学習

Slide 17

各変更の影響 フィルタリングしたものはコンスタントにフィルタリングなしを上回った 係数に対する変更がもっとも適合率に影響

Slide 18

累積適合率 : 旅行ドメイン Tchai が適合率最高

Slide 19

累積適合率 : 金融カテゴリ Basilisk も Espresso も反復初期にジェネリックパターンの影響で低適合率

Slide 20

抽出パターンの例 Basilisk と Espresso は両方とも地名を文脈パターンとして獲得しているが、旅行ドメインにはあまり特徴的ではない Tchai は旅行ドメインに特徴的な文脈パターンを発見することができた

Slide 21

まとめ 意味カテゴリの学習タスクにおいて日本語の検索ログを初めて用いた 汎用的な Espresso (Pantel and Pennacchiotti 2006) アルゴリズムに基づいて検索ログに適した効率的な手法を提案した 単語分割の知識が不要

Slide 22

今後の方向 クラスタリングと組み合わせる 自動クラスタリングの結果を用いて各クラスタに属する用語をさらに増やす カテゴリ中のサブタイプを分類 階層的にブートストラップ可能

Slide 23

T chai IJCNLP 2008: Hyderabad, India 本研究を可能にしてくれたマイクロソフト・リサーチのインターンシップ、 NLP グループのみなさん、 Dmitriy Belenko, Christian Koenig 両氏に感謝いたします。 ご静聴ありがとうございました

Slide 25

パターン導出を省いた影響 パターン導出を省いても性能低下は見られず

Slide 26

システムの相対再現率 旅行 金融 高適合率・高再現率 強いフィルタリングのために適合率は高いが再現率は低い 相対再現率 (Pantel et al., 2004)

Recommended
View more...