知識情報演習Ⅲ(後半第1回)
辻 慶太(水)
http://slis.sakura.ne.jp/cje3
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
後半5回の目的と予定
• 簡単な情報検索システムをプログラミングに
よって自分の手で作る
– 情報検索を通してプログラミングについて学ぶ
– プログラミングを通して情報検索について学ぶ
• 大まかな予定
– 第1回: 全体説明,情報検索の概要,Perl入門
– 第2回: Perlプログラミング
– 第3回: 索引付けの概要,プログラミング
– 第4回: 索引付けプログラミングの続き
– 第5回: 検索システム完成,最終レポート
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索システムの世界観
情報の生産者
研究者,作家,記者など
情報の最終利用者
(エンドユーザ)
検索
情報の登録者
生産
計算機上のシステム
DB登録者,分類者,
索引作成者など
登録
蓄積される情報
図書,雑誌,画像,音声など
生産者側の処理
支援
検索エンジン,DB,
インタフェースなど
人間の仲介者
代行検索者,図書館員など
利用者側の処理
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
情報要求
文書
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
解釈
文書
情報要求
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
情報検索の基本モデル
情報
解釈
文書
情報要求
検索質問
索引付け
内部表現
内部表現
照合
狭義の情報検索
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
×
○
抽出誤りなし
単語
△
△
句(フレーズ)
○
×
形態素解析の
ために抽出誤り
がある
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
索引付けに用いる索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
× / 子書○
電子
/ 書籍 /抽出誤りなし
籍提 …
単語
△ / 書籍△
電子
/ 提供 形態素解析の
/ サービス
ために抽出誤り
○
×
電子書籍
/ 提供サービス
がある
句(フレーズ)
複数の単位を併用することもある
形態素解析
• 自然言語文を入力とし,その文を構成する形
態素(語)を特定する処理
• 日本語や中国語のように分かち書きをしない
言語では重要
• 具体的には,以下の処理を行う
– 語分割
– 原形の特定
– 品詞付与
– 読み(仮名)の付与
それぞれの段階で
誤りが生じ得る
形態素解析
• 自然言語文を入力とし,その文を構成する形
態素(語)を特定する処理
• 日本語や中国語のように分かち書きをしない
言語では重要
• 具体的には,以下の処理を行う
– 語分割
– 原形の特定
– 品詞付与
– 読み(仮名)の付与
それぞれの段階で
誤りが生じ得る
形態素解析
• 自然言語文を入力とし,その文を構成する形
態素(語)を特定する処理
• 日本語や中国語のように分かち書きをしない
言語では重要
• 具体的には,以下の処理を行う
– 語分割
– 原形の特定
– 品詞付与
– 読み(仮名)の付与
それぞれの段階で
誤りが生じ得る
形態素解析
• 自然言語文を入力とし,その文を構成する形
態素(語)を特定する処理
• 日本語や中国語のように分かち書きをしない
言語では重要
• 具体的には,以下の処理を行う
– 語分割
– 原形の特定
– 品詞付与
– 読み(仮名)の付与
それぞれの段階で
誤りが生じ得る
形態素解析
• 自然言語文を入力とし,その文を構成する形
態素(語)を特定する処理
• 日本語や中国語のように分かち書きをしない
言語では重要
• 具体的には,以下の処理を行う
– 語分割
– 原形の特定
– 品詞付与
– 読み(仮名)の付与
それぞれの段階で
誤りが生じ得る
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
• 特定性
– ある文書を特定するために有効なキーであるか
– これが高い索引語を適切に使うと精度が高くなる
• 網羅性
– 漏れなく検索できるようなキーであるか
– これが高い索引語を適切に使うと再現率が高くなる
極端な例:
ある文書にしか出現しない語を索引語とする
→ 特定性は高く,網羅性は低い → 高精度,低再現率
索引語の良し悪しを決める要因
→ 特定性と網羅性の両方を高める
索引付けや照合の手法が必要
索引語の種類
単位
特定性 網羅性
文字(文字バイグラム)
×
○
抽出誤りなし
単語
△
△
句(フレーズ)
○
×
形態素解析の
ために抽出誤り
がある
複数の単位を併用することもある
索引語の種類
単位
特定性 網羅性 形態素解析の
文字(文字バイグラム)
×
○
単語
△
△
句(フレーズ)
○
×
誤りによる抽出
誤りはない
形態素解析の
誤りによる抽出
誤りがある
複数の単位を併用することも有効
索引語の種類
単位
特定性 網羅性 形態素解析の
文字(文字バイグラム)
×
○
単語
△
△
句(フレーズ)
○
×
誤りによる抽出
誤りはない
形態素解析の
誤りによる抽出
誤りがある
複数の単位を併用することも有効
索引語の種類
単位
特定性 網羅性 形態素解析の
文字(文字バイグラム)
×
○
単語
△
△
句(フレーズ)
○
×
誤りによる抽出
誤りはない
形態素解析の
誤りによる抽出
誤りがある
複数の単位を併用することも有効
索引語の種類
単位
特定性 網羅性 形態素解析の
文字(文字バイグラム)
×
○
単語
△
△
句(フレーズ)
○
×
誤りによる抽出
誤りはない
形態素解析の
誤りによる抽出
誤りがある
複数の単位を併用することも有効
索引語の種類
単位
特定性 網羅性 形態素解析の
文字(文字バイグラム)
×
○
単語
△
△
句(フレーズ)
○
×
誤りによる抽出
誤りはない
形態素解析の
誤りによる抽出
誤りがある
複数の単位を併用することも有効
索引語の種類
単位
特定性 網羅性 形態素解析の
文字(文字バイグラム)
×
○
単語
△
△
句(フレーズ)
○
×
誤りによる抽出
誤りはない
形態素解析の
誤りによる抽出
誤りがある
複数の単位を併用することも有効
では,演習開始
• 必要なファイルは演習のホームページから取得できる
• 演習はLinuxにログインして行う
• まず,「演習を始める前の準備」の通りに実行する
• 次に,「Perl入門」を各自で読みながら演習する
– 資料には,Perlに関する最低限の内容が書かれている
– 不明な点や発展的な内容はインターネットを使って適宜調べるとよい
– 質問があれば遠慮なく担当者を呼ぶ
• Perlプログラムファイルの文字コードは「EUC-JP」にする
– それ以外の文字コードでは正しく動作しないことがある
• 本日の課題(Perl入門の例題10)が終了したら担当者を呼ぶ
– 課題ができたら本日の内容は終了
– 次回の分を進めても結構
ダウンロード

後半第1回のPPTファイル