教學大綱
講義項目
1.形態素解析
言語における意味を持つ最小単位を形態素と呼ぶ。
例えば、「は」「を」のような助詞、
「學校」「學生」のような単名詞である。
与えられた文を形態素に分割するアルゴリズムについて述べる。
2.統語論、構文解析、および意味論
構文解析アルゴリズムの一例を説明する。
次に構文構造を規定する主辞駆動文法を導入し、主語、述語などの文法役割と動作主、
對象などの意味役割の関係付けについて述べる。
3.語用論
文の連なりである談話の構造について議論する。
話題、焦点の動き、省略、照応の問題を解く
アルゴリズムについて説明する。
4.言語資源
電子的なテキストを集積したコーパスおよび辞書、
シソーラスなどの電子的な言語資源について述べる。
5.統計的言語処理
統計學に基づく言語処理の基礎概念について學ぶ。
6.言語モデル N-gram
統計的言語処理において最も基本となるn-gram
(記号のn個の連鎖)の統計的性質について述べる。
7.情報抽出
テキストから統計的手法で情報を抽出する方法を説明する。
特に基本的となる用語抽出について詳述する。
8.自動要約
文書の自動要約手法。
主として、文書からの重要文の選択方法について説明する。
9.統計的機械翻訳、對訳抽出
言語學の知識を用いずに、純粋の統計的手法、特に機械學習によって
機械翻訳を行う方法の數理モデルとアルゴリズムについて説明する。
また、実用上重要な異なる2言語間における単語對訳の抽出方法についても説明する。
10.情報検索
自然言語処理が最も身近で使われている情報検索について概観する。
検索エンジンの枠組み、ランキング、検索システムの評価方法について述べる。
11.言語情報科學の歴史的經緯を總括し未来をうらなう
以上の各章で學んできた理論、技術を言語をめぐる歴史の中で位置づけ、
将来の自然言語処理の方向性について議論する。
理解すべき事項
形態素、構文解析アルゴリズム、文法役割、意味役割、日本語の文法構造、
語用論、談話構造、中心化理論、コーパス、辞書、Noisy-Channel model、
n-gram、平滑化、用語抽出、重要文抽出アルゴリズム、統計的機械翻訳、
IBMmodel、1,2,3、並行コーパスおよび非並行コーパスからの對訳抽出、
検索エンジン、インバーテッドインデックス、tf*idf、ベクトル空間法、
cosine尺度、PageRankアルゴリズム、精度、再現率、平均精度、
言語論の歴史、ソシュールの位置づけ、移行派原理主義の翻訳モデル
|