日本語語彙概念構造辞書 v0.95 Lexical Conceptual Structure TLCS 岡山大学工学部情報工学科竹内研究室 2004年3月31日 1.はじめに 本データは国立情報学研究所および岡山大学工学部情報工学科で作成した動詞 に関する語い特性を記述したもので、著作権は岡山大学工学部情報工学科竹内 孔一が保持する。本データは研究目的利用ならびに商業利用など自由に無料 で使うことができる。使用に当たっては、研究であれば論文に、商業利用であ ればその商品にこの辞書を使用したことを明記していただければ十分である。 また改変した場合のデータ配布などに関しても同様でもとのデータがこれであ ることを明記すれば自由に使うことができる。 尚、本データの著作権を有する岡山大学工学部情報工学科竹内孔一は本デー タの利用あるいは改変されたデータに関連して生じる一切の損失に対して保障 の責を負わないこととする。 2.配布可能なデータ 中心となる辞書データは以下のものでデータ形式は2つ用意している。 ●excel形式 3つのデータシートからなる シート1が語彙概念構造(以下LCS)、シート2がLCSテンプレート、 シート3が管理情報である。 ●text (CSV)形式 コンマで区切られたデータで excel形式のものをテキストに変換した EUC code でそれぞれ上記のシートに対応する v0.95_lcs.csv (シート1) v0.95_LCStemplate.csv (シート2) この辞書の作成にあたりどのように付与されたか付与基準も明らかにするため に作業者に配ったLCS付与マニュアルを公開する。これも辞書データと同じで 著作権および配布にまつわる制約は上記の 1.はじめに のとおりである。 ● shiyou11.pdf ただし最新のLCSの体系と一部異なっている。 2.1シート1(語彙概念構造)について 左列から順に、単語、よみ、LCS、タグ付与時の作業者のコメントである。 色がついている欄があるが修正などの思考のあとで、データとして意味はない。 データ抽出の注意点として  A) 1行が1単語ではなく、2行にまたがるときがある。   これは1単語に対して意味によって2つ以上LCSが付くことがあると   定義しているためである。語義辞書を仮定していないためそのあたり のリンクが無い  B)全LCSタイプはシート2に記述している。シート1のLCSはシート2の LCSのどれかにあてはまるはずであるが、チェックが行えていない C)全体の見直しを再度これからかける予定である。変更の可能性がある。 D)複合語に対してLCSを付与している。 2.2 シート2(基本LCS郡テンプレート)について シート2が全LCSのパターンであるシート1に記載されている全パターンはここ にあるはずで、動詞の全概念パターンを知るのに便利である。 LCSには 2.3シート3(データメモ) シート3は管理情報で出した日付ならびにversionやコメントが記載されている。 3. LCSについて 語彙概念構造の理論はまだ発展中で様々な現象を網羅するために発展が行なわ れている。本データでは複合語解析を主眼に動詞のアスペクトに関する分類と 動詞が取る名詞の格に重点をおいて作成した。背景知識は(影山 1996)ならび に(竹内 2002,2004)に譲るが、どのように付与したか、ならびにLCSと表層格、 深層格との関係(linking rules)、どのような情報が取り出せるかについて簡 単に記述しておく。 3.1 付与方法について 上述の付与マニュアルをもとに3人の作業者(一人は著者)が動詞に対して 付与を行った。自由に付与したわけではなくあらかじめパターンを制約し どうしても当てはまらないものに関して再考察をかさねた。作業者間の ゆれは著者が決定を下した。 3.2 盛り込まれたアイデア 項構造、アスペクト分析、概念意味構造の3つである。竹内2004を 参考願いたい。 3.3表層と深層との対応について LCSは表層の格と深層の格との結び付きを明らかにしている。表層の格とは 「が」「を」「に」格で深層の格は意味役割と呼ばれる Agent,Theme,Goal (Source)に対応している。LCSの x,y,z はこの表層と深層に対してリンクを 持つもので、格と直接には対応せず、LCSのパターンと関係して変わる。 基本的に表層との関係は LCS 1,2,3,4,8,9,12,13,16 は x,y,z = が、を、に LCS 5 は x=y 「が」と「を」が入れ替え可能 LCS 6,7,10,14 は y,z=が、に LCS 11 x = が で深層との関係は x=Agent, y=Theme, z=Goal ただし、FROM x,y,z (LCS4, LCS15, LCS16)では SOURCE である(竹内 2004,影山 1996 を参照)。 例えば、 LCS 4 [[]x CONTROL [[]y MOVE TO []z]]] 伝搬 では、 (表層) x が y を z に伝搬する (深層) x=Agent が y=Theme を z=Goalに 伝搬する という動詞の特性を表している。 上記の以外で表層格との関係で必要な物について説明する。 3.3 FILLED について。 同じLCSのタイプでも[FILLED]の入っているものと入ってないもの がある。これはある概念が既に入っていて直接項をとれないことを示唆している。 例えば LCS6 [BECOME [[]y BE AT [FILLED]z]] 飽和 では、「yが飽和する」という表現をとることをあらわしているが、[FILLED]z は「*〜に飽和する」という z項に入る(GOALに対応する)「ニ格」は表層的に は存在しないことを示している。(*印は意味をなさないことを示す) 表層にはでないが、しかし、[]zがある事で状態の終了点があることを 示しており、「一杯に(飽和する)」「完全に(飽和する)」など副詞が この[FILLED]z部分を修飾する。こうした修飾の「に」(格かどうか不明)を 示している。 注1)[FILLED]が無いからといって修飾の「に」が付かないわけではない  例)LCS1 [[]x ACT ON []y] 運転する  安全に車を運転する。 注2) []zがなければ、これは Goalの意味の「に」は無い。 また、[[]x CONTROL [BECOME [[FILLED]y BE AT []z]]] 署名  では[]yにFILLEDが入っている。x,y,zが順番に「ガヲニ」格をあらわすので、 この場合、ヲ格がFILLEDで埋まっていてヲ格を取らないことをあらわしている。 つまりガ格と二格しか取らない。 例) 大臣が協定に署名する。 語構成の観点からは概念としてy項に「名前」が入っているため 例) 名前を署名する は冗長な表現である。 3.4 イベント情報について LCSはイベント情報が構造に埋め込まれておりそれをもとに事実関係 を記述する事が理論的には可能なはずである。今回はその記述体系の整理 が間に合わなかった。次回に行いたい。 例えば [event BECOME [state [thing ]y BE AT [thing FILLED]z]] 飽和 解釈すると y が z という状態に変化したという event が起こったということである。どう記述するか 今後の考察としたい。 4.ver0.95について データを集め表層形式を整理したのみで内容に関して修正を行なっていないた め、かなりのミスが含まれている部分をご注意願いたい。修正情報などいただ けるとありがたいかぎりである。作業はまだ続いており今後も拡充の予定であ る。 今後の内容の改善点として LCSの体系に関する整備 例)[FILLED]というタグの検証 LCS情報を豊かにする整備 例)イベント情報の整理 を行う。 5.おわりに このデータに関する質問は岡山大学 竹内孔一まで。 koichi@cl.it.okayama-u.ac.jp 最後に、このデータが言語処理、知識処理などで何かの 役に立つことをができれば幸いである。 記述:竹内孔一 2004年3月31日 参考文献 影山太郎:動詞意味論,くろしお出版,1996 伊藤たかね:文法理論:レキシコンと統語、東京大学出版会、 2002 竹内孔一、内山清子、吉岡真治、影浦峡、小山照夫:語彙概念構造を利用した複合名詞内の 係り関係の解析,情報処理学会論文誌,Vol.43,No.5,2002. 竹内孔一: 語彙概念構造による動詞辞書の作成,言語処理学会第10回年次大会,P576--579,2004