You are here: Home

自然言語処理研究室 竹内研にようこそ

岡山大学大学院自然科学研究科

本研究室では,言葉をコンピュータで扱うための基礎技術の研究を行っています.言葉は単に文字列があるだけでなく,その裏側にある意味があり,それに従って人は言葉を発したり,理解したりします.なので,言葉の背景にある意味的な構造を仮定することで人に近い言葉を扱うソフトウェアの開発を目指しています.最近では,(1)項構造をベースにテキストに記述された言葉と他の言葉がどう違うか,同じかを処理するシステムの構築を行っています.例えば「社長は太郎を会計士として雇った/雇用した」というのは,「太郎は社長に雇われた」ことを含んでいます.こうした述語の表現を整理したデータを構築しています.さらに「その物語の主人公は太郎だ」のように「主人公」という名詞も「物語」や「太郎」といった他の言葉との特別な関係をもつことがわかっており(名詞の項構造といったりします),こうした辞書データも構築しています.こうした言葉の背景にある意味的な構造を整理しつつ,文書全体の言葉の処理を研究しています.辞書は言語処理での基礎データとなるので,こうしたデータの構築・改善を通して言語基礎技術の底上げに貢献しています.

(2)また,専門用語についての研究を行っています.専門用語は辞書を作成すれば終わりではなく,辞書に載っていない表現が存在したり,新たな概念が生まれて日々用語が増えていったりしています.またWeb上の文書を扱うとなると,これらの種類が増えたり,翻訳の現場では,対象言語にはまだ用語が無く,句や節の形で現れる場合があります.こうした用語(さらには固有表現(人名・社名,病名,症状など..) )を文書中から獲得する研究を共同研究で行ってきています.(2000-2003 Nigel Collier さんと感染症情報抽出の研究,2002からNantes 大学Beatrice Daille 先生との日仏用語抽出,2011からフランスEmannuel Planas 先生と環境分野における多言語用語辞書構築に関する研究) 手法としては統計的学習モデルを利用する場合だけでなく,人手の更新や実際の確実性から規則ベースの用語抽出システムの構築を研究しています.この研究プロジェクトはヨーロッパの用語整理プロジェクトTTC(http://www.ttc-project.eu/)に関連しています.

« May 2016 »
May
SuMoTuWeThFrSa
1234567
891011121314
15161718192021
22232425262728
293031