文書ビッグデータから含意を認識する手法の開発

斎藤, 博昭

ホーム »» アイテム一覧 »» アイテム詳細

アイテム詳細

アイテムタイプ

Article

ID

2018000005-20180034 　

プレビュー

画像
キャプション

本文

2018000005-20180034.pdf

Type	:application/pdf	Download
Size	:115.8 KB
Last updated	:Oct 24, 2022
Downloads	: 174

Total downloads since Oct 24, 2022 : 174
　

本文公開日

タイトル

タイトル	文書ビッグデータから含意を認識する手法の開発
カナ	ブンショビッグデータカラガンイオニンシキスルシュホウノカイハツ
ローマ字	Bunsho biggu dēta kara gan'i o ninshikisuru shuhō no kaihatsu

別タイトル

名前	A method of textual entailment from big data
カナ
ローマ字

著者

名前	斎藤, 博昭
カナ	サイトウ, ヒロアキ
ローマ字	Saito, Hiroaki
所属	慶應義塾大学理工学部准教授
所属(翻訳)
役割	Research team head
外部リンク

版

出版地

出版者

名前	慶應義塾大学
カナ	ケイオウギジュクダイガク
ローマ字	Keiō gijuku daigaku

日付

出版年(from:yyyy)	2019
出版年(to:yyyy)
作成日(yyyy-mm-dd)
更新日(yyyy-mm-dd)
記録日(yyyy-mm-dd)

形態

1 pdf 　

上位タイトル

名前	学事振興資金研究成果実績報告書
翻訳
巻
号
年	2018
月
開始ページ
終了ページ

ISSN

ISBN

DOI

URI

JaLCDOI

NII論文ID

医中誌ID

その他ID

博士論文情報

学位授与番号
学位授与年月日
学位名
学位授与機関

抄録

本研究における含意とは、ある文（文章）Ｔと仮説Ｈという二つの文おいて、「Ｔが正しい時にＨも正しいと推定できる関係」である。含意関係認識をコンピュータに行わせるタスクは十年以上前から行われてきたが、昨今の人工知能研究の発達に伴い、研究手法の新たな開発が活発になっている。今回は、日本語を対象として深層学習を用いた。深層学習の全体の枠組みは踏襲したが、その構成部品として従来行われてきた単純なＲＮＮやＬＳＴＭを使うのではなく、２文間の文節対応を考慮し、かつ外部メモリを取り入れることとした。似た手法は英語の含意関係認識では試みられているが、日本語では初である。具体的には、ＴとＨをまず分散表現（ベクトル）に変換し、それぞれについて外部メモリ付ＬＳＴＭでノードの値を求めた後、アラインメントを施し、含意度を計算するというものである。文節対応においては一般の２分木モデルとともに日本語における自由な語順や係り受けの不安定さに対応できる多子木モデルを試した。さらに、さまざまなハイパーパラメータを探索した。
結果として、単純な深層学習モデルの性能を上回り、文節関係や外部メモリの効果、および多子木モデルによる精度向上は確認できた。しかしながら、人手で素性を作りベクトル化する統計ベースの手法には及ばなかった。深層学習では多くのデータが必要だが、今回は1000に満たないデータしか用意できず、結果としてテストデータに含まれる多くの未知語への対応が不十分となった。データ量が桁違いに多い英語に関してデータ量と精度との関係を調べたところ、やはりデータ量に比例して精度が上がることが確かめられたので、含意関係認識という複雑なタスクを深層学習で攻めるには、データ量が少なかったというのが反省点である。
Recognition of textual entailment (RTE) is a research field in natural language processing, where a relation between two sentences is detected;
a text T entails a hypothesis H when it is possible to infer "H is true" from "T is true." Various methods have been developed to this task and deep learning is actively pursued recently. In this research tree-LSTM with external memory is adopted. The proposed method surpassed the baseline, but did not reach the performance of conventional support vector machine approaches. The reason was probably the shortage of Japanese RTE data. This result implies that deep learning for complicated tasks needs huge good data.

キーワード

NDC

注記

言語

日本語　

英語　

資源タイプ

text 　

ジャンル

Research Paper 　

著者版フラグ

publisher