慶應義塾大学学術情報リポジトリ(KOARA)KeiO Associated Repository of Academic resources

慶應義塾大学学術情報リポジトリ(KOARA)

Home  »»  Listing item  »»  Detail

Detail

Item Type Article
ID
2018000005-20180034  
Preview
Image
thumbnail  
Caption  
Full text
2018000005-20180034.pdf
Type :application/pdf Download
Size :115.8 KB
Last updated :Oct 24, 2022
Downloads : 104

Total downloads since Oct 24, 2022 : 104
 
Release Date
 
Title
Title 文書ビッグデータから含意を認識する手法の開発  
Kana ブンショ ビッグ データ カラ ガンイ オ ニンシキスル シュホウ ノ カイハツ  
Romanization Bunsho biggu dēta kara gan'i o ninshikisuru shuhō no kaihatsu  
Other Title
Title A method of textual entailment from big data  
Kana  
Romanization  
Creator
Name 斎藤, 博昭  
Kana サイトウ, ヒロアキ  
Romanization Saito, Hiroaki  
Affiliation 慶應義塾大学理工学部准教授  
Affiliation (Translated)  
Role Research team head  
Link  
Edition
 
Place
 
Publisher
Name 慶應義塾大学  
Kana ケイオウ ギジュク ダイガク  
Romanization Keiō gijuku daigaku  
Date
Issued (from:yyyy) 2019  
Issued (to:yyyy)  
Created (yyyy-mm-dd)  
Updated (yyyy-mm-dd)  
Captured (yyyy-mm-dd)  
Physical description
1 pdf  
Source Title
Name 学事振興資金研究成果実績報告書  
Name (Translated)  
Volume  
Issue  
Year 2018  
Month  
Start page  
End page  
ISSN
 
ISBN
 
DOI
URI
JaLCDOI
NII Article ID
 
Ichushi ID
 
Other ID
 
Doctoral dissertation
Dissertation Number  
Date of granted  
Degree name  
Degree grantor  
Abstract
本研究における含意とは、ある文(文章)Tと仮説Hという二つの文おいて、「Tが正しい時にHも正しいと推定できる関係」である。含意関係認識をコンピュータに行わせるタスクは十年以上前から行われてきたが、昨今の人工知能研究の発達に伴い、研究手法の新たな開発が活発になっている。今回は、日本語を対象として深層学習を用いた。深層学習の全体の枠組みは踏襲したが、その構成部品として従来行われてきた単純なRNNやLSTMを使うのではなく、2文間の文節対応を考慮し、かつ外部メモリを取り入れることとした。似た手法は英語の含意関係認識では試みられているが、日本語では初である。具体的には、TとHをまず分散表現(ベクトル)に変換し、それぞれについて外部メモリ付LSTMでノードの値を求めた後、アラインメントを施し、含意度を計算するというものである。文節対応においては一般の2分木モデルとともに日本語における自由な語順や係り受けの不安定さに対応できる多子木モデルを試した。さらに、さまざまなハイパーパラメータを探索した。
結果として、単純な深層学習モデルの性能を上回り、文節関係や外部メモリの効果、および多子木モデルによる精度向上は確認できた。しかしながら、人手で素性を作りベクトル化する統計ベースの手法には及ばなかった。深層学習では多くのデータが必要だが、今回は1000に満たないデータしか用意できず、結果としてテストデータに含まれる多くの未知語への対応が不十分となった。データ量が桁違いに多い英語に関してデータ量と精度との関係を調べたところ、やはりデータ量に比例して精度が上がることが確かめられたので、含意関係認識という複雑なタスクを深層学習で攻めるには、データ量が少なかったというのが反省点である。
Recognition of textual entailment (RTE) is a research field in natural language processing, where a relation between two sentences is detected;
a text T entails a hypothesis H when it is possible to infer "H is true" from "T is true." Various methods have been developed to this task and deep learning is actively pursued recently. In this research tree-LSTM with external memory is adopted. The proposed method surpassed the baseline, but did not reach the performance of conventional support vector machine approaches. The reason was probably the shortage of Japanese RTE data. This result implies that deep learning for complicated tasks needs huge good data.
 
Table of contents

 
Keyword
 
NDC
 
Note

 
Language
日本語  

英語  
Type of resource
text  
Genre
Research Paper  
Text version
publisher  
Related DOI
Access conditions

 
Last modified date
Oct 24, 2022 13:35:34  
Creation date
Oct 24, 2022 13:35:34  
Registerd by
mediacenter
 
History
Oct 24, 2022    インデックス を変更
 
Index
/ Public / Internal Research Fund / Keio Gijuku Academic Development Funds Report / Academic year 2018
 
Related to