文書ビッグデータから含意を認識する手法の開発

斎藤, 博昭

Home »» Listing item »» Detail

Detail

Item Type

Article

ID

2018000005-20180034 　

Preview

Image
Caption

Full text

2018000005-20180034.pdf

Type	:application/pdf	Download
Size	:115.8 KB
Last updated	:Oct 24, 2022
Downloads	: 104

Total downloads since Oct 24, 2022 : 104
　

Release Date

Title

Title	文書ビッグデータから含意を認識する手法の開発
Kana	ブンショビッグデータカラガンイオニンシキスルシュホウノカイハツ
Romanization	Bunsho biggu dēta kara gan'i o ninshikisuru shuhō no kaihatsu

Other Title

Title	A method of textual entailment from big data
Kana
Romanization

Creator

Name	斎藤, 博昭
Kana	サイトウ, ヒロアキ
Romanization	Saito, Hiroaki
Affiliation	慶應義塾大学理工学部准教授
Affiliation (Translated)
Role	Research team head
Link

Edition

Place

Publisher

Name	慶應義塾大学
Kana	ケイオウギジュクダイガク
Romanization	Keiō gijuku daigaku

Date

Issued (from:yyyy)	2019
Issued (to:yyyy)
Created (yyyy-mm-dd)
Updated (yyyy-mm-dd)
Captured (yyyy-mm-dd)

Physical description

1 pdf 　

Source Title

Name	学事振興資金研究成果実績報告書
Name (Translated)
Volume
Issue
Year	2018
Month
Start page
End page

ISSN

ISBN

DOI

URI

JaLCDOI

NII Article ID

Ichushi ID

Other ID

Doctoral dissertation

Dissertation Number
Date of granted
Degree name
Degree grantor

Abstract

本研究における含意とは、ある文（文章）Ｔと仮説Ｈという二つの文おいて、「Ｔが正しい時にＨも正しいと推定できる関係」である。含意関係認識をコンピュータに行わせるタスクは十年以上前から行われてきたが、昨今の人工知能研究の発達に伴い、研究手法の新たな開発が活発になっている。今回は、日本語を対象として深層学習を用いた。深層学習の全体の枠組みは踏襲したが、その構成部品として従来行われてきた単純なＲＮＮやＬＳＴＭを使うのではなく、２文間の文節対応を考慮し、かつ外部メモリを取り入れることとした。似た手法は英語の含意関係認識では試みられているが、日本語では初である。具体的には、ＴとＨをまず分散表現（ベクトル）に変換し、それぞれについて外部メモリ付ＬＳＴＭでノードの値を求めた後、アラインメントを施し、含意度を計算するというものである。文節対応においては一般の２分木モデルとともに日本語における自由な語順や係り受けの不安定さに対応できる多子木モデルを試した。さらに、さまざまなハイパーパラメータを探索した。
結果として、単純な深層学習モデルの性能を上回り、文節関係や外部メモリの効果、および多子木モデルによる精度向上は確認できた。しかしながら、人手で素性を作りベクトル化する統計ベースの手法には及ばなかった。深層学習では多くのデータが必要だが、今回は1000に満たないデータしか用意できず、結果としてテストデータに含まれる多くの未知語への対応が不十分となった。データ量が桁違いに多い英語に関してデータ量と精度との関係を調べたところ、やはりデータ量に比例して精度が上がることが確かめられたので、含意関係認識という複雑なタスクを深層学習で攻めるには、データ量が少なかったというのが反省点である。
Recognition of textual entailment (RTE) is a research field in natural language processing, where a relation between two sentences is detected;
a text T entails a hypothesis H when it is possible to infer "H is true" from "T is true." Various methods have been developed to this task and deep learning is actively pursued recently. In this research tree-LSTM with external memory is adopted. The proposed method surpassed the baseline, but did not reach the performance of conventional support vector machine approaches. The reason was probably the shortage of Japanese RTE data. This result implies that deep learning for complicated tasks needs huge good data.

Table of contents

Keyword

NDC

Note

Language

日本語　

英語　

Type of resource

text 　

Genre

Research Paper 　

Text version

publisher 　

Related DOI

Access conditions

Last modified date

Oct 24, 2022 13:35:34 　

Creation date

Oct 24, 2022 13:35:34 　

Registerd by

mediacenter

History

Oct 24, 2022

インデックスを変更

Index

/ Public / Internal Research Fund / Keio Gijuku Academic Development Funds Report / Academic year 2018

Related to

慶應義塾大学学術情報リポジトリ（KOARA）

Language Select

Search

Indextree

Detail

Ranking

LINK