慶應義塾大学学術情報リポジトリ(KOARA)KeiO Associated Repository of Academic resources

慶應義塾大学学術情報リポジトリ(KOARA)

Home  »»  Listing item  »»  Detail

Detail

Item Type Article
ID
2017000001-20170039  
Preview
Image
thumbnail  
Caption  
Full text
2017000001-20170039.pdf
Type :application/pdf Download
Size :125.1 KB
Last updated :Jul 31, 2019
Downloads : 216

Total downloads since Jul 31, 2019 : 216
 
Release Date
 
Title
Title 整っていないビッグデータを対象とした文書解析法の開発  
Kana トトノッテイナイ ビッグ データ オ タイショウ ト シタ ブンショ カイセキホウ ノ カイハツ  
Romanization Totonotteinai biggu dēta o taishō to shita bunsho kaisekihō no kaihatsu  
Other Title
Title Language processing of big data in versatile formats  
Kana  
Romanization  
Creator
Name 斎藤, 博昭  
Kana サイトウ, ヒロアキ  
Romanization Saito, Hiroaki  
Affiliation 慶應義塾大学理工学部准教授  
Affiliation (Translated)  
Role Research team head  
Link  
Edition
 
Place
 
Publisher
Name 慶應義塾大学  
Kana ケイオウ ギジュク ダイガク  
Romanization Keiō gijuku daigaku  
Date
Issued (from:yyyy) 2018  
Issued (to:yyyy)  
Created (yyyy-mm-dd)  
Updated (yyyy-mm-dd)  
Captured (yyyy-mm-dd)  
Physical description
1 pdf  
Source Title
Name 学事振興資金研究成果実績報告書  
Name (Translated)  
Volume  
Issue  
Year 2017  
Month  
Start page  
End page  
ISSN
 
ISBN
 
DOI
URI
JaLCDOI
NII Article ID
 
Ichushi ID
 
Other ID
 
Doctoral dissertation
Dissertation Number  
Date of granted  
Degree name  
Degree grantor  
Abstract
整っていない文書ビッグデータとして, 国立情報学研究所が研究用に配布している25万件余りの不満調査データセットを用いた。これは多人数の書込みにより作成された, 書式, 文体, 文長が不統一なさまざまな種類の不満・苦情を集めた日本語データである。このデータを対象として, 語やフレーズを指定して, それに該当する文書を取り出すタスクを設定した。このような検索処理を実時間で行なうには, インターネット上の検索エンジンで行なわれているように, 文書を前もってベクトル表現に変換しておく必要がある。過年度の研究においては, 各次元が特定の内容語に相当するような数万次元の単語ベクトルを用いた。また, 例えば「セーター」という語から服装品に関係する不満であることを認識する汎化手法を過年度は試した。今年度は検索の際にさらに自由度をもたせ, 入力語に関連する単語をユーザに提示し, 指定された関連語も含めた検索ができるようにした。関連語の提示に関しては二種類のモデルを用意した。一つはWikipediaで学習したもの, もう一つは不満調査データから作成したモデルである。「政治」という単語を例に取ると, 前者のモデルからは経済, 社会, 財政, 外交, 改革などの関連語が取得でき, 後者のモデルからは自民党, 格差, 政府, 与党, 首相といった関連語が取得できた。一般的な傾向として, 後者のモデルからは具体的で時事的な語が取得できることがわかった。このモデル作成においては, 深層学習のフリーソフトウェアであるword2vecを採用し, 200次元のベクトルを用いた。関連語も検索に加えることで, 再現率が向上する一方, ユーザからの入力を要求する煩雑さにつながる場合もあり, この手法が常に最善のアプローチであることを主張するものではないが, 形式が整っていないデータを対象とした文書処理手法として一定の成果を示すことはできた。
Big document data are often written in versatile formats with peculial wordings, jargons, colloquial expressions, to name a few. We chose "Complaint data set" collected in various situations from many people, whose data were made available by NII for research purposes. We need to convert these data into some vector representation to attain realtime search, just like regular search engines on the Web. Each dimension of the vector is assigned to a content word, thus the number of dimensions exceeds tens of thousands. This year we enabled the user to add related words interactively in addition to the original words/phrases. The candidates of the related words are hypothesized from two models, one is made from Wikipedia and the other is made from the Complaint data set. The latter model tends to produce topical words, while the former reflects common usages. This kind of interactive approach might impose a burden on the user, but more prolific search results can be obtained.
 
Table of contents

 
Keyword
 
NDC
 
Note

 
Language
日本語  

英語  
Type of resource
text  
Genre
Research Paper  
Text version
publisher  
Related DOI
Access conditions

 
Last modified date
Jul 31, 2019 16:28:18  
Creation date
Feb 21, 2019 13:07:27  
Registerd by
mediacenter
 
History
Feb 21, 2019    インデックス を変更
Jul 31, 2019    著者,上位タイトル 名前,抄録 内容 を変更
 
Index
/ Public / Internal Research Fund / Keio Gijuku Academic Development Funds Report / Academic year 2017
 
Related to