慶應義塾大学学術情報リポジトリ(KOARA)KeiO Associated Repository of Academic resources

慶應義塾大学学術情報リポジトリ(KOARA)

ホーム  »»  アイテム一覧  »»  アイテム詳細

アイテム詳細

アイテムタイプ Article
ID
2017000001-20170039  
プレビュー
画像
thumbnail  
キャプション  
本文
2017000001-20170039.pdf
Type :application/pdf Download
Size :125.1 KB
Last updated :Jul 31, 2019
Downloads : 213

Total downloads since Jul 31, 2019 : 213
 
本文公開日
 
タイトル
タイトル 整っていないビッグデータを対象とした文書解析法の開発  
カナ トトノッテイナイ ビッグ データ オ タイショウ ト シタ ブンショ カイセキホウ ノ カイハツ  
ローマ字 Totonotteinai biggu dēta o taishō to shita bunsho kaisekihō no kaihatsu  
別タイトル
名前 Language processing of big data in versatile formats  
カナ  
ローマ字  
著者
名前 斎藤, 博昭  
カナ サイトウ, ヒロアキ  
ローマ字 Saito, Hiroaki  
所属 慶應義塾大学理工学部准教授  
所属(翻訳)  
役割 Research team head  
外部リンク  
 
出版地
 
出版者
名前 慶應義塾大学  
カナ ケイオウ ギジュク ダイガク  
ローマ字 Keiō gijuku daigaku  
日付
出版年(from:yyyy) 2018  
出版年(to:yyyy)  
作成日(yyyy-mm-dd)  
更新日(yyyy-mm-dd)  
記録日(yyyy-mm-dd)  
形態
1 pdf  
上位タイトル
名前 学事振興資金研究成果実績報告書  
翻訳  
 
 
2017  
 
開始ページ  
終了ページ  
ISSN
 
ISBN
 
DOI
URI
JaLCDOI
NII論文ID
 
医中誌ID
 
その他ID
 
博士論文情報
学位授与番号  
学位授与年月日  
学位名  
学位授与機関  
抄録
整っていない文書ビッグデータとして, 国立情報学研究所が研究用に配布している25万件余りの不満調査データセットを用いた。これは多人数の書込みにより作成された, 書式, 文体, 文長が不統一なさまざまな種類の不満・苦情を集めた日本語データである。このデータを対象として, 語やフレーズを指定して, それに該当する文書を取り出すタスクを設定した。このような検索処理を実時間で行なうには, インターネット上の検索エンジンで行なわれているように, 文書を前もってベクトル表現に変換しておく必要がある。過年度の研究においては, 各次元が特定の内容語に相当するような数万次元の単語ベクトルを用いた。また, 例えば「セーター」という語から服装品に関係する不満であることを認識する汎化手法を過年度は試した。今年度は検索の際にさらに自由度をもたせ, 入力語に関連する単語をユーザに提示し, 指定された関連語も含めた検索ができるようにした。関連語の提示に関しては二種類のモデルを用意した。一つはWikipediaで学習したもの, もう一つは不満調査データから作成したモデルである。「政治」という単語を例に取ると, 前者のモデルからは経済, 社会, 財政, 外交, 改革などの関連語が取得でき, 後者のモデルからは自民党, 格差, 政府, 与党, 首相といった関連語が取得できた。一般的な傾向として, 後者のモデルからは具体的で時事的な語が取得できることがわかった。このモデル作成においては, 深層学習のフリーソフトウェアであるword2vecを採用し, 200次元のベクトルを用いた。関連語も検索に加えることで, 再現率が向上する一方, ユーザからの入力を要求する煩雑さにつながる場合もあり, この手法が常に最善のアプローチであることを主張するものではないが, 形式が整っていないデータを対象とした文書処理手法として一定の成果を示すことはできた。
Big document data are often written in versatile formats with peculial wordings, jargons, colloquial expressions, to name a few. We chose "Complaint data set" collected in various situations from many people, whose data were made available by NII for research purposes. We need to convert these data into some vector representation to attain realtime search, just like regular search engines on the Web. Each dimension of the vector is assigned to a content word, thus the number of dimensions exceeds tens of thousands. This year we enabled the user to add related words interactively in addition to the original words/phrases. The candidates of the related words are hypothesized from two models, one is made from Wikipedia and the other is made from the Complaint data set. The latter model tends to produce topical words, while the former reflects common usages. This kind of interactive approach might impose a burden on the user, but more prolific search results can be obtained.
 
目次

 
キーワード
 
NDC
 
注記

 
言語
日本語  

英語  
資源タイプ
text  
ジャンル
Research Paper  
著者版フラグ
publisher  
関連DOI
アクセス条件

 
最終更新日
Jul 31, 2019 16:28:18  
作成日
Feb 21, 2019 13:07:27  
所有者
mediacenter
 
更新履歴
Feb 21, 2019    インデックス を変更
Jul 31, 2019    著者,上位タイトル 名前,抄録 内容 を変更
 
インデックス
/ Public / 塾内助成報告書 / 学事振興資金研究成果実績報告書 / 2017年度
 
関連アイテム
 

ランキング

最も多く閲覧されたアイテム
1位 新自由主義に抗す... (427) 1st
2位 斎藤隆夫の「粛軍... (340)
3位 慶應義塾図書館史... (271)
4位 認知文法から考え... (265)
5位 M&Aにおける... (263)

最も多くダウンロードされたアイテム
1位 <<Qu'... (1470) 1st
2位 新参ファンと古参... (437)
3位 731部隊と細菌戦 ... (314)
4位 日本における美容... (268)
5位 新自由主義に抗す... (267)

LINK

慶應義塾ホームページへ
慶應義塾大学メディアセンターデジタルコレクション
慶應義塾大学メディアセンター本部
慶應義塾研究者情報データベース