Item Type |
Article |
ID |
|
Preview |
Image |
|
Caption |
|
|
Full text |
KO11003001-20230304-0023.pdf
Type |
:application/pdf |
Download
|
Size |
:583.6 KB
|
Last updated |
:Feb 20, 2024 |
Downloads |
: 38 |
Total downloads since Feb 20, 2024 : 38
|
|
Release Date |
|
Title |
Title |
マルチモーダルOCR特徴を用いたdynamic pointer networkによるテキスト付き画像説明文生成
|
Kana |
マルチモーダル OCR トクチョウ オ モチイタ dynamic pointer network ニ ヨル テキストツキ ガゾウ セツメイブン セイセイ
|
Romanization |
Maruchimōdaru OCR tokuchō o mochiita dynamic pointer network ni yoru tekisutotsuki gazō setsumeibun seisei
|
|
Other Title |
|
Creator |
Name |
植田, 有咲
|
Kana |
|
Romanization |
|
Affiliation |
慶應義塾大学大学院理工学研究科開放環境科学専攻
|
Affiliation (Translated) |
|
Role |
|
Link |
|
|
Edition |
|
Place |
|
Publisher |
Name |
慶應義塾大学AI・高度プログラミングコンソーシアム
|
Kana |
ケイオウ ギジュク ダイガク AI・コウド プログラミング コンソーシアム
|
Romanization |
Keiō gijuku daigaku AI kōdo puroguramingu konsōshiamu
|
|
Date |
Issued (from:yyyy) |
2023
|
Issued (to:yyyy) |
|
Created (yyyy-mm-dd) |
|
Updated (yyyy-mm-dd) |
|
Captured (yyyy-mm-dd) |
|
|
Physical description |
|
Source Title |
Name |
AICカンファレンス予稿集
|
Name (Translated) |
|
Volume |
|
Issue |
|
Year |
2023
|
Month |
|
Start page |
23
|
End page |
24
|
|
ISSN |
|
ISBN |
|
DOI |
|
URI |
|
JaLCDOI |
|
NII Article ID |
|
Ichushi ID |
|
Other ID |
|
Doctoral dissertation |
Dissertation Number |
|
Date of granted |
|
Degree name |
|
Degree grantor |
|
|
Abstract |
本研究では,テキスト情報を含む画像に対して説明文を生成するタスクに対して, マルチモーダルOCR特徴を含む複数のモダリティを利用した画像説明文生成モデルを提案する. 提案手法では画像中のテキスト領域を複数のモダリティに分割するマルチモーダルOCR特徴を導入する.さらに, 画像, 物体領域, マルチモーダルOCR特徴を含む複数モダリティ間の関係をモデル化するための相互注意を導入する. 提案手法はTextCapsデータセットにおいて既存手法を上回る結果を得た.
|
|
Table of contents |
|
Keyword |
Multimodal Language Processing
|
Text-based Image Manipulation
|
|
NDC |
|
Note |
会議名 : AICカンファレンス2023
開催地 : 慶應義塾大学日吉キャンパス
日時 : 2023年3月4日
第2章ポスター発表要旨
ポスター要旨-1
|
|
Language |
|
Type of resource |
|
Genre |
|
Text version |
|
Related DOI |
|
Access conditions |
|
Last modified date |
|
Creation date |
|
Registerd by |
|
History |
|
Index |
|
Related to |
|