the latest in aiBeta

Japanese Dataset

Research on Japanese datasets focuses on developing and improving large language models (LLMs) for various domains, including biomedical applications, finance, and general-purpose tasks. Current efforts center on creating high-quality, domain-specific datasets to train and evaluate these models, often employing techniques like continual pre-training and instruction tuning to enhance performance. These advancements are crucial for improving the accuracy and efficiency of natural language processing (NLP) in Japanese, with implications for applications ranging from financial analysis to healthcare and information extraction.

11papers

Papers

March 7, 2025

ModernBERT is More Efficient than Conventional BERT for Chest CT Findings Classification in Japanese Radiology Reports
Yosuke Yamagishi, Tomohiro Kikuchi, Shouhei Hanaoka, Takeharu Yoshikawa, Osamu Abe
The University of Tokyo●The University of Tokyo Hospital●Jichi Medical University
Chest CT Efficient Tokenization Classification Performance Classification Code Radiology Report Japanese Dataset

February 20, 2025

Harnessing PDF Data for Improving Japanese Large Multimodal Models
Jeonghun Baek, Akiko Aizawa, Kiyoharu Aizawa
The University of Tokyo●National Institute of Informatics
LLM Benchmark Japanese Dataset Image Text Pair Large Multimodal Model Language Model

December 24, 2024

On the Applicability of Zero-Shot Cross-Lingual Transfer Learning for Sentiment Classification in Distant Language Pairs
Andre Rusli, Makoto Shishido
Zero Shot Zero Shot Transfer Fully Supervised Cross Lingual Transfer Learning Cross Lingual Transfer Applicability Study Japanese Dataset Sentiment Analysis

December 14, 2024

Efficient Adaptation of Multilingual Models for Japanese ASR
Mark Bajo, Haruka Fukukawa, Ryuji Morita, Yuma Ogasawara
Multilingual Model Efficient Adaptation Multilingual Automatic Speech Recognition Monolingual Model Japanese Dataset

December 9, 2024

JAPAGEN: Efficient Few/Zero-shot Learning via Japanese Training Dataset Generation with LLM
Takuro Fujii, Satoru Katsumata
Medical LLM Training Data Generator Language Task Faithful Generation Zero Shot Learning Japanese Dataset

December 4, 2024

Yankari: A Monolingual Yoruba Dataset
Maro Akpobi
Natural Language Processing Japanese Dataset

September 20, 2024

JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
Junfeng Jiang, Jiahao Huang, Akiko Aizawa
New Benchmark Japanese Large Language Model Language Model Biomedical Task Japanese Dataset

July 15, 2024

MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models
Chengguang Gan, Sunbowen Lee, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang+2
Open Information Extraction Japanese Dataset Level Test

April 16, 2024

Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training
Masanori Hirano, Kentaro Imajo
Construction Industry Domain Specific Continual Pre Training Japanese Large Language Model Continual Pre Training Financial LANGuage Model Japanese Dataset Large Language Model

April 14, 2024

JaFIn: Japanese Financial Instruction Dataset
Kota Tanabe, Masahiro Suzuki, Hiroki Sakaji, Itsuki Noda
Language Model Domain Adaptation Japanese Dataset Japanese Business Domain Large Language Model

February 22, 2024

J-UniMorph: Japanese Morphological Annotation through the Universal Feature Schema
Kosuke Matsuzaki, Masaya Taniguchi, Kentaro Inui, Keisuke Sakaguchi
Japanese Dataset Cross Linguistic

September 22, 2023

CrossSinger: A Cross-Lingual Multi-Singer High-Fidelity Singing Voice Synthesizer Trained on Monolingual Singers
Xintong Wang, Chang Zeng, Jun Chen, Chunhui Wang
Japanese Dataset Vocal Performance Singing Voice

May 30, 2023

Back to Patterns: Efficient Japanese Morphological Analysis with Feature-Sequence Trie
Naoki Yoshinaga
Japanese Dataset Morphological Analyzer Neural Network Morphological Dictionary Complex Pattern Supervised Baseline

May 19, 2023

Arukikata Travelogue Dataset
Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue, Shohei Higashiyama, Satoshi Nakamura, Taro Watanabe
Japanese Dataset Data Set

March 14, 2023

Rethinking Image-based Table Recognition Using Weakly Supervised Methods
Nam Tuan Ly, Atsuhiro Takasu, Phuc Nguyen, Hideaki Takeda
Table Recognition Japanese Dataset Bounding Box Annotation Weakly Supervised

December 23, 2022

CinPatent: Datasets for Patent Classification
Minh-Tien Nguyen, Nhung Bui, Manh Tran-Tien, Linh Le, Huy-The Vu
Multi Label Text Classification Japanese Dataset Patent Classification English Dataset Data Set Patent Text

April 6, 2022

Annotation-Scheme Reconstruction for "Fake News" and Japanese Fake News Dataset
Taichi Murayama, Shohei Hisada, Makoto Uehara, Shoko Wakamiya, Eiji Aramaki
Fake News Annotation Scheme Japanese Dataset