GPT Model

Generative Pre-trained Transformer (GPT) models are large language models designed to generate human-like text, with research focusing on improving their accuracy, mitigating biases, and enhancing their applicability across diverse fields. Current research explores architectural improvements, such as optimizing attention mechanisms and employing sparsity techniques for efficient training, alongside investigations into bias mitigation strategies and the development of specialized GPT models for specific domains (e.g., biomedical text summarization, financial analysis). The impact of GPT models is significant, offering potential for automating tasks, improving accessibility to information, and advancing research in areas like natural language processing and scientific simulation, although concerns regarding bias and privacy remain active research areas.

Papers

October 24, 2023

ZzzGPT: An Interactive GPT Approach to Enhance Sleep Quality
Yonchanok Khaokaew, Kaixin Ji, Thuc Hanh Nguyen, Hiruni Kegalle, Marwah Alaofi, Hao Xue, Flora D. Salim
Two Stage GPT Model Sleep Data Sleep Pattern GLOBEM Dataset Sleep Quality Prediction

October 18, 2023

Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture
Daniel Y. Fu, Simran Arora, Jessica Grogan, Isys Johnson, Sabri Eyuboglu, Armin W. Thomas, Benjamin Spector, Michael Poli, Atri Rudra, Christopher Ré
Architecture Design Major Challenge Bottleneck GPT Model Simple Alternating Mixer Structured Matrix Butterfly Matrix

October 12, 2023

Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams
Ethan Callanan, Amarachi Mbakwe, Antony Papadimitriou, Yulong Pei, Mathieu Sibue, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah
Natural Language Processing ChatGPT Generated Conversation GPT 4 GPT Model Mock Interview

September 3, 2023

AutoML-GPT: Large Language Model for AutoML
Yun-Da Tsai, Yu-Che Tsai, Bo-Wei Huang, Chun-Pai Yang, Shou-De Lin
Large Language Model Domain Knowledge Online autoML Machine Learning Task GPT Model

August 11, 2023

Large Language Models in Cryptocurrency Securities Cases: Can a GPT Model Meaningfully Assist Lawyers?
Arianna Trozze, Toby Davies, Bennett Kleinberg
Reasoning Capability Legal Reasoning GPT Model

July 20, 2023

IvyGPT: InteractiVe Chinese pathwaY language model in medical domain
Rongsheng Wang, Yaofei Duan, ChanTong Lam, Jiexi Chen, Jiangsheng Xu, Haoming Chen, Xiaohong Liu, Patrick Cheong-Iao Pang, Tao Tan
Large Language Model Supervised Fine Tuning Medical Domain Interactive No Code GPT Model pathwaY Language Model

June 28, 2023

Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance of Current GPT Models in Biomedical Tasks
Samy Ateia, Udo Kruschwitz
Zero Shot ChatGPT Generated Conversation Zero Shot Learning Answer Generation GPT Model Biomedical Task Commercial Large Language Model BioASQ Challenge

June 21, 2023

GPT-Based Models Meet Simulation: How to Efficiently Use Large-Scale Pre-Trained Language Models Across Simulation Tasks
Philippe J. Giabbanelli
Simulation Study Scale Pre Trained Language Model Visualization Tool GPT Model Simulation Platform

June 5, 2023

Efficient GPT Model Pre-training using Tensor Train Matrix Representation
Viktoriia Chekalina, Georgii Novikov, Julia Gusak, Ivan Oseledets, Alexander Panchenko
Transformer Model Language Modeling Task Tensor Train GPT Model Large Scale Transformer Model

May 30, 2023

GPT Models in Construction Industry: Opportunities, Limitations, and a Use Case Validation
Abdullahi Saka, Ridwan Taiwo, Nurudeen Saka, Babatunde Salami, Saheed Ajayi, Kabiru Akande, Hadi Kazemi
Large Language Model Medical LLM Emerging Opportunity Fundamental Limitation Construction Industry Use Case GPT Model Different LLM

May 10, 2023

GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
Chatbot Response GPT Model Co Speech Gesture Generation

April 16, 2023

April 11, 2023

Training Large Language Models Efficiently with Sparsity and Dataflow
Venkat Srinivasan, Darshan Gandhi, Urmish Thakker, Raghu Prabhakar
Large Language Model Foundation Model Sparsity Increase Sparse Model Dataflow Architecture GPT Model

April 6, 2023

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster
Nolan Dey, Gurpreet Gosal, Zhiming, Chen, Hemant Khachane, William Marshall, Ribhu Pathria, Marvin Tom, Joel Hestness
Large Language Model Language Model Large Model GPT Model Computing Cluster Chinchilla Scaling

March 30, 2023

Aligning a medium-size GPT model in English to a small closed domain in Spanish
Oscar R. Navarrete-Parra, Victor Uc-Cetina, Jorge Reyes-Magana
Neural Network Accurate Decoding Human Judgment Continuous Spanish GPT Model Continuous Domain

March 18, 2023

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models
Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui, Zeyang Zhou, Chao Gong, Yang Shen, Jie Zhou, Siming Chen, Tao Gui, Qi Zhang, Xuanjing Huang
Natural Language Language Understanding GPT 3 Natural Language Understanding Task GPT Model Capability Evaluation

November 28, 2022

GPT-Neo for commonsense reasoning -- a theoretical and practical lens
Rohan Kashyap, Vivek Kashyap, Narendra C. P.
Camera Lens Commonsense Reasoning GPT Neo Supervised Fine Tuning Pre Trained Large Language Model GPT Model Commonsense Reasoning Benchmark