Rebus Solving Capability

Rebus solving, the ability of artificial intelligence to decipher visual and textual puzzles requiring multi-step reasoning, serves as a rigorous benchmark for evaluating multimodal large language models' cognitive abilities. Current research focuses on assessing the performance of models like GPT-4 and LLaMA on diverse rebus datasets, revealing significant limitations in their ability to combine image recognition, linguistic understanding, and complex reasoning, even with fine-tuning. These findings highlight critical gaps in current AI capabilities, particularly in areas like symbolic manipulation and common-sense reasoning, and provide valuable insights for improving model design and training methodologies.

Papers

August 1, 2024

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses
Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza
Large Language Model Early Slavic Participle GIT Net Rebus Solving Capability

January 11, 2024

REBUS: A Robust Evaluation Benchmark of Understanding Symbols
Andrew Gritsevskiy, Arjun Panickssery, Aaron Kirtland, Derik Kauffman, Hans Gundlach, Irina Gritsevskaya, Joe Cavanagh, Jonathan Chiang, Lydia La Roux, Michelle Hung
Multimodal Large Language Model Human Cognition Robust Evaluation Symbol Detection Multimodal Evaluation Pun Generation Rebus Solving Capability

Rebus Solving Capability

Papers

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

REBUS: A Robust Evaluation Benchmark of Understanding Symbols