What Do Large Language Models Think You Think? A False Belief Task Study in a Safety-Critical Domain

Solaki, A.; Bosch, K. van den

What Do Large Language Models Think You Think? A False Belief Task Study in a Safety-Critical Domain

conference paper

2025

Solaki, A.

Bosch, K. van den

A preliminary evaluation of ChatGPT-4o in modified False Belief Tasks for safety-critical contexts indicates weaknesses in Theory of Mind reasoning. We explore the implications for Large Language Model-enabled human-machine collaboration in such environments.

Topics

ChatGPT-4o Safety Weakness Mind Reasing

TNO Identifier

1011866

Repository link

https://resolver.tno.nl/uuid:08c3b7a4-1ee4-4e25-9fcc-85f911ef0137

Source title

Workshop ‘Advancing Artificial Intelligence through Theory of Mind’ (ToM4AI@AAAI), part of the 39th Annual AAAI Conference on Artificial Intelligence, February 25 – March 4, 2025, Philadelphia, Pennsylvania, USA

Collation

5 p.

Files

To receive the publication files, please send an e-mail request to TNO Repository.

What Do Large Language Models Think You Think? A False Belief Task Study in a Safety-Critical Domain

Make TNO yours!