眼科研究新发现：ChatGPT 数据有缺陷

原创sleuthPubpeer2025-04-26 20:42:34新加坡

提示：欢迎点击上方「Pubpeer」↑关注我们！

编者按

最新、最快、最真实的科研匿名评价论文报道；关注高校院所科研生态，欢迎提供新闻线索。联系邮箱：Pubpeer@qq.com

2025 年 4 月 24 日，发表于《JAMA Ophthalmology》杂志上的一项研究引发关注。该研究由 Andrea Taloni、Giulia Coco 等多位医学专家共同完成。

自 2022 年 OpenAI 的大型语言模型 ChatGPT 问世以来，LLMs 在眼科领域展现出诸多应用，如参加眼科知识评估考试、创作眼科科学摘要以及处理青光眼和视网膜临床病例等。

此次研究中，Taloni 等人着重展示了 ChatGPT 4 创建合成数据集的能力，并在前人对 GPT - 4 ADA（2023 年 9 月 11 日版本）创建假数据集能力评估的基础上进行拓展。研究人员运用法医分析手段，对这些数据集进行严格检测，检测内容涵盖人口统计数据中的统计异常、分布均匀性、末尾数字的重复模式，以及研究变量的线性相关性、分布形状和异常值等方面。

起初，所有数据集均未能通过法医分析，显露出编造迹象。随后，一个定制的 GPT 合成数据创建器生成了经过优化的数据集，12 个数据集中有 4 个通过了法医分析，被认定为真实。不过，这些数据仍存在显著缺陷，像患者姓名与性别不匹配、基线访视发生在周末、年龄计算错误等问题。

这项研究意义重大，它揭示了大型语言模型在数据创建方面虽有潜力，但生成的数据存在诸多隐患，可能影响医学研究的准确性与可靠性。提醒科研人员在使用相关技术时需谨慎，对数据进行严格验证，以确保医学研究的科学性和严谨性。

https://jamanetwork.com/journals/jamaophthalmology/article-abstract/2832965

来源：公众号pubpeer原创，文章涉及作者姓名都为音译名字；转载贴子请注明出处，若没注明pubpeer公众号出处，构成侵权。

声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢

Pubpeer，专注科研工作者。关注请长按上方二维码。投稿、合作、转载授权事宜请联系本号，回复2025，微信ID：BikElisabeth 或邮箱：Pubpeer@qq.com