GPT-4作答质量简单测试(总共测试近50次) 方法:2个低相关性症状,先问可能的诊断,再问同时解释2个症状的诊断。 对作答质量影响: Prompt>自我纠错>重试 Prompt部分: 英文翻译并润色的文本>=英文翻译文本>中文润色文本>原文(中文+外行的描述) 不要让GPT-4在作答之前先翻译/润色,质量会明显下降。 自我纠错部分: (如:Carefully review your answers to ensure that all requirements have been met.) 若不满意,可要求GPT-4自我纠错,通常比重试好。 不要让GPT-4在作答后接着自我纠错,毫无效果,并且后续自我纠错会否认有错。 备注: 若问题较难(如本测试),不建议用中文+外行描述,在反复重试、纠错后仍有明显遗漏。 中文问newbing同时要求检索英文资料作答也有较好的效果,而中文直接问newbing说查不到相关信息。