AI在历史知识领域显露短板：大型语言模型应对复杂历史问题力不从心

2025-01-20 10:15:30 科技 >

导读近期研究表明，人工智能在处理复杂历史问题上表现不佳。在NeurIPS会议上公布的研究中，OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款大型...

近期研究表明，人工智能在处理复杂历史问题上表现不佳。在NeurIPS会议上公布的研究中，OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款大型语言模型在历史知识测试中的准确率均较低，其中表现最佳的GPT-4 Turbo准确率仅为46%。研究指出，这些模型在基本史实方面表现尚可，但在深入历史研究时力不从心，且在处理特定地区历史问题时表现更差，反映出训练数据可能存在的偏差。然而，研究团队对AI在历史研究中的应用前景仍持乐观态度，并正在改进测试基准以开发更优秀的模型。

研究人员认为，AI在处理细微历史细节时力不从心，倾向于从主流历史叙事中进行推断，这限制了其在历史领域的准确性。尽管AI在某些专业领域尚无法取代人类专家，但研究团队仍在努力改进，以期提升AI在历史研究中的表现。

标签：

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

热点推荐

· DNF重泉版本：妖护使高效加点策略指南DNF重泉版本：妖护使高效加点策略指南
· Roam：重塑电信生态，引领DePIN与P...Roam：重塑电信生态，引领DePIN与Physical Layer 1的用户中心化革命
· 身价倍增的“天地银行”，正在走向...身价倍增的“天地银行”，正在走向海外舞台
· 支付宝发布全新AI视觉搜索应用探一...支付宝发布全新AI视觉搜索应用探一下：以AI慧眼洞察世界万物
· 数据中心电源板块强势回归，电光科...数据中心电源板块强势回归，电光科技等个股纷纷涨停
· 《方舟时代》VR动作冒险巨制，现已...《方舟时代》VR动作冒险巨制，现已震撼登陆SteamVR与PS VR2平台！
· 24小时全网爆仓金额高达3.23亿美元...24小时全网爆仓金额高达3.23亿美元，其中多单爆仓占比超半数达8亿美元
· SpaceX星舰试飞壮丽谢幕：一级火箭...SpaceX星舰试飞壮丽谢幕：一级火箭精准回收，二级飞船绽放空中烟花
· 房产创新路径：人、房、地、钱联动...房产创新路径：人、房、地、钱联动的智慧策略探索
· 透视十五五住房规划：揭秘人房地钱...透视十五五住房规划：揭秘人房地钱联动新机制
· 上海市政协委员丁祖昱提议：优化住...上海市政协委员丁祖昱提议：优化住宅建筑规范，提高得房率以振兴楼市
· 寒假畅游恩施五日游报团指南：恩施...寒假畅游恩施五日游报团指南：恩施五日游行程规划与费用详解
· 房企年终大盘点：新绿色置业2024年...房企年终大盘点：新绿色置业2024年斥资近30亿高溢价成都夺地，能否借此实现品牌升级？
· 寒假高校开放迎客，如何让游客的校...寒假高校开放迎客，如何让游客的校园之旅满载而归？
· 现代全新帕里斯帝SUV震撼登场：9座...现代全新帕里斯帝SUV震撼登场：9座大空间，重塑旗舰风范
· 我国成品油价格迎来16个月最大幅度上涨我国成品油价格迎来16个月最大幅度上涨
· 史上最长版《花样年华》25周年导演...史上最长版《花样年华》25周年导演特别版定档2月14日情人节：4K高清修复，新增未曝光影像
· 新版《国家自然科学基金条例》如... 新版《国家自然科学基金条例》如何激励原创性基础研究
· 2025年高考600分左右可报考的985大...2025年高考600分左右可报考的985大学概览及优选指南
· 2025年历化政组合考生热门专业及优...2025年历化政组合考生热门专业及优选大学指南

精选文章

· 周期第三载，龙湖引领动能转换新纪元周期第三载，龙湖引领动能转换新纪元
· 北京500个老旧小区将迎来全面升级...北京500个老旧小区将迎来全面升级，看看有你的社区吗？
· 酒店服务如何重燃人文关怀之火？酒店服务如何重燃人文关怀之火？
· Uniswap CEO呼吁通过《国会审查法...Uniswap CEO呼吁通过《国会审查法案》或法律挑战推翻“DeFi经纪商”规则
· 币界网LTC莱特币午间实时行情：突...币界网LTC莱特币午间实时行情：突破$1325，涨幅高达3.50%
· 2024年中国房企交付力巅峰对决：探...2024年中国房企交付力巅峰对决：探寻最值得信赖的项目
· 资深波段交易者精准操作，2783枚ET...资深波段交易者精准操作，2783枚ETH出手斩获48万美金，25轮战绩胜率高达84%
· 暗区突围：揭秘隐藏地道与两大神秘...暗区突围：揭秘隐藏地道与两大神秘商人
· 顺义区旅游指南：探索多样景点顺义区旅游指南：探索多样景点
· 十五五住房规划前瞻：探索人房地钱...十五五住房规划前瞻：探索人房地钱四大要素协同新路径
· 以太坊现货ETF累计净流入破26亿美...以太坊现货ETF累计净流入破26亿美金，净资产比率攀升至3%
· 【乐游河源】冬日暖阳里，邂逅河源...【乐游河源】冬日暖阳里，邂逅河源温泉的极致疗愈之旅
· 极越汽车正式启动：自1月17日起面...极越汽车正式启动：自1月17日起面向符合条件的用户有序办理全额退款
· 重庆市科技局发布2025年度技术预见...重庆市科技局发布2025年度技术预见与制度创新专项项目申报指南
· 深圳二手房交易量重返6万套大关，...深圳二手房交易量重返6万套大关，楼市新政助力日光盘频现
· 2048分镜：精彩玩法解析与体验预告2048分镜：精彩玩法解析与体验预告
· 小鱼传奇公测倒计时：上线时间预告...小鱼传奇公测倒计时：上线时间预告及快速获取途径
· 春节将至，首个旅游高峰蓄势待发春节将至，首个旅游高峰蓄势待发
· 碧桂园财报延期发布详解；重庆建工...碧桂园财报延期发布详解；重庆建工与恒大系完成大规模债务重组 | 房地产早报速递
· 贝莱德ETHA基金巨额持仓曝光：超35...贝莱德ETHA基金巨额持仓曝光：超35亿美元押注以太坊（ETH）