MMLU开源 多样任务真实数据 大模型在线购物基准Shopping 谁是在线购物领域最强大模型,也有评测基准了,基于真实在线购物数据,电商巨头亚马逊终于,亮剑,——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准ShoppingMMLU,用以评估大语言模型在...