新闻

[2024.05.08] 我们支持了以下四个MoE模型的评测配置文件: Mixtral-8x22B-v0.1, Mixtral-8x22B-Instruct-v0.1, Qwen1.5-MoE-A2.7B, Qwen1.5-MoE-A2.7B-Chat 。欢迎试用!
[2024.04.30] 我们支持了计算模型在给定数据集上的压缩率（Bits per Character）的评测方法（官方文献）。欢迎试用llm-compression评测集! 🔥🔥🔥
[2024.04.26] 我们报告了典型LLM在常用基准测试上的表现，欢迎访问文档以获取更多信息！🔥🔥🔥.
[2024.04.26] 我们废弃了 OpenCompass 进行多模态大模型评测的功能，相关功能转移至 VLMEvalKit，推荐使用！🔥🔥🔥.
[2024.04.26] 我们支持了 ArenaHard评测欢迎试用！🔥🔥🔥.
[2024.04.22] 我们支持了 LLaMA3 和 LLaMA3-Instruct 的评测，欢迎试用！🔥🔥🔥.
[2024.02.29] 我们支持了MT-Bench、AlpacalEval和AlignBench，更多信息可以在这里找到。
[2024.01.30] 我们发布了OpenCompass 2.0。更多信息，请访问CompassKit、CompassHub和CompassRank。
[2024.01.17] 我们支持了 InternLM2 和 InternLM2-Chat 的相关评测，InternLM2 在这些测试中表现出非常强劲的性能，欢迎试用！.
[2024.01.17] 我们支持了多根针版本的大海捞针测试，更多信息见这里.
[2023.12.28] 我们支持了对使用LLaMA2-Accessory（一款强大的LLM开发工具箱）开发的所有模型的无缝评估!
[2023.12.22] 我们开源了T-Eval用于评测大语言模型工具调用能力。欢迎访问T-Eval的官方Leaderboard获取更多信息!
[2023.12.10] 我们开源了多模评测框架 VLMEvalKit，目前已支持 20+ 个多模态大模型与包括 MMBench 系列在内的 7 个多模态评测集.
[2023.12.10] 我们已经支持了Mistral AI的MoE模型 Mixtral-8x7B-32K。欢迎查阅MixtralKit以获取更多关于推理和评测的详细信息.
[2023.11.22] 我们已经支持了多个于API的模型，包括百度、字节跳动、华为、360。欢迎查阅模型部分以获取更多详细信息。
[2023.11.20] 感谢helloyongyang支持使用LightLLM作为后端进行评估。欢迎查阅使用LightLLM进行评估以获取更多详细信息。
[2023.11.13] 我们很高兴地宣布发布 OpenCompass v0.1.8 版本。此版本支持本地加载评估基准，从而无需连接互联网。请注意，随着此更新的发布，您需要重新下载所有评估数据集，以确保结果准确且最新。
[2023.11.06] 我们已经支持了多个基于 API 的模型，包括ChatGLM Pro@智谱清言、ABAB-Chat@MiniMax 和讯飞。欢迎查看模型部分以获取更多详细信息。
[2023.10.24] 我们发布了一个全新的评测集，BotChat，用于评估大语言模型的多轮对话能力，欢迎查看 BotChat 获取更多信息.
[2023.09.26] 我们在评测榜单上更新了Qwen, 这是目前表现最好的开源模型之一, 欢迎访问官方网站获取详情.
[2023.09.20] 我们在评测榜单上更新了InternLM-20B, 欢迎访问官方网站获取详情.
[2023.09.19] 我们在评测榜单上更新了WeMix-LLaMA2-70B/Phi-1.5-1.3B, 欢迎访问官方网站获取详情.
[2023.09.18] 我们发布了长文本评测指引.
[2023.09.08] 我们在评测榜单上更新了Baichuan-2/Tigerbot-2/Vicuna-v1.5, 欢迎访问官方网站获取详情。
[2023.09.06] 欢迎 Baichuan2 团队采用OpenCompass对模型进行系统评估。我们非常感谢社区在提升LLM评估的透明度和可复现性上所做的努力。
[2023.09.02] 我们加入了Qwen-VL的评测支持。
[2023.08.25] 欢迎 TigerBot 团队采用OpenCompass对模型进行系统评估。我们非常感谢社区在提升LLM评估的透明度和可复现性上所做的努力。
[2023.08.21] Lagent 正式发布，它是一个轻量级、开源的基于大语言模型的智能体（agent）框架。我们正与Lagent团队紧密合作，推进支持基于Lagent的大模型工具能力评测 !
[2023.08.18] OpenCompass现已支持多模态评测，支持10+多模态评测数据集，包括 MMBench, SEED-Bench, COCO-Caption, Flickr-30K, OCR-VQA, ScienceQA 等. 多模态评测榜单即将上线，敬请期待!
[2023.08.18] 数据集页面现已在OpenCompass官网上线，欢迎更多社区评测数据集加入OpenCompass !
[2023.08.11] 官网榜单上新增了模型对比功能，希望该功能可以协助提供更多发现！
[2023.08.11] 新增了 LEval 评测支持.
[2023.08.10] OpenCompass 现已适配 LMDeploy. 请参考评测指南对 Turbomind 加速后的模型进行评估.
[2023.08.10] Qwen-7B 和 XVERSE-13B的评测结果已更新在 OpenCompass 大语言模型评测榜单!
[2023.08.09] 更新更多评测数据集(CMMLU, TydiQA, SQuAD2.0, DROP) ，请登录大语言模型评测榜单查看更多结果! 欢迎添加你的评测数据集到OpenCompass.
[2023.08.07] 新增了 MMBench 评测脚本以支持用户自行获取 MMBench-dev 的测试结果.
[2023.08.05] GPT-4 的评测结果已更新在 OpenCompass 大语言模型评测榜单!
[2023.07.27] 新增了 CMMLU! 欢迎更多的数据集加入 OpenCompass.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

news.md

news.md

新闻

Files

news.md

Latest commit

History

news.md

File metadata and controls

新闻