标签查询 - AI搜索导航

生物医学研究问答数据集和模型得分排行榜

H2O.ai推出的基于Elo评级方法的大模型评估系统

由复旦大学NLP实验室推出的大模型评测基准

以众包方式进行匿名随机对战的LLM基准平台

全方位的多模态大模型能力评测体系

一个综合性的大模型中文评估基准

一个全面的中文基础模型评估套件

CLUE中文语言理解基准测评

项目简介中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行...

LYi 林哥的大模型野榜

这两年各种号称能超越 OpenAI 的大模型层出不穷。为找出最好用的大模型，作者搭建了...

Open LLM Leaderboard

Open LLM Leaderboard

随着大量大型语言模型（LLMs）和聊天机器人每周都在发布，它们往往伴随着对性能的夸...

OpenCompass司南

OpenCompass（司南）是由上海人工智能实验室发布的开源大模型评测体系，目前已成为业...

FlagEval （天秤）大模型评测

FlagEval （天秤）大模型评测

平台简介 FlagEval （天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放...

superbench 大模型评测榜单

SuperBench是什么 SuperBench 是由清华大学基础模型研究中心联合中关村实验室在 2...

Livebench LLM模型的基准测试平台

LiveBench 的介绍： 1. 核心目标与设计理念 LiveBench 的设计初衷是解...

CLiB中文大模型能力评测榜单

CLiB中文大模型能力评测榜单

目前已囊括195个大模型，覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱...

Artificial Analysis AI基准测试平台

Artificial Analysis AI基准测试平台

Artificial Analysis平台是一家领先的独立AI基准测试和分析平台，上面分析的模型不...

lmarena.ai是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员...

SuperCLUE是什么 SuperCLUE是一个专注于中文大模型综合测评的权威平台，其产...

Catimind是什么Catimind（神经猫AI）是一款专为行业应用打造的AI生产力工具，旨...

LLaMA-Factory Online

LLaMA-Factory Online

大模型微调往往面临环境配置复杂、调参繁琐、成本高昂等挑战，令中小团队、个人开发者...

首页上一页下一页尾页1/2