这么多AI模型,我到底怎么选?

目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。

C-Eval

C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。 您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题, 分为四个难度级别。更多详情参考网站。

https://cevalbenchmark.com/static/leaderboard.html

SuperCLUE

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。

它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新

https://www.superclueai.com/

总排行榜(2023年11月)

排名模型机构总分OPEN 多轮开放问题OPT 能力客观题

-

GPT4-Turbo

OpenAI

89.79

97.53

78.18

-

GPT-4

OpenAI

75.14

73.01

78.33

🏅️

文心一言4.0

百度

74.02

73.62

74.61

🥈

Moonshot

月之暗面

72.88

71.47

74.99

🥉

Yi-34B-Chat

零一万物

71.87

71.21

72.85

4

BlueLM

vivo

67.14

64.88

70.53

5

腾讯混元

腾讯

66.96

62.27

74

6

通义千问2.0(v1030)

阿里巴巴

66.94

61.01

75.83

7

ChatGLM3-Turbo

清华&智谱

66.5

63.27

71.34

-

Claude2

Anthropic

60.62

57.82

64.82

8

云雀大模型(豆包)

字节跳动

60.42

55.96

67.11

-

GPT3.5-Turbo

OpenAI

59.39

57.16

62.73

9

XVERSE-13B-2-Chat

元象科技

58.31

49.95

70.84

10

Qwen-14B-Chat

阿里巴巴

57.9

49.05

71.18

11

讯飞星火V3.0

科大讯飞

57.18

51

66.45

12

Baichuan2-13B-Chat

百川智能

56.33

50.33

65.33

13

MiniMax-Abab5.5

MiniMax

55.08

45.27

69.8

14

360GPT_S2_V10

360

46.47

33.35

66.14

15

ChatGLM3-6B

清华&智谱

46.24

38.01

58.58

16

Chinese-Alpaca-2-13B

yiming cui

43.42

38.09

51.42

-

Llama-2-13B-Chat

Meta

31.47

28.67

35.67

Last updated