关注我们
QRcode 邮件联系 新浪微博
首页 > 科技 » 正文

LLM可以撰写和回答测验-但还没有完全准备好扰乱琐事之夜

 Matthew Connatser

这个应用程序是由Stefano Fiorucci开发的--他的日常工作让他成为企业人工智能公司Deepset的软件工程师--代码可以在GitHub上找到.

Fiorucci还推出了一款名为《拥抱面孔》的AutoQuizzer.

一位开发人员通过开发AutoQuizzer对大型语言模型(LLM)进行了测试.

AutoQuizzer是一款从网页上的文本创建测验的工具.

使用这款应用很简单:输入一个URL,点击“生成测验”,然后准备在由该模型创建的多项选择测验中,对照LLM对页面内容的解释进行测试.

该系统尝试每页生成五个问题.

在我们的测试中,只需要一两秒钟就可以创建一个测验,用户可以自己完成或交回人工智能系统回答.

当应用程序自己进行测验时,你可以选择强制它进入“闭卷考试”模式,在这种模式下,该模型只依赖于页面主题、问题和任何它接受过训练的信息来挑选答案.

或者,AI可以被允许考虑关于网页主题的前三个谷歌搜索结果.

在任何一种模式下,人工智能代码都需要几秒钟的时间才能得出答案.

Fiorucci向The Register解释说,创建AutoQuizzer实际上很简单,因为构建它的组件已经可以用了.

该应用程序使用Deepset的开源框架HayStack从指定的页面中提取文本,并通过Groq的免费推理API将其传递给Meta的Llama-3-8B-Indict LLM.

大羊驼神经网络被提示分析文本,并根据JSON格式的内容生成一个测验,供网络应用程序显示,用户或大羊驼本身都可以回答.

菲奥鲁奇指出,也可以使用其他更强大的LLMS,但他使用Llama-3-8B作为AutoQuizzer是有具体原因的.

也许最重要的是,该模型相对较小且速度较快,可以通过Groq的API免费使用,这使得基于网络的免费演示成为可能.

我试过微软的Phi-3-mini,因为它在基准测试中有非常好的性能,尽管它的体积很小:它的参数不到40亿.

与LLAMA-3相比,它不能生成有效的JSON,测验问题有时太容易或制作得太差,“Fiorucci说.

任何想要用另一个LLM制作自己版本的AutoQuizzer的人,比如更强大、更大的模型,都可以这样做.

Fiorucci说,Llama-3可以与GPT家族的成员交换.

为了遵守免费Groq API的规则,AutoQuizzer只会将网页的前4000个字符发送到LLM进行分析.

Fiorucci告诉The Register,骆驼3-8B在处理维基百科等来源的文章方面比在新闻文章上更好.

尽管如此,字数限制更可能是维基百科页面的问题,这是不方便的:新闻报道往往将最重要的信息放在开头,而维基百科条目的结构不是这样的,而是以摘要开头.

在注册中心的测试中,AutoQuizzer通常会提供像样的问题和合适的答案.

几乎每一个问题都有四个基本的答案选项--只有一个问题提供了“以上所有”选项--而且所有问题都是围绕主题的.

它甚至可以从一篇非英语文章中生成英语问题,尽管这对LLM来说并不理想,而且可能会引入错误.

本文标签:
想攀登Alpine Linux的顶峰吗?3.20是不
越来越多的证据表明金星有多座活火山