LLM可以撰写和回答测验-但还没有完全准备好扰乱琐事之夜--商业世界网

首页 > 科技 » 正文

LLM可以撰写和回答测验-但还没有完全准备好扰乱琐事之夜

Matthew Connatser 2024-05-30

这个应用程序是由Stefano Fiorucci开发的--他的日常工作让他成为企业人工智能公司Deepset的软件工程师--代码可以在GitHub上找到.

Fiorucci还推出了一款名为《拥抱面孔》的AutoQuizzer.

一位开发人员通过开发AutoQuizzer对大型语言模型(LLM)进行了测试.

AutoQuizzer是一款从网页上的文本创建测验的工具.

使用这款应用很简单：输入一个URL，点击“生成测验”，然后准备在由该模型创建的多项选择测验中，对照LLM对页面内容的解释进行测试.

该系统尝试每页生成五个问题.

在我们的测试中，只需要一两秒钟就可以创建一个测验，用户可以自己完成或交回人工智能系统回答.

当应用程序自己进行测验时，你可以选择强制它进入“闭卷考试”模式，在这种模式下，该模型只依赖于页面主题、问题和任何它接受过训练的信息来挑选答案.

或者，AI可以被允许考虑关于网页主题的前三个谷歌搜索结果.

在任何一种模式下，人工智能代码都需要几秒钟的时间才能得出答案.

Fiorucci向The Register解释说，创建AutoQuizzer实际上很简单，因为构建它的组件已经可以用了.

该应用程序使用Deepset的开源框架HayStack从指定的页面中提取文本，并通过Groq的免费推理API将其传递给 Meta的Llama-3-8B-Indict LLM.

大羊驼神经网络被提示分析文本，并根据JSON格式的内容生成一个测验，供网络应用程序显示，用户或大羊驼本身都可以回答.

菲奥鲁奇指出，也可以使用其他更强大的LLMS，但他使用Llama-3-8B作为AutoQuizzer是有具体原因的.

也许最重要的是，该模型相对较小且速度较快，可以通过Groq的API免费使用，这使得基于网络的免费演示成为可能.

我试过微软的Phi-3-mini，因为它在基准测试中有非常好的性能，尽管它的体积很小：它的参数不到40亿.

与LLAMA-3相比，它不能生成有效的JSON，测验问题有时太容易或制作得太差，“Fiorucci说.

任何想要用另一个LLM制作自己版本的AutoQuizzer的人，比如更强大、更大的模型，都可以这样做.

Fiorucci说，Llama-3可以与GPT家族的成员交换.

为了遵守免费Groq API的规则，AutoQuizzer只会将网页的前4000个字符发送到LLM进行分析.

Fiorucci告诉The Register，骆驼3-8B在处理维基百科等来源的文章方面比在新闻文章上更好.

尽管如此，字数限制更可能是维基百科页面的问题，这是不方便的：新闻报道往往将最重要的信息放在开头，而维基百科条目的结构不是这样的，而是以摘要开头.

在注册中心的测试中，AutoQuizzer通常会提供像样的问题和合适的答案.

几乎每一个问题都有四个基本的答案选项--只有一个问题提供了“以上所有”选项--而且所有问题都是围绕主题的.

它甚至可以从一篇非英语文章中生成英语问题，尽管这对LLM来说并不理想，而且可能会引入错误.

本文标签：