前7名LLM参数即可立即提高性能-人工智能-PHP中文网

概述

什么是LLM参数？

受LLM生成参数影响的关键方面：

7 LLM参数的实际实施

安装必要的库

所有代码段的基本设置

1。最大令牌

执行

max_tokens = 500

温度= 0.9

3。顶级P（核采样）

温度= 0.5
top_p = 1

4。top-k（令牌采样）

5。频率罚款

频率_penalty= 2

6.存在惩罚

staberes_penalty = 1

7。停止序列

这些LLM参数如何合作？

结论

首页

科技周边

人工智能

前7名LLM参数即可立即提高性能

Christopher Nolan

Apr 09, 2025 am 09:59 AM

假设您正在与AI互动，该AI不仅回答了您的问题，而且了解您意图的细微差别。它制作了量身定制的连贯反应，几乎感觉到了人类。这是怎么发生的？大多数人甚至都没有意识到LLM参数的秘密。

如果您曾经想过像Chatgpt这样的AI模型如何生成栩栩如生的文本，那么您就在正确的位置。这些模型不仅神奇地知道接下来要说些什么。相反，他们依靠关键参数来确定从创造力到准确性到连贯性的所有内容。无论您是一个好奇的初学者还是经验丰富的开发人员，了解这些参数都可以为您的项目解锁新的AI潜力。

本文将讨论7个基本生成参数，以塑造像GPT-4O这样的大型语言模型（LLM）运行。从温度设置到TOP-K采样，这些参数充当您可以调整的拨盘以控制AI的输出。掌握它们就像获得方向盘来浏览AI文本一代的广阔世界。

概述

了解如何诸如温度，max_tokens和Top-P形状AI生成的文本之类的关键参数。
发现调整LLM参数如何增强AI输出中的创造力，准确性和连贯性。
掌握7个基本LLM参数，以自定义任何应用程序的文本生成。
通过这些参数来控制输出长度，多样性和事实准确性，对AI进行微调AI响应。
通过调整频率和存在惩罚，避免重复和不一致的AI输出。
通过理解和优化这些关键的LLM设置来解锁AI文本生成的全部潜力。

什么是LLM参数？
- 受LLM生成参数影响的关键方面：
7 LLM参数的实际实施
- 安装必要的库
- 所有代码段的基本设置
1。最大令牌
- 执行
2。温度
- 执行
3。顶级P（核采样）
- 执行
4。top-k（令牌采样）
- 执行
5。频率罚款
- 执行
6.存在惩罚
- 执行
7。停止序列
- 执行
这些LLM参数如何合作？
结论

什么是LLM参数？

在大型语言模型（LLMS）等大型语言模型（例如GPT-O1）的背景下，生成参数是影响模型如何生成其响应的设置或配置。这些参数有助于确定输出的各个方面，例如创造力，连贯性，准确性甚至长度。

将生成参数视为模型的“控制旋钮”。通过调整它们，您可以更改AI在制作文本时的行为。这些参数指导模型在导航可能的单词组合的宽敞空间，以根据用户的输入选择最合适的响应。

没有这些参数，AI的行为将不太灵活，并且通常无法预测。通过对它们进行微调，用户可以使模型更加集中和事实，或者允许其探索更具创造力和多样化的响应。

受LLM生成参数影响的关键方面：

创造力与准确性：某些参数控制模型的响应“创意”或“可预测”。您是否想要安全，事实的回应或寻求更具想象力的东西？
响应长度：这些设置可以影响模型在单个响应中产生多少或多少。
产出的多样性：该模型可以专注于最有可能的下一个单词，也可以探索更广泛的可能性。
幻觉的风险：过于创造性的环境可能会导致模型产生“幻觉”或合理的听起来但实际上不正确的响应。这些参数有助于平衡这种风险。

每个LLM生成参数在塑造最终输出方面都起着独特的作用，并且通过理解它们，您可以自定义AI以更好地满足您的特定需求或目标。

7 LLM参数的实际实施

安装必要的库

在使用OpenAI API来控制Max_tokens，温度等等参数之前，您需要安装OpenAi Python客户端库。您可以使用PIP进行此操作：

 ！PIP安装OpenAi

登录后复制

安装库后，您可以为每个参数使用以下代码段。确保用实际的OpenAI API密钥替换您的_openai_api_key。

所有代码段的基本设置

在所有示例中，此设置将保持不变。您可以将此部分重复使用作为与GPT模型进行交互的基础设置。

进口Openai
＃设置您的OpenAI API密钥
openai.api_key ='your_openai_api_key'
＃定义一个简单的提示，我们可以在示例中重复使用
提示=“用简单的术语解释人工智能的概念”

登录后复制

前7名LLM参数即可立即提高性能

1。最大令牌

MAX_TOKENS参数控制模型生成的输出的长度。根据文本的复杂性，“令牌”可以像一个字符一样短，也可以长达一个字。

低值（例如10） ：产生较短的响应。
高价值（例如1000） ：生成更长，更详细的响应。

为什么重要？

通过设置适当的max_tokens值，您可以控制响应是快速片段还是深入说明。这对于简洁至关重要的应用程序（例如文本摘要）或需要详细答案（例如在知识密集型对话中）尤其重要。

注意：Max_Token值现在被弃用了MAX_COMPLETION_TOKENS的支持，并且与O1系列模型不兼容。

执行

您可以通过使用OpenAI模型使用MAX_TOKENS参数来控制生成的输出的长度：

进口Openai
客户端= openai.openai（api_key ='your_api_key'）
max_tokens = 10
温度= 0.5
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{“角色”：“用户”，
“内容”：“印度的首都是什么？送7个访问场所”}}
]，，
max_tokens = max_tokens，
温度=温度，
n = 1，
）
打印（响应。选择[0] .message.content）

登录后复制

输出

max_tokens = 10

输出： '印度首都是新德里。这是
响应非常简短且不完整，由于令牌限制而切断。它提供了基本信息，但没有详细说明。句子开始但没有结束，在列出访问地点之前就切断了。

max_tokens = 20

输出： '印度首都是新德里。这里有七个在新德里参观的地方：\ n1。
随着令牌限制略高，响应开始列出位置，但只能设法启动第一项，然后再被切断。它仍然太短，无法提供有用的细节甚至完成单个位置描述。

max_tokens = 50

输出： '印度首都是新德里。这里有七个在新德里参观的地方：\ n1。 **印度门**：这座标志性的纪念碑是位于新德里拉杰的纪念馆。它奉献给世界上死亡的士兵
在这里，响应更加详细，提供了完整的介绍和第一个位置的描述的开始。但是，它被切断了中间句子，这表明50句限制不足以完成完整列表，但可以提供至少一两个项目的上下文和解释。

max_tokens = 500

输出：（七个地方的完整详细响应）
有了这个更大的令牌限制，响应已完成，并提供了新德里七个访问地点的详细列表。每个地方都有一个简短但内容丰富的描述，提供了有关其重要性和历史重要性的背景。响应已完全阐明，并允许更复杂和描述性文本。

2。温度

温度参数会影响模型响应的随机或创造性。从本质上讲，这是对响应应如何确定性的衡量标准：

低温（例如，0.1） ：该模型将产生更集中和可预测的响应。
高温（例如，0.9） ：该模型将产生更多的创造力，多样化甚至“野性”响应。

为什么重要？

这非常适合控制音调。使用低温来完成诸如生成技术答案的任务，精度很重要，以及诸如讲故事或诗歌之类的创意写作任务的更高温度。

执行

温度参数控制输出的随机性或创造力。这是与较新模型一起使用的方法：

进口Openai
客户端= openai.openai（api_key = api_key）
max_tokens = 500
温度= 0.1
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{“角色”：“用户”，
“内容”：“印度的首都是什么？送7个访问场所”}}
]，，
max_tokens = max_tokens，
温度=温度，
n = 1，
停止=无
）
打印（响应。选择[0] .message.content）

登录后复制

输出

温度= 0.1

该输出是严格的事实和正式的，提供了简洁明了的信息，并具有最小的变化或点缀。它读起来像是百科全书的条目，优先考虑清晰度和精度。

前7名LLM参数即可立即提高性能

温度= 0.5

该输出保留了事实准确性，但引入了句子结构的更多可变性。它增加了更多的描述，提供了更具吸引力和创造性的基调，但仍然基于事实。与0.1输出相比，还有更多的稍微重新单词和更多细节的空间。

前7名LLM参数即可立即提高性能

温度= 0.9

最具创意的版本，具有描述性和生动的语言。它增加了主观元素和丰富多彩的细节，使其更像是旅行叙事或指南，强调氛围，文化意义和事实。

前7名LLM参数即可立即提高性能

3。顶级P（核采样）

TOP_P参数，也称为核采样，有助于控制响应的多样性。它为令牌选择的累积概率分布设置了一个阈值：

低值（例如0.1） ：该模型仅考虑可能的响应的前10％，从而限制变化。
高价值（例如，0.9） ：该模型考虑了更广泛的响应范围，从而增加了可变性。

为什么重要？

此参数有助于平衡创造力和精度。当与温度配对时，它会产生多种和相干的响应。这对于您想要创造性灵活性但仍需要一定程度的控制的应用程序非常有用。

执行

TOP_P参数（也称为核采样）控制了响应的多样性。这是使用它的方法：

进口Openai
客户端= openai.openai（api_key = api_key）
max_tokens = 500
温度= 0.1
top_p = 0.5
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{“角色”：“用户”，
“内容”：“印度的首都是什么？送7个访问场所”}}
]，，
max_tokens = max_tokens，
温度=温度，
n = 1，
top_p = top_p，
停止=无
）
打印（响应。选择[0] .message.content）

登录后复制

输出

温度= 0.1
top_p = 0.25

前7名LLM参数即可立即提高性能

高度确定性和事实驱动：在低top_p值下，该模型从狭窄的高度可能选项中选择单词，从而导致简洁明了的响应，并具有最小的可变性。每个位置都严格遵守核心事实，几乎没有创造力的空间或增加的细节。

例如，对印度门的提及纯粹关注其作为战争纪念馆的作用及其历史意义，而没有其他细节，例如设计或氛围。该语言保持直接和正式，确保没有干扰的清晰度。这使得输出非常适合需要精确和缺乏歧义的情况。

温度= 0.1
top_p = 0.5

在创造力和事实准确性之间保持平衡：TOP_P = 0.5，该模型略有略有措辞，同时仍然对事实内容保持着强烈的关注。该级别引入了额外的上下文信息，这些信息提供了更丰富的叙述，而不会偏离主要事实。

例如，在对红堡的描述中，该输出包括有关在独立日悬挂国旗的细节，这一点具有更具文化意义，但对于该地点的历史描述而言并不是必需的。输出的对话和引人入胜，吸引了想要事实和一些背景的读者。

本质上更轻松，但仍然是事实，可以在措辞中略有变化，但仍然结构化。
这些句子不那么严格，其中包括更多的事实，例如在独立日在红堡举行的国旗和埃德温·卢特森爵士的设计。
与top_p = 0.1相比，措辞的流动性略高，尽管它仍然是事实和简洁。

前7名LLM参数即可立即提高性能

温度= 0.5
top_p = 1

最多样化，最具创造性的输出：在TOP_P = 1处，该模型允许最大程度的品种，提供更灵活，更广泛的描述。此版本包括更丰富的语言和其他（有时更少的预期）内容。

例如，在著名的地方列表中，将拉吉·格（Raj Ghat）纳入了标准的历史或建筑地标，并通过强调其作为对圣雄甘地的纪念的意义来增加人类的触觉。描述还可能包括感官或情感语言，例如Lotus Temple如何具有吸引游客的宁静环境。这种设置是生产不仅实际上正确而且吸引更多受众的内容的理想选择。

前7名LLM参数即可立即提高性能

4。top-k（令牌采样）

top_k参数将模型限制为仅考虑最可能的k时，在预测（生成）下一个单词时，最有可能的隔壁令牌。

低值（例如50） ：将模型限制为更可预测和约束的响应。
高价值（例如500） ：允许模型考虑更多的令牌，从而增加了响应的种类。

为什么重要？

虽然类似于top_p，但top_k明确限制了模型可以选择的令牌数量，这使得它对于需要严格控制输出可变性的应用程序有用。如果要生成正式的结构化响应，则使用较低的top_k可以提供帮助。

执行

top_k参数在OpenAI API中不直接可用，例如TOP_P，但是TOP_P提供了一种限制令牌选择的类似方法。但是，您仍然可以使用TOP_P参数作为代理来控制令牌的随机性。

进口Openai
＃使用您的API密钥初始化OpenAI客户端
客户端= openai.openai（api_key = api_key）
max_tokens = 500
温度= 0.1
top_p = 0.9
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{“角色”：“用户”，“内容”：“印度的首都是什么？
]，，
max_tokens = max_tokens，
温度=温度，
n = 1，
top_p = top_p，
       停止=无
）
打印（“ top-k示例输出（使用top_p作为代理）：”）
打印（响应。选择[0] .message.content）

登录后复制

输出

TOP-K示例输出（使用TOP_P作为代理）：<br><br>印度首都是新德里。这里有七个值得注意的地方<br> 新德里：<br><br> 1。<br> 印度新德里的礼仪轴的东部边缘，以前称为<br> 金道。这是向第一次世界大战期间丧生的士兵的致敬<br> 第三次盎格鲁 - 阿富汗战争。<br><br> 2。**红堡（Lal Qila）**  - 印度德里市的历史悠久的堡垒，<br> 这是莫卧儿皇帝的主要居住地。每年<br> 印度独立日（8月15日），总理提升国民<br> 堡垒的旗帜，并发表全国广播演讲<br> 从它的城墙。<br><br> 3。** Qutub Minar **  - 位于Mehrauli的联合国教科文组织世界遗产<br> Qutub Minar的德里地区是一个73米高的锥子塔，该塔由五个<br>楼层，底直径为14.3米，顶部降至2.7米<br> 峰。它是由Qutb-ud-din Aibak于1193年建造的<br> 德里最后一个印度教王国失败后，德里苏丹国。<br><br> 4。<br>城市中的突出吸引力。不论宗教或任何人都开放<br> 其他资格，Lotus Temple是冥想的好地方<br> 并获得和平。<br><br> 5。<br> 莫卧儿皇帝Humayun。它是由Humayun的第一任妻子委托<br> 和首席配偶，1569  -  70年的贝加·贝加姆（Empress Begum），由米拉克（Mirak）设计<br> Mirza Ghiyas和他的儿子Sayyid Muhammad。<br><br> 6。<br> 印度德里。也称为Akshardham Mandir，它显示了数千年<br> 传统的印度教和印度文化，灵性和建筑。<br><br> 7。** Rashtrapati Bhavan **  - 印度总统的官方住所。<br> Rashtrapati Bhavan位于新德里的拉杰斯（Rajpath）西端<br> 是一座巨大的豪宅，其建筑令人叹为观止。它合并<br> 各种风格，包括莫卧儿和欧洲，是

登录后复制

5。频率罚款

频率_penalty参数劝阻该模型重复先前使用的单词。它减少了已经出现在输出中的令牌的概率。

低值（例如，0.0） ：模型不会惩罚重复。
高价值（例如，2.0） ：该模型将严重惩罚重复的单词，鼓励产生新内容。

为什么要进口？

当您希望该模型避免重复输出（例如在创意写作中），冗余可能会降低质量时，这很有用。另一方面，您可能需要在技术写作中较低的惩罚，在这种写作中，反复的术语可能有益于清晰。

执行

频率_penalty参数有助于控制生成的输出中的重复单词用法。这是与GPT-4O一起使用的方法：

进口Openai
＃使用您的API密钥初始化OpenAI客户端
客户端= openai.openai（api_key ='your_api_key'）
max_tokens = 500
温度= 0.1
top_p = 0.25
频率_penalty= 1
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{“角色”：“用户”，“内容”：“印度的首都是什么？
]，，
max_tokens = max_tokens，
温度=温度，
n = 1，
top_p = top_p，
fusity_penalty = fusenter_penalty，
停止=无
）
打印（响应。选择[0] .message.content）

登录后复制

输出

频率_penalty= 1

平衡输出并进行一定的重复，保持自然流量。理想的是可以接受一些重复的创意写作等环境。描述清晰且有凝聚力，可以轻松可读性，而无需过多的冗余。当需要清晰度和流动时，有用。

前7名LLM参数即可立即提高性能

频率_penalty= 1.5

随着重复的减少，措辞有更多的措辞。适用于语言多样性增强可读性的环境，例如报告或文章。本文在引入更动态的句子结构时保持清晰度。有助于技术写作，以避免过度重复而不会失去连贯性。

前7名LLM参数即可立即提高性能

频率_penalty= 2

最大化多样性，但可能会牺牲流利性和内聚力。输出变得不那么均匀，引入了更多的变化，但有时会失去光滑度。适用于从高度变化中受益的创意任务，尽管由于不一致，它可能会在更正式或技术环境中降低清晰度。

前7名LLM参数即可立即提高性能

6.存在惩罚

存在_penalty参数类似于频率惩罚，但不是根据单词使用的频率进行惩罚，而是基于单词是否已经出现在迄今为止的响应中。

低值（例如，0.0） ：该模型不会因重复使用单词而受到惩罚。
高价值（例如，2.0） ：该模型将避免使用已经出现的任何单词。

为什么重要？

存在惩罚有助于鼓励更多多样化的内容产生。当您希望该模型不断引入新想法时，就像集思广益的会议一样，这一点尤其有用。

执行

存在_ -Penalty不鼓励模型重复的想法或已经引入的单词。这是应用方法：

进口Openai
＃使用您的API密钥初始化OpenAI客户端
客户端= openai.openai（api_key ='your_api_key'）
＃定义聊天请求的参数
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{
“角色”：“用户”，
“内容”：“印度的首都是什么？给7个参观地点。”
}
]，，
max_tokens = 500，＃响应的最大令牌
温度= 0.1，＃控制随机性
top_p = 0.1，＃控制响应的多样性
staberes_penalty = 0.5，＃鼓励引入新想法
n = 1，＃仅生成1个完成
停止=无＃停止序列，在这种情况下无
）
打印（响应。选择[0] .message.content）

登录后复制

输出

staberes_penalty = 0.5

输出内容丰富，但有些重复，因为它提供了有关每个站点的众所周知的事实，强调了读者可能已经熟悉的细节。例如，印度门和Qutub Minar的描述与常识并不多，密切与传统的摘要保持不变。这表明了较低的存在惩罚如何鼓励模型保持在熟悉且已经建立的内容模式中。

前7名LLM参数即可立即提高性能

staberes_penalty = 1

该模型以较少的公式化方式引入了更多细微的信息和重述事实，输出的介绍方式更加多样。例如，对Akshardham Temple的描述增加了有关印度教文化千年的额外句子，表明较高的存在惩罚使该模型推出了略有不同的措辞和细节，以避免冗余，从而促进了内容的多样性。

前7名LLM参数即可立即提高性能

7。停止序列

停止参数使您可以定义一个字符或单词的序列，该字符或单词将发出信号以停止生成更多内容。这使您可以在特定点干净地结束一代。

示例停止序列：可以是（。），newlines（\ n）或“末端”之类的特定短语。

为什么重要？

当您希望模型得出逻辑结论或提供一定数量的想法（例如基于Q＆A或基于对话的模型）之后，该参数在您希望模型达到逻辑结论后停止的应用程序时特别方便。

执行

停止参数允许您在生成文本时为模型定义一个停止点。例如，您可以在生成项目列表后停止它。

进口Openai
＃使用您的API密钥初始化OpenAI客户端
客户端= openai.openai（api_key ='your_api_key'）
max_tokens = 500
温度= 0.1
top_p = 0.1
响应= client.chat.completions.create（
型号=“ gpt-4o”，
消息= [
{“角色”：“用户”，“内容”：“印度的首都是什么？
]，，
max_tokens = max_tokens，
温度=温度，
n = 1，
top_p = top_p，
stop = [“。”，“列表的结尾”]＃定义停止序列
）
打印（响应。选择[0] .message.content）

登录后复制

输出