转译自:Kevin Attard Compagno,3CX 合作伙伴沟通经理

如何让您的人工智能坐席适应正确的 OpenAI 使用层级。

一旦您设置了人工智能坐席,它的任务通常是理解来电者的意图,并将电话转接给适当的分机。需要注意的是——您的人工智能坐席 必须 能够访问 OpenAI 服务,并且 不得 受到速率限制。如果您的人工智能代理达到速率限制,来电者将无法得到回应,通话流程将中断。电话将无法转接,来电者将挂断电话。为了避免达到速率限制,我们为您制定了一些遵循的指南。

这篇博客内容很长!总而言之,我们将涵盖以下内容:

  • 达到速率限制时的典型日志消息
  • 关于如何估算 token 消耗的一些数学计算
    • 通话的技术复杂性及其对 token 消耗的影响
    • 知识源如何影响 token 消耗
  • 将速率限制转换为同时进行的人工智能坐席通话数
  • 如何浏览 OpenAI 以了解和调整您的速率限制
    • 向 OpenAI 支付 100 美元以上的账户通常会直接升级到第 3 级。

达到速率限制时的日志消息

当您达到 OpenAI 速率限制时,您可以在 3CXAI.log 文件中看到,例如:

2026-03-09 10:17:26.674|DEBUG|{'call': 110, 'dir': 'ai', 'detail': True} response.done content> :
{'type': 'response.done', 'event_id': 'event_DHYWMxZ4ipQABCDEFGHIJ', 'response':
{'object': 'realtime.response', 'id': 'resp_DHYWMnVTGk1234567890', 'status': 'failed', 'status_details':
{'type': 'failed', 'error':
{'type': 'tokens', 'code': 'rate_limit_exceeded',
'message': 'Rate limit reached for gpt-4o-realtime in organization org-LwDoeGAu4fbAABBCCDDEEFF on tokens per min (TPM): Limit 40000, Used 31222, Requested 14701. Please try again in 8.805s.
Visit https://platform.openai.com/account/rate-limits to learn more.'}},
'output': [], 'conversation_id': 'conv_DHYW8SqVAABBCCDDEEFFG', 'output_modalities': ['audio'], 'max_output_tokens': 'inf', 'audio': {'output': {'format': {'type': 'audio/pcm', 'rate': 24000}, 'voice': 'marin'}},
'usage': {'total_tokens': 0, 'input_tokens': 0, 'output_tokens': 0, 'input_token_details': {'text_tokens': 0, 'audio_tokens': 0, 'image_tokens': 0, 'cached_tokens': 0, 'cached_tokens_details':
{'text_tokens': 0, 'audio_tokens': 0, 'image_tokens': 0}}, 'output_token_details': {'text_tokens': 0, 'audio_tokens': 0}}, 'metadata': None}}


……这清楚地表明:

  • 已达到每分钟  token(TPM)速率限制
  • 在接下来的 8.805 秒内无法处理任何请求

我们也可以从数学角度来看这个问题:

  • 此账户的当前速率限制为每分钟 40,000 个 token
  • 在过去一分钟内消耗了 31,222 个 token
  • 这剩下 8,778 个 token可供使用
  • 所提出的请求需要 14,701 个 token,超过了一分钟时间窗口内可用的token数量

Token消耗 – 粗略估算

根据一般通话来估算 Token 的消耗

  • token 使用量取决于许多因素,包括:
    • 语言
    • 使用的模型
    • 对话风格
    • 口语单词数量
  • 以下是一些实际案例的假设/平均值:
    • 自然对话通常以每分钟约 150 个单词进行
    • 每次通话的最长持续时间为 7 分钟
    • 这意味着 7 分钟的对话将包含约 1,050 个单词
  • OpenAI 普遍接受的 token转换比率(对于英语)是 1 个单词消耗 1.3 个 token
    • 7 分钟的对话将消耗 1,365 个 token

我们可以估计自然对话的典型最大 token 消耗量为 1,500 个token。

根据通话性质和复杂性来估算 Token 的消耗

  • 如果来电者只是简单地报到或安排会议,人工智能坐席几乎不需要进行思考。
    • 保守估计,每次通话最多需要约 1,000 个token
  • 如果通话是关于工作、审阅文档或一般聊天交流的均衡对话
    • 参照“一般对话”的消耗,每次通话最多需要约 1,500 个token
  • 如果通话内容密集且技术性强,我们可以推断人工智能坐席需要进行更多的“思考”:
    • 您可以估计每次通话最多需要约 2,500 个token

使用知识源的人工智能坐席

如果您的人工智能坐席使用了知识源,您还应该考虑到知识源检索的token开销;估计检索成本最多需要额外 2,000 个token。

token 总使用量估算

根据上述假设和估算,您可以得出结论,涉及知识源的技术性人工智能通话将消耗:

  • 通话的 2,500 个token
  • 知识源检索的 2,000 个token

如果您加上 500 个 token 的安全缓冲区,您的通话将消耗 5,000 个 token,即每分钟 714 个 token。您可以将其进一步四舍五入为每分钟 1,000 个 token。

可以处理多少人工智能坐席通话?

您需要满足两个限制条件:

  • 每分钟 token 数 (TPM)
  • 每分钟请求数 (RPM)

每分钟 token数 (TPM)

如果您将人工智能模型的速率限制配置为每分钟 20,000 个token,那么以每次通话 1,000 TPM 计算,人工智能坐席可以处理 20 个同时进行的通话。

每分钟请求数 (RPM)

我们在这里不会详细介绍,但请记住,每次人工智能通话每分钟可能会产生多个请求。如果您将系统配置为处理例如 50 个同时进行的人工智能通话,并且您收到的通话类型通常每分钟产生 3 个请求,那么您在逻辑上也需要将 RPM 设置为至少 150。

浏览 OpenAI 使用层级和速率限制

大多数用户默认从免费层级开始——因此您达到速率限制是可以理解的。向 OpenAI 支付 100 美元以上的账户通常会直接升级到第 3 级。

在 OpenAI 平台上,导航到您的项目仪表板,转到 “Project -> Limits” 页面;在 “Rate limits” 标题下,点击 “Select models” 按钮。

向下滚动到 “Readtime” 速率限制,您可以在其中调整您的速率限制,其中:

  • TPM 是您的最大每分钟 token数
  • RPM 是您的最大每分钟请求数

上方的截图是针对一个处于免费层级的账户,您可以看到最大允许限制为 40,000 TPM 和 3 RPM。导航到 Organization -> Limits 页面并编辑您的预算以升级到更高的层级。

您可以点击 rate limits guide 链接了解更多详细信息;这是主要的“使用层级”表格:

一旦您达到了所需的阈值,您的层级将自动调整。再次导航到您的 Project -> Limits 页面,根据需要提高您的限制。

参与互动

关注我们的互动频道,及时获取最新动态。。