转译自:Kevin Attard Compagno,3CX 合作伙伴沟通经理
如何让您的人工智能坐席适应正确的 OpenAI 使用层级。
一旦您设置了人工智能坐席,它的任务通常是理解来电者的意图,并将电话转接给适当的分机。需要注意的是——您的人工智能坐席 必须 能够访问 OpenAI 服务,并且 不得 受到速率限制。如果您的人工智能代理达到速率限制,来电者将无法得到回应,通话流程将中断。电话将无法转接,来电者将挂断电话。为了避免达到速率限制,我们为您制定了一些遵循的指南。
这篇博客内容很长!总而言之,我们将涵盖以下内容:
- 达到速率限制时的典型日志消息
- 关于如何估算 token 消耗的一些数学计算
- 通话的技术复杂性及其对 token 消耗的影响
- 知识源如何影响 token 消耗
- 将速率限制转换为同时进行的人工智能坐席通话数
- 如何浏览 OpenAI 以了解和调整您的速率限制
- 向 OpenAI 支付 100 美元以上的账户通常会直接升级到第 3 级。
达到速率限制时的日志消息
当您达到 OpenAI 速率限制时,您可以在 3CXAI.log 文件中看到,例如:
2026-03-09 10:17:26.674|DEBUG|{'call': 110, 'dir': 'ai', 'detail': True} response.done content> :
{'type': 'response.done', 'event_id': 'event_DHYWMxZ4ipQABCDEFGHIJ', 'response':
{'object': 'realtime.response', 'id': 'resp_DHYWMnVTGk1234567890', 'status': 'failed', 'status_details':
{'type': 'failed', 'error':
{'type': 'tokens', 'code': 'rate_limit_exceeded',
'message': 'Rate limit reached for gpt-4o-realtime in organization org-LwDoeGAu4fbAABBCCDDEEFF on tokens per min (TPM): Limit 40000, Used 31222, Requested 14701. Please try again in 8.805s.
Visit https://platform.openai.com/account/rate-limits to learn more.'}},
'output': [], 'conversation_id': 'conv_DHYW8SqVAABBCCDDEEFFG', 'output_modalities': ['audio'], 'max_output_tokens': 'inf', 'audio': {'output': {'format': {'type': 'audio/pcm', 'rate': 24000}, 'voice': 'marin'}},
'usage': {'total_tokens': 0, 'input_tokens': 0, 'output_tokens': 0, 'input_token_details': {'text_tokens': 0, 'audio_tokens': 0, 'image_tokens': 0, 'cached_tokens': 0, 'cached_tokens_details':
{'text_tokens': 0, 'audio_tokens': 0, 'image_tokens': 0}}, 'output_token_details': {'text_tokens': 0, 'audio_tokens': 0}}, 'metadata': None}}
……这清楚地表明:
- 已达到每分钟 token(TPM)速率限制
- 在接下来的 8.805 秒内无法处理任何请求
我们也可以从数学角度来看这个问题:
- 此账户的当前速率限制为每分钟 40,000 个 token
- 在过去一分钟内消耗了 31,222 个 token
- 这剩下 8,778 个 token可供使用
- 所提出的请求需要 14,701 个 token,超过了一分钟时间窗口内可用的token数量
Token消耗 – 粗略估算
根据一般通话来估算 Token 的消耗
- token 使用量取决于许多因素,包括:
- 语言
- 使用的模型
- 对话风格
- 口语单词数量
- 以下是一些实际案例的假设/平均值:
- 自然对话通常以每分钟约 150 个单词进行
- 每次通话的最长持续时间为 7 分钟
- 这意味着 7 分钟的对话将包含约 1,050 个单词
- OpenAI 普遍接受的 token转换比率(对于英语)是 1 个单词消耗 1.3 个 token
- 7 分钟的对话将消耗 1,365 个 token
我们可以估计自然对话的典型最大 token 消耗量为 1,500 个token。
根据通话性质和复杂性来估算 Token 的消耗
- 如果来电者只是简单地报到或安排会议,人工智能坐席几乎不需要进行思考。
- 保守估计,每次通话最多需要约 1,000 个token
- 如果通话是关于工作、审阅文档或一般聊天交流的均衡对话
- 参照“一般对话”的消耗,每次通话最多需要约 1,500 个token
- 如果通话内容密集且技术性强,我们可以推断人工智能坐席需要进行更多的“思考”:
- 您可以估计每次通话最多需要约 2,500 个token
使用知识源的人工智能坐席
如果您的人工智能坐席使用了知识源,您还应该考虑到知识源检索的token开销;估计检索成本最多需要额外 2,000 个token。
token 总使用量估算
根据上述假设和估算,您可以得出结论,涉及知识源的技术性人工智能通话将消耗:
- 通话的 2,500 个token
- 知识源检索的 2,000 个token
如果您加上 500 个 token 的安全缓冲区,您的通话将消耗 5,000 个 token,即每分钟 714 个 token。您可以将其进一步四舍五入为每分钟 1,000 个 token。
可以处理多少人工智能坐席通话?
您需要满足两个限制条件:
- 每分钟 token 数 (TPM)
- 每分钟请求数 (RPM)
每分钟 token数 (TPM)
如果您将人工智能模型的速率限制配置为每分钟 20,000 个token,那么以每次通话 1,000 TPM 计算,人工智能坐席可以处理 20 个同时进行的通话。
每分钟请求数 (RPM)
我们在这里不会详细介绍,但请记住,每次人工智能通话每分钟可能会产生多个请求。如果您将系统配置为处理例如 50 个同时进行的人工智能通话,并且您收到的通话类型通常每分钟产生 3 个请求,那么您在逻辑上也需要将 RPM 设置为至少 150。
浏览 OpenAI 使用层级和速率限制
大多数用户默认从免费层级开始——因此您达到速率限制是可以理解的。向 OpenAI 支付 100 美元以上的账户通常会直接升级到第 3 级。

在 OpenAI 平台上,导航到您的项目仪表板,转到 “Project -> Limits” 页面;在 “Rate limits” 标题下,点击 “Select models” 按钮。

向下滚动到 “Readtime” 速率限制,您可以在其中调整您的速率限制,其中:
- TPM 是您的最大每分钟 token数
- RPM 是您的最大每分钟请求数
上方的截图是针对一个处于免费层级的账户,您可以看到最大允许限制为 40,000 TPM 和 3 RPM。导航到 Organization -> Limits 页面并编辑您的预算以升级到更高的层级。

您可以点击 rate limits guide 链接了解更多详细信息;这是主要的“使用层级”表格:
一旦您达到了所需的阈值,您的层级将自动调整。再次导航到您的 Project -> Limits 页面,根据需要提高您的限制。
参与互动
关注我们的互动频道,及时获取最新动态。。



