一行代码完成智能体评估
自动化评估跟踪的海盗 (Pirate) 智能体的指令遵从性和任务完成度。
Property | Type | Default | Description |
---|---|---|---|
model | str | gpt-4o | 用于评估的模型名称 |
temperature | float | 0.5 | 评估过程中的温度参数 |
n_rounds | int | 5 | 评估的轮数 |
max_concurrency | int | 10 | 最大并发请求数 |
api_key | str | OPENAI_API_KEY | 用于评估的 API 密钥 |
base_url | str | OPENAI_BASE_URL | 评估所用的服务商 URL |
api_key
与 base_url
会使用环境变量中的值,其他选项配置如上表所示。您可以通过以下方式自定义设置: