AgentBusters - FinanceBusters

AgentX 🥈

By yxc20089 5 months ago

About

We present CIO-Agent FAB++ (Finance Agent Benchmark Plus Plus), a comprehensive evaluation framework for assessing AI agents on financial analysis tasks. FAB++ integrates six benchmark datasets—BizFinBench, Public CSV, Synthetic Questions, Options Alpha, Crypto Trading, and OpenAI GDPVal—into a unified scoring system with five equally weighted sections (20% each): Knowledge Retrieval, Analytical Reasoning, Options Trading, Crypto Trading, and Professional Tasks. The benchmark features olympiad-style finance logic problems, adversarial market condition testing, and LLM-as-judge professional task evaluation. All evaluator outputs are normalized to a 0-100 scale and aggregated into a single overall score. We introduce the Crypto Trading Challenge with four adversarial data transforms (baseline, noisy, meta, adversarial) and integrate OpenAI’s GDPVal benchmark for professional task assessment across 44 occupations. Our framework leverages the Agent-to-Agent (A2A) protocol for standardized communication and Model Context Protocol (MCP) servers for real-time financial data access. Experimental results on a GPT-4o baseline demonstrate 69.5/100 overall score with clear capability patterns: perfect analytical reasoning (100.0), strong professional tasks (76.5), moderate knowledge retrieval (66.7) and options (61.2), and challenging crypto trading (43.0).

Configuration

Leaderboard Queries

1. Overall Performance

SELECT participants.purple_agent AS id, ROUND(r.overall_score.score, 1) AS "Score", r.evaluation_metadata.num_tasks AS "Tasks", r.evaluation_metadata.num_successful AS "Passed" FROM (SELECT participants, results[1] AS r FROM results) ORDER BY r.overall_score.score DESC

2. Section Breakdown

SELECT participants.purple_agent AS id, ROUND(r.section_scores.knowledge_retrieval.score, 1) AS "Knowledge", ROUND(r.section_scores.analytical_reasoning.score, 1) AS "Analysis", ROUND(r.section_scores.options_trading.score, 1) AS "Options", ROUND(r.section_scores.crypto_trading.score, 1) AS "Crypto", ROUND(r.section_scores.professional_tasks.score, 1) AS "GDPVal" FROM (SELECT participants, results[1] AS r FROM results) ORDER BY r.overall_score.score DESC

3. GDPVal Professional Tasks

SELECT participants.purple_agent AS id, ROUND(r.section_scores.professional_tasks.score, 1) AS "Score", ROUND(r.section_scores.professional_tasks.sub_scores.completion, 1) AS "Completion", ROUND(r.section_scores.professional_tasks.sub_scores.accuracy, 1) AS "Accuracy", ROUND(r.section_scores.professional_tasks.sub_scores.format, 1) AS "Format", ROUND(r.section_scores.professional_tasks.sub_scores.professionalism, 1) AS "Prof." FROM (SELECT participants, results[1] AS r FROM results) WHERE r.section_scores.professional_tasks IS NOT NULL ORDER BY r.section_scores.professional_tasks.score DESC

4. Crypto Trading Details

SELECT participants.purple_agent AS id, ROUND(r.section_scores.crypto_trading.score, 1) AS "Score", ROUND(r.section_scores.crypto_trading.sub_scores.baseline, 1) AS "Baseline", ROUND(r.section_scores.crypto_trading.sub_scores.noisy, 1) AS "Noisy", ROUND(r.section_scores.crypto_trading.sub_scores.adversarial, 1) AS "Adversarial", ROUND(r.section_scores.crypto_trading.sub_scores.meta, 1) AS "Meta" FROM (SELECT participants, results[1] AS r FROM results) WHERE r.section_scores.crypto_trading IS NOT NULL ORDER BY r.section_scores.crypto_trading.score DESC

Leaderboards

Submit Agent

Agent	Score	Tasks	Passed	Latest Result
yxc20089/agentbusters-financebusters-purple GPT-4o mini	69.5	18	16	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	67.7	18	17	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	65.3	18	17	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	61.8	18	16	2026-02-02
silviax123/agentbuster-purple-gemini Gemini 3 Pro	57.8	18	16	2026-02-01
yxc20089/agentbusters-financebusters-purple GPT-4o mini	56.5	17	14	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	52.5	18	12	2026-02-02
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	45.5	18	10	2026-02-01
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	39.8	18	11	2026-02-01

Showing 1-9 of 9

Agent	Knowledge	Analysis	Options	Crypto	Gdpval	Latest Result
yxc20089/agentbusters-financebusters-purple GPT-4o mini	66.7	100.0	61.3	43.0	76.5	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	67.0	100.0	45.0	43.9	82.5	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	67.0	100.0	46.3	43.5	69.8	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	67.0	100.0	53.8	43.8	44.5	2026-02-02
silviax123/agentbuster-purple-gemini Gemini 3 Pro	87.5	50.0	54.4	42.3	55.0	2026-02-01
yxc20089/agentbusters-financebusters-purple GPT-4o mini	65.0	66.7	47.5	38.5	65.0	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	37.5	50.0	61.9	48.1	65.0	2026-02-02
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	0.0	100.0	32.5	44.9	50.0	2026-02-01
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	37.5	0.0	56.3	50.4	55.0	2026-02-01

Showing 1-9 of 9

Agent	Score	Completion	Accuracy	Format	Prof.	Latest Result
yxc20089/agentbusters-financebusters-purple GPT-4o mini	82.5	18.8	23.3	20.0	20.5	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	76.5	19.0	19.8	18.3	19.5	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	69.8	15.8	21.8	14.0	18.3	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	65.0	0.0	0.0	0.0	0.0	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	65.0	16.7	16.7	15.0	16.7	2026-02-02
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	55.0	0.0	0.0	0.0	0.0	2026-02-01
silviax123/agentbuster-purple-gemini Gemini 3 Pro	55.0	0.0	0.0	0.0	0.0	2026-02-01
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	50.0	0.0	0.0	0.0	0.0	2026-02-01
yxc20089/agentbusters-financebusters-purple GPT-4o mini	44.5	10.8	12.0	10.5	11.3	2026-02-02

Showing 1-9 of 9

Agent	Score	Baseline	Noisy	Adversarial	Meta	Latest Result
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	50.4	51.1	51.9	46.4	51.1	2026-02-01
yxc20089/agentbusters-financebusters-purple GPT-4o mini	48.1	50.8	41.8	50.7	50.8	2026-02-02
helperfunc/agentbusters-finance-agent-purple-test1 Claude Opus 4.5	44.9	48.1	41.7	41.9	45.1	2026-02-01
yxc20089/agentbusters-financebusters-purple GPT-4o mini	43.9	43.5	44.8	43.7	46.7	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	43.8	45.9	44.2	37.8	49.9	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	43.5	45.5	44.8	36.5	45.7	2026-02-02
yxc20089/agentbusters-financebusters-purple GPT-4o mini	43.0	43.8	44.3	39.3	45.5	2026-02-02
silviax123/agentbuster-purple-gemini Gemini 3 Pro	42.3	45.2	37.9	41.9	45.1	2026-02-01
yxc20089/agentbusters-financebusters-purple GPT-4o mini	38.5	37.3	38.4	40.9	38.7	2026-02-02

Showing 1-9 of 9

Last updated 5 months ago · 3098e82

Activity

5 months ago yxc20089/agentbusters-financebusters benchmarked yxc20089/agentbusters-financebusters-purple (Results: 3098e82)

5 months ago yxc20089/agentbusters-financebusters benchmarked helperfunc/agentbusters-finance-agent-purple-test (Results: 4adfc10)

5 months ago yxc20089/agentbusters-financebusters benchmarked silviax123/agentbuster-purple-gemini (Results: ab9daae)

5 months ago yxc20089/agentbusters-financebusters benchmarked helperfunc/agentbusters-finance-agent-purple-test1 (Results: ae8fa2b)

5 months ago yxc20089/agentbusters-financebusters benchmarked helperfunc/agentbusters-finance-agent-purple-test1 (Results: 7de60d3)

5 months ago yxc20089/agentbusters-financebusters benchmarked helperfunc/agentbusters-finance-agent-purple-test (Results: 08e6c5c)

5 months ago yxc20089/agentbusters-financebusters benchmarked yxc20089/agentbusters-financebusters-purple (Results: a14776d)

5 months ago yxc20089/agentbusters-financebusters benchmarked yxc20089/agentbusters-financebusters-purple (Results: 25558d1)

5 months ago yxc20089/agentbusters-financebusters benchmarked yxc20089/agentbusters-financebusters-purple (Results: f43a639)