Overview

Gravix AI Inference provides managed endpoints for running and scaling generative AI models at any scale. Choose between serverless and dedicated deployment models to match your application’s performance, cost, and scalability requirements.

Core Capabilities

Gravix AI Inference is built around two deployment models and five core capabilities, giving you complete control over your AI workloads:

Serverless: Pay-as-you-go with automatic scaling. Perfect for development, prototyping, and variable workloads with built-in rate limiting and cost optimization.
Dedicated: Private GPU instances with guaranteed performance and predictable costs. Ideal for production workloads requiring consistent latency and throughput.

Common Use Cases

AI Inference powers a wide range of intelligent applications:

Conversational AI: Build chatbots, virtual assistants, and multi-turn dialogue systems with advanced language understanding and generation capabilities.
Content Generation: Create articles, summaries, code, and creative content with fine-tuned control over style, format, and structure.
Semantic Search & RAG: Generate embeddings for vector databases and implement retrieval-augmented generation for knowledge-based applications.

Unified API Features

All deployment models support the same powerful capabilities:

Feature	Description	Use Cases
Chat	Multi-turn conversations	Chatbots, assistants, dialogue systems
Embeddings	High-dimensional vectors	Search, RAG, clustering, similarity
Vision	Image analysis	Multimodal apps, content moderation
Structured Outputs	JSON schema enforcement	API integrations, data extraction
Function Calling	External tool integration	Agents, workflow automation

Getting Started in 3 Steps

Building with Gravix AI Inference is straightforward:

Choose Deployment: Select serverless for flexibility or dedicated for guaranteed performance based on your requirements.
Select Model: Pick from our curated collection of state-of-the-art models optimized for different tasks and use cases.
Make Requests: Use our OpenAI-compatible API to integrate AI capabilities into your applications seamlessly.

cURL
Python - OpenAI
Python - Gravix SDK
JavaScript - OpenAI
JavaScript - Gravix SDK

curl https://api.gravixlayer.com/v1/inference/chat/completions \
    -H "Authorization: Bearer $GRAVIXLAYER_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "meta-llama/llama-3.1-8b-instruct",
        "messages": [
            {"role": "user", "content": "Explain quantum computing in simple terms"}
        ],
        "max_tokens": 150
    }'

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.gravixlayer.com/v1/inference",
    api_key=os.environ.get("GRAVIXLAYER_API_KEY"),
)

completion = client.chat.completions.create(
    model="meta-llama/llama-3.1-8b-instruct",
    messages=[
        {"role": "user", "content": "Explain quantum computing in simple terms"}
    ],
    max_tokens=150
)

print(completion.choices[0].message.content)

from gravixlayer import GravixLayer

client = GravixLayer()

completion = client.chat.completions.create(
    model="meta-llama/llama-3.1-8b-instruct",
    messages=[{"role": "user", "content": "Explain quantum computing in simple terms"}],
    max_tokens=150
)

print(completion.choices[0].message.content)

import { OpenAI } from 'openai';

const client = new OpenAI({
    baseURL: "https://api.gravixlayer.com/v1/inference",
    apiKey: process.env.GRAVIXLAYER_API_KEY,
});

const completion = await client.chat.completions.create({
    model: "meta-llama/llama-3.1-8b-instruct",
    messages: [
        {"role": "user", "content": "Explain quantum computing in simple terms"}
    ],
    max_tokens: 150
});

console.log(completion.choices[0].message.content);

import { GravixLayer } from 'gravixlayer';

const client = new GravixLayer();

const completion = await client.chat.completions.create({
  model: "meta-llama/llama-3.1-8b-instruct",
  messages: [{"role": "user", "content": "Explain quantum computing in simple terms"}],
  max_tokens: 150
});

console.log(completion.choices[0].message.content);

Quick Access

Serverless

Pay-as-you-go with automatic scaling for development and variable workloads

Dedicated

Private GPU instances with guaranteed performance for production workloads

Ready to build? Explore our model catalog to find the perfect AI model for your application.

Introduction

AI Inference

Files

Vectors

Memory

AgentBox

Integrations

Policies

Core Capabilities

Common Use Cases

Unified API Features

Getting Started in 3 Steps

Quick Access

Serverless

Dedicated

Introduction

AI Inference

Files

Vectors

Memory

AgentBox

Integrations

Policies

​Core Capabilities

​Common Use Cases

​Unified API Features

​Getting Started in 3 Steps

​Quick Access

Serverless

Dedicated

Core Capabilities

Common Use Cases

Unified API Features

Getting Started in 3 Steps

Quick Access