aeron-cache: แคช KV ที่มีความหน่วงต่ำสำหรับการให้บริการบริบท AI
aeron-cache, จาก Bhf, เป็นแคชแบบคีย์-ค่า ที่ใช้ Java ออกแบบมาเพื่อรองรับงาน Model Context Protocol และสถานะของไมโครเซอร์วิส แอปนี้เปิดเผย JSON HTTP, WebSocket และ Server-Sent Events endpoints และมีไลบรารี polyglot ที่สามารถฝังได้สำหรับการเข้าถึงข้ามภาษาและการดึงข้อมูลบริบท LLM รองรับการจัดกลุ่ม RAFT สำหรับความพร้อมใช้งานสูงและมี UI และ CLI ที่ติดตั้งมาในตัว ผู้ใช้เป้าหมายคือวิศวกร AI, สถาปนิก และทีม DevOps ที่ต้องการการจัดเก็บบริบทที่ควบคุมโดยผู้ปฏิบัติงานและมีความหน่วงต่ำ.
คุณสามารถใช้มันทำงานอะไรได้บ้าง?
aeron-cache ทำหน้าที่เป็นเซิร์ฟเวอร์ MCP และแคช LLM-context ที่เก็บและให้บริการบริบทของโมเดลและข้อมูล KV ทั่วไปสำหรับไมโครเซอร์วิส มันรองรับ JSON payload ผ่าน HTTP, WebSocket และ SSE และมีไลบรารีที่สามารถฝังได้เพื่อให้โค้ดแอปพลิเคชันในหลายภาษาอ่านและเขียนบริบท กรณีการใช้งานรวมถึงการให้บริการบริบทของ prompt แก่โมเดล, แคชฟีเจอร์ระยะสั้นสำหรับการอนุมาน, และการค้นหาสถานะอย่างรวดเร็วในบริการที่ขับเคลื่อนด้วยเหตุการณ์.
การดำเนินการข้อมูลของมันมีความสอดคล้องและรวดเร็วเพียงใด?
ออกแบบรอบ Aeron และ Agrona, เครื่องมือมุ่งเป้าไปที่ความหน่วงของคำขอที่ต่ำมาก และใช้ Simple Binary Encoding เมื่อเหมาะสมเพื่อลดค่าใช้จ่าย สำหรับความสอดคล้องและความพร้อมใช้งานสูง มันเสนอการจัดกลุ่ม RAFT ซึ่งช่วยให้การเขียนที่ทำซ้ำได้และมีผู้นำ การประกอบเหล่านี้บ่งชี้ว่าแอปเน้นการส่งข้อมูลและความหน่วงที่กำหนดได้สำหรับเส้นทางการอ่าน/เขียน แม้ว่าการบรรลุประสิทธิภาพสูงสุดต้องการให้รันสแต็กการส่งข้อความและท่อการเข้ารหัสตามที่ตั้งใจไว้.
มันง่ายต่อการปรับใช้และเข้ากับสแต็กที่มีอยู่หรือไม่?
การปรับใช้มุ่งเป้าไปที่โครงสร้างพื้นฐานที่ควบคุมโดยผู้ดำเนินการแทนที่จะเป็นบริการคลาวด์ที่จัดการ แอปนี้เป็น Java-based และได้รับการปรับให้เหมาะสมสำหรับการจัดการคอนเทนเนอร์ด้วย Kubernetes และรวมถึง Helm charts สำหรับการจัดการ การสนับสนุน UI และ CLI ในตัวช่วยในการตรวจสอบและการจัดการ ในขณะที่ไลบรารีที่สามารถฝังได้ช่วยให้การรวมเข้าทำได้ง่าย คาดว่าจะมีขั้นตอนการตั้งค่าการดำเนินงานสำหรับการปรับแต่งระยะเวลาในการทำงานและการมุ่งเน้นทางวิศวกรรมไปที่ทีมที่คุ้นเคยกับระบบนิเวศ Java/Aeron.
เหมาะที่สุดสำหรับทีมที่ยอมรับการตั้งค่าการดำเนินงานเพื่อให้ได้บริการบริบทที่มีความหน่วงต่ำ
เครื่องมือนี้ให้รางวัลการลงทุนด้านวิศวกรรม: ทีมที่สามารถรันและปรับแต่งโครงสร้างพื้นฐานจะได้รับการดึงข้อมูลบริบทที่คาดการณ์ได้และมีความหน่วงต่ำสำหรับท่อส่งโมเดล การใช้งานจะไม่เหมาะสมเมื่อคุณต้องการแคชที่ใช้งานง่ายและจัดการเต็มรูปแบบ เพราะการปรับใช้และการปรับแต่งระยะเวลาการทำงานอยู่กับผู้ดำเนินการ วางแผนสำหรับช่วงการเริ่มต้นเบื้องต้นเพื่อกำหนดการจัดกลุ่ม การสังเกตการณ์ และตัวเลือกการเข้ารหัสก่อนที่จะพึ่งพามันในสภาพแวดล้อมการผลิต。