Unstract — это безкодовая LLM платформа для создания API и ETL конвейеров по структурированию неструктурированных документов.
Prompt Studio обеспечивает удобную разработку, тестирование и итерацию запросов, схем и аналитики для извлечения данных.
Развёртывание готовых рабочих процессов возможно как API сервис или ETL конвейер с указанием источников и назначений.
Для работы требуются Linux или MacOS, Docker, Docker Compose, Git и минимум 8 ГБ оперативной памяти.
Поддерживаются форматы Word, PDF, презентаций, таблиц, текстовые файлы и популярные форматы изображений.
Интеграция с LLM-провайдерами (OpenAI, Google Vertex AI, Azure OpenAI, Anthropic и др.) и векторными базами данных (Qdrant, Pinecone и др.).
Поддерживаются разнообразные текстовые экстракторы и источники/назначения для ETL, включая AWS S3, Google BigQuery, Snowflake, PostgreSQL и др.
Исходный код проекта опубликован под лицензией AGPL-3.0 с активным сообществом и документацией.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"