Анализ и понимание PDF-файлов становится все более популярной областью проблем для больших языковых моделей (LLM), поэтому LLamaParse был создан именно для этой цели. Он работает путем преобразования таблиц PDF в таблицы Markdown, которые легче понимать LLM.

Мы будем использовать сценарий, в котором получаем счета в формате PDF по электронной почте. Используем n8n для автоматизации всего процесса: от загрузки вложения PDF из электронной почты, передачи его в LLamaParse для обработки, использования ИИ для извлечения данных счета и записи их в нашу электронную таблицу!

Шаг 1: Настройка учетных данных LlamaParse в n8n

Чтобы использовать LlamaParse, нужен ключ API LlamaParse, который можно получить бесплатно, зарегистрировавшись на https://cloud.llamaIndex.ai. На момент написания статьи LlamaIndex предлагает бесплатный уровень, который позволяет делать 1000 загрузок в день.

Получив ключ API LlamaParse, создайте учетные данные аутентификации заголовка, которые будут использоваться при вызовах API LlamaParse в нашем рабочем процессе n8n.

  • перейдите на вкладку «Учетные данные»
  • нажмите кнопку «Добавить учетные данные»
  • поиск аутентификации заголовка
  • введите свой ключ API в поле ввода значения и нажмите «Сохранить»

Шаг 2: Создание рабочего процесса API LlamaParse

НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025 году
Мы проанализировали рынок и готовы поделиться самой свежей информацией о том, как каждому эффективно взаимодействовать с нейросетями!
ТОП-подарки всем участникам лекции:
  • ТОП-подарки всем участникам лекции:Открытая лекция РЕГИСТРАЦИЯ пошаговая PDF-инструкция “Как сделать нейрофотосессию из своего фото бесплатно
  • подборка из 3800+ нейросетей
  • доступ в бот с безлимитным доступом к ChatGPT
НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ В 2025 году
Мы проанализировали рынок и готовы поделиться самой свежей информацией о том, как каждому эффективно взаимодействовать с нейросетями!
ТОП-подарки всем участникам лекции:
  • ТОП-подарки всем участникам лекции:Открытая лекция РЕГИСТРАЦИЯ пошаговая PDF-инструкция “Как сделать нейрофотосессию из своего фото бесплатно
  • подборка из 3800+ нейросетей
  • доступ в бот с безлимитным доступом к ChatGPT
Участвовать бесплатно

Поскольку n8n не имеет встроенного узла для LlamaParse, придется работать напрямую с API LlamaIndex. Не волнуйтесь, это вполне осуществимо, поскольку нам нужно сделать всего 3 вызова API.

  1. Вызов API для загрузки PDF-файла в сервис LlamaParse.
  2. Вызов API для запроса статуса задания по обработке PDF. Это может занять больше времени, если PDF большой.
  3. Вызов API для извлечения проанализированного вывода PDF после завершения задания.

Шаг 3. Извлечение данных с помощью OpenAI GPT-4o

Чтобы извлечь данные из нашего проанализированного вывода PDF, используем LLM Basic Chain, чтобы передать их в OpenAI GPT-4o Model. Попросить модель извлечь соответствующие атрибуты данных счета-фактуры.

Список атрибутов, которые нужны для сценария:

  • дата счета
  • номер счета-фактуры и номер заказа на покупку
  • наименование и адрес поставщика, идентификационный номер плательщика НДС
  • имя и адрес клиента
  • любые адреса доставки
  • позиции, включая описание оказанных товаров или услуг
  • цена с НДС и без НДС и общая стоимость

Вывод должен быть отформатирован в формате JSON, чтобы мы могли легко вставить эти данные в виде строки в нашу таблицу сверки. Для этого важно использовать Structured Output Parser и предоставить ему схему JSON для желаемых атрибутов.

Шаг 4. Добавление триггера электронной почты для сбора счетов

В зависимости от того, как вы получаете счета, может потребоваться фильтрация по теме, меткам или проверка вложений.

  • создайте узел триггера электронной почты для вашего рабочего процесса
  • установите интервал, с которым рабочий процесс должен проверять почтовый ящик на наличие новых счетов
  • в фильтрах примените любые критерии, которые помогут отправлять фактические счета-фактуры по электронной почте в рабочий процесс
  • в разделе «Параметры» обязательно отметьте опцию загрузки вложений (для получения фактического PDF-файла из счета)

Итоги

Мы показали, как реализовать анализ PDF-файлов и извлечение данных на основе ИИ не только для счетов-фактур, но и для любых PDF-документов с табличными данными в n8n.

Использование парсеров, таких как LlamaParse, и моделей, таких как GPT-4o, для этого варианта может обеспечить значительный рост производительности за малую долю стоимости по сравнению с традиционными решениями, такими как OCR!

Открытая лекция
НЕЙРОСЕТИ ДЛЯ ЖИЗНИ И КАРЬЕРЫ
ТОП-подарки всем участникам лекции:
  • Пошаговая PDF-инструкция “Как сделать нейрофотосессию из своего фото бесплатно
  • Подборка из 3800+ нейросетей
  • Гайд “Как использовать ChatGPT для изучения любого из 50 языков
  • Доступ в бот с безлимитным доступом к ChatGPT
Участвовать бесплатно
ОНЛАЙН-ПРАКТИКУМ
КАК «ХАКНУТЬ» PYTHON С ПОМОЩЬЮ CHATGPT И СТАТЬ «ПРОГРАММИСТОМ БУДУЩЕГО»
Вы узнаете:
  • Как внедрение ИИ в бизнес-процессы помогает улучшить финансовые результаты компаний в 2025 году.
  • Мы расскажем, кто такой промпт-инженер, чем он занимается и какие результаты можно ожидать от его работы.
  • Также обсудим, где найти промпт-инженера, сколько стоят его услуги в России и за рубежом, и кто может стать промпт-инженером.
Участвовать бесплатно