3 Commits

Author SHA1 Message Date
4cbdaf1b60 ch 2025-09-01 13:58:42 +03:00
9459196804 all in docker 2025-09-01 12:24:37 +03:00
ce228d9756 work 2025-09-01 12:08:16 +03:00
47 changed files with 1446 additions and 2051 deletions

224
.gitignore vendored
View File

@@ -1,26 +1,15 @@
# Python data
__pycache__ .streamlit
# Byte-compiled / optimized / DLL files
__pycache__/ __pycache__/
python_parser/__pycache__/
python_parser/core/__pycache__/
python_parser/adapters/__pycache__/
python_parser/tests/__pycache__/
python_parser/tests/test_core/__pycache__/
python_parser/tests/test_adapters/__pycache__/
python_parser/tests/test_app/__pycache__/
python_parser/app/__pycache__/
python_parser/app/schemas/__pycache__/
python_parser/app/schemas/test_schemas/__pycache__/
python_parser/app/schemas/test_schemas/test_core/__pycache__/
python_parser/app/schemas/test_schemas/test_adapters/__pycache__/
python_parser/app/schemas/test_schemas/test_app/__pycache__/
nin_python_parser
*.pyc
*.py[cod] *.py[cod]
*$py.class *$py.class
# C extensions
*.so *.so
# Distribution / packaging
.Python .Python
build/ build/
develop-eggs/ develop-eggs/
@@ -34,13 +23,88 @@ parts/
sdist/ sdist/
var/ var/
wheels/ wheels/
pip-wheel-metadata/
share/python-wheels/ share/python-wheels/
*.egg-info/ *.egg-info/
.installed.cfg .installed.cfg
*.egg *.egg
MANIFEST MANIFEST
# Virtual environments # PyInstaller
# Usually these files are written by a python script from a template
# before PyInstaller builds the exe, so as to inject date/other infos into it.
*.manifest
*.spec
# Installer logs
pip-log.txt
pip-delete-this-directory.txt
# Unit test / coverage reports
htmlcov/
.tox/
.nox/
.coverage
.coverage.*
.cache
nosetests.xml
coverage.xml
*.cover
*.py,cover
.hypothesis/
.pytest_cache/
# Translations
*.mo
*.pot
# Django stuff:
*.log
local_settings.py
db.sqlite3
db.sqlite3-journal
# Flask stuff:
instance/
.webassets-cache
# Scrapy stuff:
.scrapy
# Sphinx documentation
docs/_build/
# PyBuilder
target/
# Jupyter Notebook
.ipynb_checkpoints
# IPython
profile_default/
ipython_config.py
# pyenv
.python-version
# pipenv
# According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
# However, in case of collaboration, if having platform-specific dependencies or dependencies
# having no cross-platform support, pipenv may install dependencies that don't work, or not
# install all needed dependencies.
#Pipfile.lock
# PEP 582; used by e.g. github.com/David-OConnor/pyflow
__pypackages__/
# Celery stuff
celerybeat-schedule
celerybeat.pid
# SageMath parsed files
*.sage.py
# Environments
.env .env
.venv .venv
env/ env/
@@ -49,86 +113,6 @@ ENV/
env.bak/ env.bak/
venv.bak/ venv.bak/
# IDE
.vscode/
.idea/
*.swp
*.swo
*~
# OS
.DS_Store
.DS_Store?
._*
.Spotlight-V100
.Trashes
ehthumbs.db
Thumbs.db
Desktop.ini
# Logs
*.log
logs/
log/
# MinIO data and cache
minio_data/
.minio.sys/
*.meta
part.*
# Docker
.dockerignore
docker-compose.override.yml
# Environment variables
.env
.env.local
.env.development.local
.env.test.local
.env.production.local
# Temporary files
*.tmp
*.temp
*.bak
*.backup
*.orig
# Data files (Excel, CSV, etc.)
*.xlsx
*.xls
*.xlsm
*.csv
*.json
data/
uploads/
# Cache directories
.cache/
.pytest_cache/
.coverage
htmlcov/
# Jupyter Notebook
.ipynb_checkpoints
# pyenv
.python-version
# pipenv
Pipfile.lock
# poetry
poetry.lock
# Celery
celerybeat-schedule
celerybeat.pid
# SageMath parsed files
*.sage.py
# Spyder project settings # Spyder project settings
.spyderproject .spyderproject
.spyproject .spyproject
@@ -147,29 +131,23 @@ dmypy.json
# Pyre type checker # Pyre type checker
.pyre/ .pyre/
# pytype static type analyzer # IDE
.pytype/ .vscode/
.idea/
*.swp
*.swo
*~
# Cython debug symbols # OS
cython_debug/ .DS_Store
Thumbs.db
# Local development # Project specific
local_settings.py data/
db.sqlite3 *.zip
db.sqlite3-journal *.xlsx
*.xls
*.xlsm
# FastAPI # MinIO data directory
.pytest_cache/ minio_data/
.coverage
htmlcov/
# Streamlit
.streamlit/secrets.toml
# Node.js (if any frontend components)
node_modules/
npm-debug.log*
yarn-debug.log*
yarn-error.log*
__pycache__/

1
Procfile Normal file
View File

@@ -0,0 +1 @@
web: python /app/run_stand.py

View File

@@ -1,41 +0,0 @@
# 🚀 Быстрый запуск проекта
## 1. Запуск всех сервисов
```bash
docker compose up -d
```
## 2. Проверка статуса
```bash
docker compose ps
```
## 3. Доступ к сервисам
- **FastAPI**: http://localhost:8000
- **Streamlit**: http://localhost:8501
- **MinIO Console**: http://localhost:9001
- **MinIO API**: http://localhost:9000
## 4. Остановка
```bash
docker compose down
```
## 5. Просмотр логов
```bash
# Все сервисы
docker compose logs
# Конкретный сервис
docker compose logs fastapi
docker compose logs streamlit
docker compose logs minio
```
## 6. Пересборка и перезапуск
```bash
docker compose up -d --build
```
---
**Примечание**: При первом запуске Docker будет скачивать образы и собирать контейнеры, это может занять несколько минут.

227
README.md
View File

@@ -1,117 +1,182 @@
# Python Parser CF - Система анализа данных # 🚀 NIN Excel Parsers API - Полная система
Проект состоит из трех основных компонентов: Полноценная система для парсинга Excel отчетов нефтеперерабатывающих заводов (НПЗ) с использованием FastAPI, MinIO и Streamlit.
- **python_parser** - FastAPI приложение для парсинга и обработки данных
- **streamlit_app** - Streamlit приложение для визуализации и анализа ## 🏗️ Архитектура проекта
- **minio_data** - хранилище данных MinIO
Проект состоит из **двух изолированных пакетов**:
- **`python_parser/`** - FastAPI сервер + парсеры Excel
- **`streamlit_app/`** - Веб-интерфейс для демонстрации API
## 🚀 Быстрый запуск ## 🚀 Быстрый запуск
### Предварительные требования ### **Вариант 1: Все сервисы в Docker (рекомендуется)**
- Docker и Docker Compose
- Git
### Запуск всех сервисов (продакшн)
```bash ```bash
docker compose up -d # Запуск всех сервисов: MinIO + FastAPI + Streamlit
docker-compose up -d
# Доступ:
# - MinIO Console: http://localhost:9001
# - FastAPI: http://localhost:8000
# - Streamlit: http://localhost:8501
# - API Docs: http://localhost:8000/docs
``` ```
### Запуск в режиме разработки ### **Вариант 2: Только MinIO в Docker + сервисы локально**
```bash ```bash
# Автоматический запуск # Запуск MinIO в Docker
python start_dev.py docker-compose up -d minio
# Или вручную # Запуск FastAPI локально
docker compose -f docker-compose.dev.yml up -d cd python_parser
python run_dev.py
# В отдельном терминале - Streamlit
cd streamlit_app
streamlit run app.py
``` ```
**Режим разработки** позволяет: ### **Вариант 3: Только MinIO в Docker**
- Автоматически перезагружать Streamlit при изменении кода
- Монтировать исходный код напрямую в контейнер
- Видеть изменения без пересборки контейнеров
### Доступ к сервисам
- **FastAPI**: http://localhost:8000
- **Streamlit**: http://localhost:8501
- **MinIO Console**: http://localhost:9001
- **MinIO API**: http://localhost:9000
### Остановка сервисов
```bash ```bash
docker-compose down # Запуск только MinIO
docker-compose up -d minio
``` ```
## 📋 Описание сервисов
- **MinIO** (порт 9000-9001): S3-совместимое хранилище для данных
- **FastAPI** (порт 8000): API сервер для парсинга Excel файлов
- **Streamlit** (порт 8501): Веб-интерфейс для демонстрации API
## 📁 Структура проекта ## 📁 Структура проекта
``` ```
python_parser_cf/ python_parser_cf/ # Корень проекта
├── python_parser/ # FastAPI приложение ├── python_parser/ # Пакет FastAPI + парсеры
│ ├── app/ # Основной код приложения │ ├── app/ # FastAPI приложение
│ ├── adapters/ # Адаптеры для парсеров │ ├── main.py # Основной файл приложения
├── core/ # Основная бизнес-логика │ └── schemas/ # Pydantic схемы
│ ├── data/ # Тестовые данные │ ├── core/ # Бизнес-логика
└── Dockerfile # Docker образ для FastAPI │ ├── models.py # Модели данных
├── streamlit_app/ # Streamlit приложение │ │ ├── ports.py # Интерфейсы (порты)
├── streamlit_app.py # Основной файл приложения │ └── services.py # Сервисы
│ ├── requirements.txt # Зависимости Python │ ├── adapters/ # Адаптеры для внешних систем
│ ├── .streamlit/ # Конфигурация Streamlit │ ├── storage.py # MinIO адаптер
│ └── Dockerfile # Docker образ для Streamlit │ └── parsers/ # Парсеры Excel файлов
├── minio_data/ # Данные для MinIO ├── data/ # Тестовые данные
├── docker-compose.yml # Конфигурация всех сервисов ├── Dockerfile # Docker образ для FastAPI
└── README.md # Документация │ ├── requirements.txt # Зависимости FastAPI
│ └── run_dev.py # Запуск FastAPI локально
├── streamlit_app/ # Пакет Streamlit
│ ├── app.py # Основное Streamlit приложение
│ ├── requirements.txt # Зависимости Streamlit
│ ├── Dockerfile # Docker образ для Streamlit
│ ├── .streamlit/ # Конфигурация Streamlit
│ │ └── config.toml # Настройки
│ └── README.md # Документация Streamlit
├── docker-compose.yml # Docker Compose конфигурация
├── .gitignore # Git исключения
└── README.md # Общая документация
``` ```
## 🔧 Конфигурация ## 🔍 Доступные эндпоинты
### Переменные окружения - **GET /** - Информация об API
Все сервисы используют следующие переменные окружения: - **GET /docs** - Swagger документация
- `MINIO_ENDPOINT` - адрес MinIO сервера - **GET /parsers** - Список доступных парсеров
- `MINIO_ACCESS_KEY` - ключ доступа к MinIO - **GET /parsers/{parser_name}/getters** - Информация о геттерах парсера
- `MINIO_SECRET_KEY` - секретный ключ MinIO - **POST /svodka_pm/upload-zip** - Загрузка сводок ПМ
- `MINIO_SECURE` - использование SSL/TLS - **POST /svodka_ca/upload** - Загрузка сводок ЦА
- `MINIO_BUCKET` - имя bucket'а для данных - **POST /monitoring_fuel/upload-zip** - Загрузка мониторинга топлива
- **POST /svodka_pm/get_data** - Получение данных сводок ПМ
- **POST /svodka_ca/get_data** - Получение данных сводок ЦА
- **POST /monitoring_fuel/get_data** - Получение данных мониторинга топлива
### Порты ## 📊 Поддерживаемые типы отчетов
- **8000** - FastAPI
- **8501** - Streamlit
- **9000** - MinIO API
- **9001** - MinIO Console
## 📊 Использование 1. **svodka_pm** - Сводки по переработке нефти (ПМ)
- Геттеры: `single_og`, `total_ogs`
2. **svodka_ca** - Сводки по переработке нефти (ЦА)
- Геттеры: `get_data`
3. **monitoring_fuel** - Мониторинг топлива
- Геттеры: `total_by_columns`, `month_by_code`
1. **Запустите все сервисы**: `docker-compose up -d` ## 🏗️ Архитектура
2. **Откройте Streamlit**: http://localhost:8501
3. **Выберите тип данных** для анализа
4. **Просматривайте результаты** в интерактивном интерфейсе
## 🛠️ Разработка Проект использует **Hexagonal Architecture (Ports and Adapters)**:
### Режим разработки (рекомендуется) - **Порты (Ports)**: Интерфейсы для бизнес-логики
- **Адаптеры (Adapters)**: Реализации для внешних систем
- **Сервисы (Services)**: Бизнес-логика приложения
### Система геттеров парсеров
Каждый парсер может иметь несколько методов получения данных (геттеров):
- Регистрация геттеров в словаре с метаданными
- Валидация параметров для каждого геттера
- Единый интерфейс `get_value(getter_name, params)`
## 🐳 Docker
### Сборка образов:
```bash ```bash
# Запуск режима разработки # FastAPI
python start_dev.py docker build -t nin-fastapi ./python_parser
# Остановка # Streamlit
docker compose -f docker-compose.dev.yml down docker build -t nin-streamlit ./streamlit_app
# Возврат к продакшн режиму
python start_prod.py
``` ```
### Локальная разработка FastAPI ### Запуск отдельных сервисов:
```bash ```bash
# Только MinIO
docker-compose up -d minio
# MinIO + FastAPI
docker-compose up -d minio fastapi
# Все сервисы
docker-compose up -d
```
## 🛑 Остановка
### Остановка Docker сервисов:
```bash
# Все сервисы
docker-compose down
# Только MinIO
docker-compose stop minio
```
### Остановка локальных сервисов:
```bash
# Нажмите Ctrl+C в терминале с FastAPI/Streamlit
```
## 🔧 Разработка
### Добавление нового парсера:
1. Создайте файл в `python_parser/adapters/parsers/`
2. Реализуйте интерфейс `ParserPort`
3. Добавьте в `python_parser/core/services.py`
4. Создайте схемы в `python_parser/app/schemas/`
5. Добавьте эндпоинты в `python_parser/app/main.py`
### Тестирование:
```bash
# Запуск тестов
cd python_parser cd python_parser
pip install -r requirements.txt pytest
uvicorn app.main:app --reload
```
### Локальная разработка Streamlit # Запуск с покрытием
```bash pytest --cov=.
cd streamlit_app
pip install -r requirements.txt
streamlit run streamlit_app.py
``` ```
## 📝 Лицензия ## 📝 Лицензия
Проект разработан для внутреннего использования. Проект разработан для внутреннего использования НИН.

View File

@@ -170,16 +170,11 @@ def main():
if not port_8000_ok: if not port_8000_ok:
print("\n🔧 РЕШЕНИЕ: Запустите FastAPI сервер") print("\n🔧 РЕШЕНИЕ: Запустите FastAPI сервер")
print("python run_dev.py") print("docker-compose up -d fastapi")
if not port_8501_ok: if not port_8501_ok:
print("\n🔧 РЕШЕНИЕ: Запустите Streamlit") print("\n🔧 РЕШЕНИЕ: Запустите Streamlit")
print("python run_streamlit.py") print("docker-compose up -d streamlit")
print("\n🚀 Для автоматического запуска используйте:")
print("python start_demo.py")
print("\n🔍 Для пошагового запуска используйте:")
print("python run_manual.py")
if __name__ == "__main__": if __name__ == "__main__":
main() main()

34
create_test_excel.py Normal file
View File

@@ -0,0 +1,34 @@
#!/usr/bin/env python3
"""
Создание тестового Excel файла для тестирования API
"""
import pandas as pd
import numpy as np
def create_test_excel():
"""Создание тестового Excel файла"""
# Создаем тестовые данные
data = {
'name': ['Установка 1', 'Установка 2', 'Установка 3'],
'normativ': [100, 200, 300],
'total': [95, 195, 295],
'total_1': [90, 190, 290]
}
df = pd.DataFrame(data)
# Сохраняем в Excel
filename = 'test_file.xlsx'
with pd.ExcelWriter(filename, engine='openpyxl') as writer:
df.to_excel(writer, sheet_name='Мониторинг потребления', index=False)
print(f"✅ Тестовый файл создан: {filename}")
print(f"📊 Содержимое: {len(df)} строк, {len(df.columns)} столбцов")
print(f"📋 Столбцы: {list(df.columns)}")
return filename
if __name__ == "__main__":
create_test_excel()

View File

@@ -1,69 +0,0 @@
services:
minio:
image: minio/minio:latest
container_name: svodka_minio_dev
ports:
- "9000:9000" # API порт
- "9001:9001" # Консоль порт
environment:
MINIO_ROOT_USER: minioadmin
MINIO_ROOT_PASSWORD: minioadmin
command: server /data --console-address ":9001"
volumes:
- ./minio_data:/data
restart: unless-stopped
fastapi:
image: python:3.11-slim
container_name: svodka_fastapi_dev
ports:
- "8000:8000"
environment:
- MINIO_ENDPOINT=minio:9000
- MINIO_ACCESS_KEY=minioadmin
- MINIO_SECRET_KEY=minioadmin
- MINIO_SECURE=false
- MINIO_BUCKET=svodka-data
volumes:
# Монтируем исходный код для автоматической перезагрузки
- ./python_parser:/app
# Монтируем requirements.txt для установки зависимостей
- ./python_parser/requirements.txt:/app/requirements.txt
working_dir: /app
depends_on:
- minio
restart: unless-stopped
command: >
bash -c "
pip install --no-cache-dir -r requirements.txt &&
uvicorn app.main:app --host 0.0.0.0 --port 8000 --reload
"
streamlit:
image: python:3.11-slim
container_name: svodka_streamlit_dev
ports:
- "8501:8501"
environment:
- API_BASE_URL=http://fastapi:8000
- API_PUBLIC_URL=http://localhost:8000
- MINIO_ENDPOINT=minio:9000
- MINIO_ACCESS_KEY=minioadmin
- MINIO_SECRET_KEY=minioadmin
- MINIO_SECURE=false
- MINIO_BUCKET=svodka-data
volumes:
# Монтируем исходный код для автоматической перезагрузки
- ./streamlit_app:/app
# Монтируем requirements.txt для установки зависимостей
- ./streamlit_app/requirements.txt:/app/requirements.txt
working_dir: /app
depends_on:
- minio
- fastapi
restart: unless-stopped
command: >
bash -c "
pip install --no-cache-dir -r requirements.txt &&
streamlit run streamlit_app.py --server.port=8501 --server.address=0.0.0.0 --server.runOnSave=true
"

View File

@@ -1,5 +1,3 @@
# Продакшн конфигурация
# Для разработки используйте: docker compose -f docker-compose.dev.yml up -d
services: services:
minio: minio:
image: minio/minio:latest image: minio/minio:latest
@@ -37,13 +35,7 @@ services:
- "8501:8501" - "8501:8501"
environment: environment:
- API_BASE_URL=http://fastapi:8000 - API_BASE_URL=http://fastapi:8000
- API_PUBLIC_URL=http://localhost:8000 - DOCKER_ENV=true
- MINIO_ENDPOINT=minio:9000
- MINIO_ACCESS_KEY=minioadmin
- MINIO_SECRET_KEY=minioadmin
- MINIO_SECURE=false
- MINIO_BUCKET=svodka-data
depends_on: depends_on:
- minio
- fastapi - fastapi
restart: unless-stopped restart: unless-stopped

17
manifest.yml Normal file
View File

@@ -0,0 +1,17 @@
applications:
- name: nin-python-parser-dev-test
buildpack: python_buildpack
health-check-type: web
services:
- logging-shared-dev
command: python /app/run_stand.py
path: .
disk_quota: 2G
memory: 4G
instances: 1
env:
MINIO_ENDPOINT: s3-region1.ppc-jv-dev.sibintek.ru
MINIO_ACCESS_KEY: 00a70fac02c1208446de
MINIO_SECRET_KEY: 1gk9tVYEEoH9ADRxb4kiAuCo6CCISdV6ie0p6oDO
MINIO_BUCKET: bucket-476684e7-1223-45ac-a101-8b5aeda487d6
MINIO_SECURE: false

20
python_parser/Dockerfile_ Normal file
View File

@@ -0,0 +1,20 @@
FROM repo-dev.predix.rosneft.ru/python:3.11-slim
WORKDIR /app
# RUN pip install kafka-python==2.0.2
# RUN pip freeze > /app/requirements.txt
# ADD . /app
COPY requirements.txt .
RUN mkdir -p vendor
RUN pip download -r /app/requirements.txt --no-binary=:none: -d /app/vendor
# ADD . /app
# ENV KAFKA_BROKER=10.234.160.10:9093,10.234.160.10:9094,10.234.160.10:9095
# ENV KAFKA_UPDATE_ALGORITHM_RULES_TOPIC=algorithm-rule-update
# ENV KAFKA_CLIENT_USERNAME=cf-service
# CMD ["python", "/app/run_dev.py"]

104
python_parser/README.md Normal file
View File

@@ -0,0 +1,104 @@
# 📊 Python Parser - FastAPI + Парсеры Excel
Пакет FastAPI сервера и парсеров Excel для нефтеперерабатывающих заводов.
## 🚀 Быстрый запуск
### **Локально:**
```bash
# Установка зависимостей
pip install -r requirements.txt
# Запуск FastAPI сервера
python run_dev.py
```
### **В Docker:**
```bash
# Сборка образа
docker build -t nin-fastapi .
# Запуск контейнера
docker run -p 8000:8000 nin-fastapi
```
## 📁 Структура пакета
```
python_parser/
├── app/ # FastAPI приложение
│ ├── main.py # Основной файл приложения
│ └── schemas/ # Pydantic схемы
├── core/ # Бизнес-логика
│ ├── models.py # Модели данных
│ ├── ports.py # Интерфейсы (порты)
│ └── services.py # Сервисы
├── adapters/ # Адаптеры для внешних систем
│ ├── storage.py # MinIO адаптер
│ └── parsers/ # Парсеры Excel файлов
├── data/ # Тестовые данные
├── Dockerfile # Docker образ для FastAPI
├── requirements.txt # Зависимости Python
└── run_dev.py # Запуск FastAPI локально
```
## 🔍 Основные эндпоинты
- **GET /** - Информация об API
- **GET /docs** - Swagger документация
- **GET /parsers** - Список доступных парсеров
- **GET /parsers/{parser_name}/getters** - Информация о геттерах парсера
- **POST /svodka_pm/upload-zip** - Загрузка сводок ПМ
- **POST /svodka_ca/upload** - Загрузка сводок ЦА
- **POST /monitoring_fuel/upload-zip** - Загрузка мониторинга топлива
- **POST /svodka_pm/get_data** - Получение данных сводок ПМ
- **POST /svodka_ca/get_data** - Получение данных сводок ЦА
- **POST /monitoring_fuel/get_data** - Получение данных мониторинга топлива
## 📊 Поддерживаемые парсеры
1. **svodka_pm** - Сводки по переработке нефти (ПМ)
- Геттеры: `single_og`, `total_ogs`
2. **svodka_ca** - Сводки по переработке нефти (ЦА)
- Геттеры: `get_data`
3. **monitoring_fuel** - Мониторинг топлива
- Геттеры: `total_by_columns`, `month_by_code`
## 🏗️ Архитектура
Использует **Hexagonal Architecture (Ports and Adapters)**:
- **Порты (Ports)**: Интерфейсы для бизнес-логики
- **Адаптеры (Adapters)**: Реализации для внешних систем
- **Сервисы (Services)**: Бизнес-логика приложения
### Система геттеров парсеров
Каждый парсер может иметь несколько методов получения данных (геттеров):
- Регистрация геттеров в словаре с метаданными
- Валидация параметров для каждого геттера
- Единый интерфейс `get_value(getter_name, params)`
## 🔧 Разработка
### Добавление нового парсера:
1. Создайте файл в `adapters/parsers/`
2. Реализуйте интерфейс `ParserPort`
3. Добавьте в `core/services.py`
4. Создайте схемы в `app/schemas/`
5. Добавьте эндпоинты в `app/main.py`
### Тестирование:
```bash
# Запуск тестов
pytest
# Запуск с покрытием
pytest --cov=.
```
## 📝 Примечание
Этот пакет является частью большей системы. Для полной документации и запуска всех сервисов см. README.md в корне проекта.

View File

@@ -1,135 +0,0 @@
# Интеграция схем Pydantic с парсерами
## Обзор
Этот документ описывает решение для устранения дублирования логики между схемами Pydantic и парсерами. Теперь схемы Pydantic являются единым источником правды для определения параметров парсеров.
## Проблема
Ранее в парсерах дублировалась информация о параметрах:
```python
# В парсере
self.register_getter(
name="single_og",
method=self._get_single_og,
required_params=["id", "codes", "columns"], # Дублирование
optional_params=["search"], # Дублирование
description="Получение данных по одному ОГ"
)
# В схеме
class SvodkaPMSingleOGRequest(BaseModel):
id: OGID = Field(...) # Обязательное поле
codes: List[int] = Field(...) # Обязательное поле
columns: List[str] = Field(...) # Обязательное поле
search: Optional[str] = Field(None) # Необязательное поле
```
## Решение
### 1. Утилиты для работы со схемами
Создан модуль `core/schema_utils.py` с функциями:
- `get_required_fields_from_schema()` - извлекает обязательные поля
- `get_optional_fields_from_schema()` - извлекает необязательные поля
- `register_getter_from_schema()` - регистрирует геттер с использованием схемы
- `validate_params_with_schema()` - валидирует параметры с помощью схемы
### 2. Обновленные парсеры
Теперь парсеры используют схемы как единый источник правды:
```python
def _register_default_getters(self):
"""Регистрация геттеров по умолчанию"""
# Используем схемы Pydantic как единый источник правды
register_getter_from_schema(
parser_instance=self,
getter_name="single_og",
method=self._get_single_og,
schema_class=SvodkaPMSingleOGRequest,
description="Получение данных по одному ОГ"
)
```
### 3. Валидация параметров
Методы геттеров теперь автоматически валидируют параметры:
```python
def _get_single_og(self, params: dict):
"""Получение данных по одному ОГ"""
# Валидируем параметры с помощью схемы Pydantic
validated_params = validate_params_with_schema(params, SvodkaPMSingleOGRequest)
og_id = validated_params["id"]
codes = validated_params["codes"]
columns = validated_params["columns"]
search = validated_params.get("search")
# ... остальная логика
```
## Преимущества
1. **Единый источник правды** - информация о параметрах хранится только в схемах Pydantic
2. **Автоматическая валидация** - параметры автоматически валидируются с помощью Pydantic
3. **Синхронизация** - изменения в схемах автоматически отражаются в парсерах
4. **Типобезопасность** - использование типов Pydantic обеспечивает типобезопасность
5. **Документация** - Swagger документация автоматически генерируется из схем
## Совместимость
Решение работает с:
- Pydantic v1 (через `__fields__`)
- Pydantic v2 (через `model_fields` и `is_required()`)
## Использование
### Для новых парсеров
1. Создайте схему Pydantic с нужными полями
2. Используйте `register_getter_from_schema()` для регистрации геттера
3. Используйте `validate_params_with_schema()` в методах геттеров
### Для существующих парсеров
1. Убедитесь, что у вас есть соответствующая схема Pydantic
2. Замените ручную регистрацию геттеров на `register_getter_from_schema()`
3. Добавьте валидацию параметров в методы геттеров
## Примеры
### Схема с обязательными и необязательными полями
```python
class ExampleRequest(BaseModel):
required_field: str = Field(..., description="Обязательное поле")
optional_field: Optional[str] = Field(None, description="Необязательное поле")
```
### Регистрация геттера
```python
register_getter_from_schema(
parser_instance=self,
getter_name="example_getter",
method=self._example_method,
schema_class=ExampleRequest,
description="Пример геттера"
)
```
### Валидация в методе
```python
def _example_method(self, params: dict):
validated_params = validate_params_with_schema(params, ExampleRequest)
# validated_params содержит валидированные данные
```
## Заключение
Это решение устраняет дублирование кода и обеспечивает единообразие между API схемами и парсерами. Теперь изменения в схемах автоматически отражаются в парсерах, что упрощает поддержку и развитие системы.

View File

@@ -1,88 +0,0 @@
# Парсер Сводки ПМ
## Описание
Парсер для обработки сводок ПМ (план и факт) с поддержкой множественных геттеров. Наследуется от `ParserPort` и реализует архитектуру hexagonal architecture.
## Доступные геттеры
### 1. `get_single_og`
Получение данных по одному ОГ из сводки ПМ.
**Обязательные параметры:**
- `id` (str): ID ОГ (например, "SNPZ", "KNPZ")
- `codes` (list): Список кодов показателей (например, [78, 79, 81, 82])
- `columns` (list): Список столбцов для извлечения (например, ["ПП", "БП", "СЭБ"])
**Необязательные параметры:**
- `search` (str): Значение для поиска в столбцах
**Пример использования:**
```python
parser = SvodkaPMParser()
params = {
"id": "SNPZ",
"codes": [78, 79, 81, 82],
"columns": ["ПП", "БП", "СЭБ"]
}
result = parser.get_value("get_single_og", params)
```
### 2. `get_total_ogs`
Получение данных по всем ОГ из сводки ПМ.
**Обязательные параметры:**
- `codes` (list): Список кодов показателей
- `columns` (list): Список столбцов для извлечения
**Необязательные параметры:**
- `search` (str): Значение для поиска в столбцах
**Пример использования:**
```python
parser = SvodkaPMParser()
params = {
"codes": [78, 79, 81, 82],
"columns": ["ПП", "БП", "СЭБ"]
}
result = parser.get_value("get_total_ogs", params)
```
## Поддерживаемые столбцы
- **ПП, БП**: Данные из файлов плана
- **ТБ, СЭБ, НЭБ**: Данные из файлов факта
## Структура файлов
Парсер ожидает следующую структуру файлов:
- `data/pm_fact/svodka_fact_pm_{OG_ID}.xlsx` или `.xlsm`
- `data/pm_plan/svodka_plan_pm_{OG_ID}.xlsx` или `.xlsm`
Где `{OG_ID}` - это ID ОГ (например, SNPZ, KNPZ и т.д.)
## Формат результата
Результат возвращается в формате JSON со следующей структурой:
```json
{
"ПП": {
"78": 123.45,
"79": 234.56
},
"БП": {
"78": 111.11,
"79": 222.22
},
"СЭБ": {
"78": 333.33,
"79": 444.44
}
}
```
## Обработка ошибок
- Если файл плана/факта не найден, соответствующие столбцы будут пустыми
- Если код показателя не найден, возвращается 0
- Валидация параметров выполняется автоматически

View File

@@ -3,8 +3,6 @@ import re
import zipfile import zipfile
from typing import Dict, Tuple from typing import Dict, Tuple
from core.ports import ParserPort from core.ports import ParserPort
from core.schema_utils import register_getter_from_schema, validate_params_with_schema
from app.schemas.monitoring_fuel import MonitoringFuelTotalRequest, MonitoringFuelMonthRequest
from adapters.pconfig import data_to_json from adapters.pconfig import data_to_json
@@ -15,130 +13,46 @@ class MonitoringFuelParser(ParserPort):
def _register_default_getters(self): def _register_default_getters(self):
"""Регистрация геттеров по умолчанию""" """Регистрация геттеров по умолчанию"""
# Используем схемы Pydantic как единый источник правды self.register_getter(
register_getter_from_schema( name="total_by_columns",
parser_instance=self,
getter_name="total_by_columns",
method=self._get_total_by_columns, method=self._get_total_by_columns,
schema_class=MonitoringFuelTotalRequest, required_params=["columns"],
optional_params=[],
description="Агрегация данных по колонкам" description="Агрегация данных по колонкам"
) )
register_getter_from_schema( self.register_getter(
parser_instance=self, name="month_by_code",
getter_name="month_by_code",
method=self._get_month_by_code, method=self._get_month_by_code,
schema_class=MonitoringFuelMonthRequest, required_params=["month"],
optional_params=[],
description="Получение данных за конкретный месяц" description="Получение данных за конкретный месяц"
) )
def _get_total_by_columns(self, params: dict): def _get_total_by_columns(self, params: dict):
"""Агрегация данных по колонкам""" """Агрегация по колонкам (обертка для совместимости)"""
# Валидируем параметры с помощью схемы Pydantic columns = params["columns"]
validated_params = validate_params_with_schema(params, MonitoringFuelTotalRequest) if not columns:
raise ValueError("Отсутствуют идентификаторы столбцов")
columns = validated_params["columns"] # TODO: Переделать под новую архитектуру
df_means, _ = self.aggregate_by_columns(self.df, columns)
# Проверяем, есть ли данные в data_dict (из парсинга) или в df (из загрузки) return df_means.to_dict(orient='index')
if hasattr(self, 'data_dict') and self.data_dict is not None:
# Данные из парсинга
data_source = self.data_dict
elif hasattr(self, 'df') and self.df is not None and not self.df.empty:
# Данные из загрузки - преобразуем DataFrame обратно в словарь
data_source = self._df_to_data_dict()
else:
return {}
# Агрегируем данные по колонкам
df_means, _ = self.aggregate_by_columns(data_source, columns)
# Преобразуем в JSON-совместимый формат
result = {}
for idx, row in df_means.iterrows():
result[str(idx)] = {}
for col in columns:
value = row.get(col)
if pd.isna(value) or value == float('inf') or value == float('-inf'):
result[str(idx)][col] = None
else:
result[str(idx)][col] = float(value) if isinstance(value, (int, float)) else value
return result
def _get_month_by_code(self, params: dict): def _get_month_by_code(self, params: dict):
"""Получение данных за конкретный месяц""" """Получение данных за месяц (обертка для совместимости)"""
# Валидируем параметры с помощью схемы Pydantic month = params["month"]
validated_params = validate_params_with_schema(params, MonitoringFuelMonthRequest) if not month:
raise ValueError("Отсутствует идентификатор месяца")
month = validated_params["month"] # TODO: Переделать под новую архитектуру
df_month = self.get_month(self.df, month)
# Проверяем, есть ли данные в data_dict (из парсинга) или в df (из загрузки) return df_month.to_dict(orient='index')
if hasattr(self, 'data_dict') and self.data_dict is not None:
# Данные из парсинга
data_source = self.data_dict
elif hasattr(self, 'df') and self.df is not None and not self.df.empty:
# Данные из загрузки - преобразуем DataFrame обратно в словарь
data_source = self._df_to_data_dict()
else:
return {}
# Получаем данные за конкретный месяц
df_month = self.get_month(data_source, month)
# Преобразуем в JSON-совместимый формат
result = {}
for idx, row in df_month.iterrows():
result[str(idx)] = {}
for col in df_month.columns:
value = row[col]
if pd.isna(value) or value == float('inf') or value == float('-inf'):
result[str(idx)][col] = None
else:
result[str(idx)][col] = float(value) if isinstance(value, (int, float)) else value
return result
def _df_to_data_dict(self):
"""Преобразование DataFrame обратно в словарь данных"""
if not hasattr(self, 'df') or self.df is None or self.df.empty:
return {}
data_dict = {}
# Группируем данные по месяцам
for _, row in self.df.iterrows():
month = row.get('month')
data = row.get('data')
if month and data is not None:
data_dict[month] = data
return data_dict
def parse(self, file_path: str, params: dict) -> pd.DataFrame: def parse(self, file_path: str, params: dict) -> pd.DataFrame:
"""Парсинг файла и возврат DataFrame""" """Парсинг файла и возврат DataFrame"""
# Парсим данные и сохраняем словарь для использования в геттерах # Сохраняем DataFrame для использования в геттерах
self.data_dict = self.parse_monitoring_fuel_files(file_path, params) self.df = self.parse_monitoring_fuel_files(file_path, params)
# Преобразуем словарь в DataFrame для совместимости с services.py
if self.data_dict:
# Создаем DataFrame с информацией о месяцах и данных
data_rows = []
for month, df_data in self.data_dict.items():
if df_data is not None and not df_data.empty:
data_rows.append({
'month': month,
'rows_count': len(df_data),
'data': df_data
})
if data_rows:
df = pd.DataFrame(data_rows)
self.df = df
return df
# Если данных нет, возвращаем пустой DataFrame
self.df = pd.DataFrame()
return self.df return self.df
def parse_monitoring_fuel_files(self, zip_path: str, params: dict) -> Dict[str, pd.DataFrame]: def parse_monitoring_fuel_files(self, zip_path: str, params: dict) -> Dict[str, pd.DataFrame]:
@@ -229,11 +143,7 @@ class MonitoringFuelParser(ParserPort):
if 'name' in df_full.columns: if 'name' in df_full.columns:
# Применяем функцию get_id_by_name к каждой строке в колонке 'name' # Применяем функцию get_id_by_name к каждой строке в колонке 'name'
# df_full['id'] = df_full['name'].apply(get_object_by_name) # This line was removed as per new_code # df_full['id'] = df_full['name'].apply(get_object_by_name) # This line was removed as per new_code
# Временно используем name как id pass # Placeholder for new_code
df_full['id'] = df_full['name']
else:
# Если нет колонки name, создаем id из индекса
df_full['id'] = df_full.index
# Устанавливаем id как индекс # Устанавливаем id как индекс
df_full.set_index('id', inplace=True) df_full.set_index('id', inplace=True)

View File

@@ -2,8 +2,6 @@ import pandas as pd
import numpy as np import numpy as np
from core.ports import ParserPort from core.ports import ParserPort
from core.schema_utils import register_getter_from_schema, validate_params_with_schema
from app.schemas.svodka_ca import SvodkaCARequest
from adapters.pconfig import get_og_by_name from adapters.pconfig import get_og_by_name
@@ -14,208 +12,146 @@ class SvodkaCAParser(ParserPort):
def _register_default_getters(self): def _register_default_getters(self):
"""Регистрация геттеров по умолчанию""" """Регистрация геттеров по умолчанию"""
# Используем схемы Pydantic как единый источник правды self.register_getter(
register_getter_from_schema( name="get_data",
parser_instance=self,
getter_name="get_ca_data",
method=self._get_data_wrapper, method=self._get_data_wrapper,
schema_class=SvodkaCARequest, required_params=["modes", "tables"],
optional_params=[],
description="Получение данных по режимам и таблицам" description="Получение данных по режимам и таблицам"
) )
def _get_data_wrapper(self, params: dict): def _get_data_wrapper(self, params: dict):
"""Получение данных по режимам и таблицам""" """Обертка для получения данных (для совместимости)"""
print(f"🔍 DEBUG: _get_data_wrapper вызван с параметрами: {params}") modes = params["modes"]
tables = params["tables"]
# Валидируем параметры с помощью схемы Pydantic if not isinstance(modes, list):
validated_params = validate_params_with_schema(params, SvodkaCARequest) raise ValueError("Поле 'modes' должно быть списком")
if not isinstance(tables, list):
modes = validated_params["modes"] raise ValueError("Поле 'tables' должно быть списком")
tables = validated_params["tables"]
print(f"🔍 DEBUG: Запрошенные режимы: {modes}")
print(f"🔍 DEBUG: Запрошенные таблицы: {tables}")
# Проверяем, есть ли данные в data_dict (из парсинга) или в df (из загрузки)
if hasattr(self, 'data_dict') and self.data_dict is not None:
# Данные из парсинга
data_source = self.data_dict
print(f"🔍 DEBUG: Используем data_dict с режимами: {list(data_source.keys())}")
elif hasattr(self, 'df') and self.df is not None and not self.df.empty:
# Данные из загрузки - преобразуем DataFrame обратно в словарь
data_source = self._df_to_data_dict()
print(f"🔍 DEBUG: Используем df, преобразованный в data_dict с режимами: {list(data_source.keys())}")
else:
print(f"🔍 DEBUG: Нет данных! data_dict={getattr(self, 'data_dict', 'None')}, df={getattr(self, 'df', 'None')}")
return {}
# Фильтруем данные по запрошенным режимам и таблицам
result_data = {}
for mode in modes:
if mode in data_source:
result_data[mode] = {}
available_tables = list(data_source[mode].keys())
print(f"🔍 DEBUG: Режим '{mode}' содержит таблицы: {available_tables}")
for table_name, table_data in data_source[mode].items():
# Ищем таблицы по частичному совпадению
for requested_table in tables:
if requested_table in table_name:
result_data[mode][table_name] = table_data
print(f"🔍 DEBUG: Добавлена таблица '{table_name}' (совпадение с '{requested_table}') с {len(table_data)} записями")
break # Найдено совпадение, переходим к следующей таблице
else:
print(f"🔍 DEBUG: Режим '{mode}' не найден в data_source")
print(f"🔍 DEBUG: Итоговый результат содержит режимы: {list(result_data.keys())}")
return result_data
def _df_to_data_dict(self):
"""Преобразование DataFrame обратно в словарь данных"""
if not hasattr(self, 'df') or self.df is None or self.df.empty:
return {}
# TODO: Переделать под новую архитектуру
data_dict = {} data_dict = {}
for mode in modes:
# Группируем данные по режимам и таблицам data_dict[mode] = self.get_data(self.df, mode, tables)
for _, row in self.df.iterrows(): return self.data_dict_to_json(data_dict)
mode = row.get('mode')
table = row.get('table')
data = row.get('data')
if mode and table and data is not None:
if mode not in data_dict:
data_dict[mode] = {}
data_dict[mode][table] = data
return data_dict
def parse(self, file_path: str, params: dict) -> pd.DataFrame: def parse(self, file_path: str, params: dict) -> pd.DataFrame:
"""Парсинг файла и возврат DataFrame""" """Парсинг файла и возврат DataFrame"""
print(f"🔍 DEBUG: SvodkaCAParser.parse вызван с файлом: {file_path}") # Сохраняем DataFrame для использования в геттерах
self.df = self.parse_svodka_ca(file_path, params)
# Парсим данные и сохраняем словарь для использования в геттерах
self.data_dict = self.parse_svodka_ca(file_path, params)
# Преобразуем словарь в DataFrame для совместимости с services.py
# Создаем простой DataFrame с информацией о загруженных данных
if self.data_dict:
# Создаем DataFrame с информацией о режимах и таблицах
data_rows = []
for mode, tables in self.data_dict.items():
for table_name, table_data in tables.items():
if table_data:
data_rows.append({
'mode': mode,
'table': table_name,
'rows_count': len(table_data),
'data': table_data
})
if data_rows:
df = pd.DataFrame(data_rows)
self.df = df
print(f"🔍 DEBUG: Создан DataFrame с {len(data_rows)} записями")
return df
# Если данных нет, возвращаем пустой DataFrame
self.df = pd.DataFrame()
print(f"🔍 DEBUG: Возвращаем пустой DataFrame")
return self.df return self.df
def parse_svodka_ca(self, file_path: str, params: dict) -> dict: def parse_svodka_ca(self, file_path: str, params: dict) -> dict:
"""Парсинг сводки СА - работает с тремя листами: План, Факт, Норматив""" """Парсинг сводки СА"""
print(f"🔍 DEBUG: Начинаем парсинг сводки СА из файла: {file_path}") # Получаем параметры из params
sheet_name = params.get('sheet_name', 0) # По умолчанию первый лист
inclusion_list = params.get('inclusion_list', {'ТиП', 'Топливо', 'Потери'})
# === Точка входа. Нужно выгрузить три таблицы: План, Факт и Норматив === # === Извлечение и фильтрация ===
tables = self.extract_all_tables(file_path, sheet_name)
# Выгружаем План # Фильтруем таблицы: оставляем только те, где первая строка содержит нужные заголовки
inclusion_list_plan = { filtered_tables = []
"ТиП, %", for table in tables:
"Топливо итого, тонн", if table.empty:
"Топливо итого, %", continue
"Топливо на технологию, тонн", first_row_values = table.iloc[0].astype(str).str.strip().tolist()
"Топливо на технологию, %", if any(val in inclusion_list for val in first_row_values):
"Топливо на энергетику, тонн", filtered_tables.append(table)
"Топливо на энергетику, %",
"Потери итого, тонн",
"Потери итого, %",
"в т.ч. Идентифицированные безвозвратные потери, тонн**",
"в т.ч. Идентифицированные безвозвратные потери, %**",
"в т.ч. Неидентифицированные потери, тонн**",
"в т.ч. Неидентифицированные потери, %**"
}
df_ca_plan = self.parse_sheet(file_path, 'План', inclusion_list_plan) tables = filtered_tables
print(f"🔍 DEBUG: Объединённый и отсортированный План: {df_ca_plan.shape if df_ca_plan is not None else 'None'}")
# Выгружаем Факт # === Итоговый список таблиц датафреймов ===
inclusion_list_fact = { result_list = []
"ТиП, %",
"Топливо итого, тонн",
"Топливо итого, %",
"Топливо на технологию, тонн",
"Топливо на технологию, %",
"Топливо на энергетику, тонн",
"Топливо на энергетику, %",
"Потери итого, тонн",
"Потери итого, %",
"в т.ч. Идентифицированные безвозвратные потери, тонн",
"в т.ч. Идентифицированные безвозвратные потери, %",
"в т.ч. Неидентифицированные потери, тонн",
"в т.ч. Неидентифицированные потери, %"
}
df_ca_fact = self.parse_sheet(file_path, 'Факт', inclusion_list_fact) for table in tables:
print(f"🔍 DEBUG: Объединённый и отсортированный Факт: {df_ca_fact.shape if df_ca_fact is not None else 'None'}") if table.empty:
continue
# Выгружаем Норматив # Получаем первую строку (до удаления)
inclusion_list_normativ = { first_row_values = table.iloc[0].astype(str).str.strip().tolist()
"Топливо итого, тонн",
"Топливо итого, %",
"Топливо на технологию, тонн",
"Топливо на технологию, %",
"Топливо на энергетику, тонн",
"Топливо на энергетику, %",
"Потери итого, тонн",
"Потери итого, %",
"в т.ч. Идентифицированные безвозвратные потери, тонн**",
"в т.ч. Идентифицированные безвозвратные потери, %**",
"в т.ч. Неидентифицированные потери, тонн**",
"в т.ч. Неидентифицированные потери, %**"
}
df_ca_normativ = self.parse_sheet(file_path, 'Норматив', inclusion_list_normativ) # Находим, какой элемент из inclusion_list присутствует
print(f"🔍 DEBUG: Объединённый и отсортированный Норматив: {df_ca_normativ.shape if df_ca_normativ is not None else 'None'}") matched_key = None
for val in first_row_values:
if val in inclusion_list:
matched_key = val
break # берём первый совпадающий заголовок
# Преобразуем DataFrame в словарь по режимам и таблицам if matched_key is None:
data_dict = {} continue # на всякий случай (хотя уже отфильтровано)
# Обрабатываем План # Удаляем первую строку (заголовок) и сбрасываем индекс
if df_ca_plan is not None and not df_ca_plan.empty: df_cleaned = table.iloc[1:].copy().reset_index(drop=True)
data_dict['plan'] = {}
for table_name, group_df in df_ca_plan.groupby('table'):
table_data = group_df.drop('table', axis=1)
data_dict['plan'][table_name] = table_data.to_dict('records')
# Обрабатываем Факт # Пропускаем, если таблица пустая
if df_ca_fact is not None and not df_ca_fact.empty: if df_cleaned.empty:
data_dict['fact'] = {} continue
for table_name, group_df in df_ca_fact.groupby('table'):
table_data = group_df.drop('table', axis=1)
data_dict['fact'][table_name] = table_data.to_dict('records')
# Обрабатываем Норматив # Первая строка становится заголовком
if df_ca_normativ is not None and not df_ca_normativ.empty: new_header = df_cleaned.iloc[0] # извлекаем первую строку как потенциальные названия столбцов
data_dict['normativ'] = {}
for table_name, group_df in df_ca_normativ.groupby('table'):
table_data = group_df.drop('table', axis=1)
data_dict['normativ'][table_name] = table_data.to_dict('records')
print(f"🔍 DEBUG: Итоговый data_dict содержит режимы: {list(data_dict.keys())}") # Преобразуем заголовок: только первый столбец может быть заменён на "name"
for mode, tables in data_dict.items(): cleaned_header = []
print(f"🔍 DEBUG: Режим '{mode}' содержит таблицы: {list(tables.keys())}")
return data_dict # Обрабатываем первый столбец отдельно
first_item = new_header.iloc[0] if isinstance(new_header, pd.Series) else new_header[0]
first_item_str = str(first_item).strip() if pd.notna(first_item) else ""
if first_item_str == "" or first_item_str == "nan":
cleaned_header.append("name")
else:
cleaned_header.append(first_item_str)
# Остальные столбцы добавляем без изменений (или с минимальной очисткой)
for item in new_header[1:]:
# Опционально: приводим к строке и убираем лишние пробелы, но не заменяем на "name"
item_str = str(item).strip() if pd.notna(item) else ""
cleaned_header.append(item_str)
# Применяем очищенные названия столбцов
df_cleaned = df_cleaned[1:] # удаляем строку с заголовком
df_cleaned.columns = cleaned_header
df_cleaned = df_cleaned.reset_index(drop=True)
if matched_key.endswith('**'):
cleaned_key = matched_key[:-2] # удаляем последние **
else:
cleaned_key = matched_key
# Добавляем новую колонку с именем параметра
df_cleaned["table"] = cleaned_key
# Проверяем, что колонка 'name' существует
if 'name' not in df_cleaned.columns:
print(
f"Внимание: колонка 'name' отсутствует в таблице для '{matched_key}'. Пропускаем добавление 'id'.")
continue # или обработать по-другому
else:
# Применяем функцию get_id_by_name к каждой строке в колонке 'name'
df_cleaned['id'] = df_cleaned['name'].apply(get_og_by_name)
# Удаляем строки, где id — None, NaN или пустой
df_cleaned = df_cleaned.dropna(subset=['id']) # dropna удаляет NaN
# Дополнительно: удаляем None (если не поймал dropna)
df_cleaned = df_cleaned[df_cleaned['id'].notna() & (df_cleaned['id'].astype(str) != 'None')]
# Добавляем в словарь
result_list.append(df_cleaned)
# === Объединение и сортировка по id (индекс) и table ===
if result_list:
combined_df = pd.concat(result_list, axis=0)
# Сортируем по индексу (id) и по столбцу 'table'
combined_df = combined_df.sort_values(by=['id', 'table'], axis=0)
# Устанавливаем id как индекс
# combined_df.set_index('id', inplace=True)
return combined_df
else:
return None
def extract_all_tables(self, file_path, sheet_name=0): def extract_all_tables(self, file_path, sheet_name=0):
"""Извлечение всех таблиц из Excel файла""" """Извлечение всех таблиц из Excel файла"""

View File

@@ -1,326 +0,0 @@
import pandas as pd
from core.ports import ParserPort
from core.schema_utils import register_getter_from_schema, validate_params_with_schema
from app.schemas.svodka_pm import SvodkaPMSingleOGRequest, SvodkaPMTotalOGsRequest
from adapters.pconfig import OG_IDS, replace_id_in_path, data_to_json
class SvodkaPMParser(ParserPort):
"""Парсер для сводок ПМ (план и факт)"""
name = "Сводки ПМ"
def _register_default_getters(self):
"""Регистрация геттеров по умолчанию"""
# Используем схемы Pydantic как единый источник правды
register_getter_from_schema(
parser_instance=self,
getter_name="single_og",
method=self._get_single_og,
schema_class=SvodkaPMSingleOGRequest,
description="Получение данных по одному ОГ"
)
register_getter_from_schema(
parser_instance=self,
getter_name="total_ogs",
method=self._get_total_ogs,
schema_class=SvodkaPMTotalOGsRequest,
description="Получение данных по всем ОГ"
)
def _get_single_og(self, params: dict):
"""Получение данных по одному ОГ"""
# Валидируем параметры с помощью схемы Pydantic
validated_params = validate_params_with_schema(params, SvodkaPMSingleOGRequest)
og_id = validated_params["id"]
codes = validated_params["codes"]
columns = validated_params["columns"]
search = validated_params.get("search")
# Здесь нужно получить DataFrame из self.df, но пока используем старую логику
# TODO: Переделать под новую архитектуру
return self.get_svodka_og(self.df, og_id, codes, columns, search)
def _get_total_ogs(self, params: dict):
"""Получение данных по всем ОГ"""
# Валидируем параметры с помощью схемы Pydantic
validated_params = validate_params_with_schema(params, SvodkaPMTotalOGsRequest)
codes = validated_params["codes"]
columns = validated_params["columns"]
search = validated_params.get("search")
# TODO: Переделать под новую архитектуру
return self.get_svodka_total(self.df, codes, columns, search)
def parse(self, file_path: str, params: dict) -> pd.DataFrame:
"""Парсинг файла и возврат DataFrame"""
# Сохраняем DataFrame для использования в геттерах
self.df = self.parse_svodka_pm_files(file_path, params)
return self.df
def find_header_row(self, file: str, sheet: str, search_value: str = "Итого", max_rows: int = 50) -> int:
"""Определения индекса заголовка в excel по ключевому слову"""
# Читаем первые max_rows строк без заголовков
df_temp = pd.read_excel(
file,
sheet_name=sheet,
header=None,
nrows=max_rows,
engine='openpyxl'
)
# Ищем строку, где хотя бы в одном столбце встречается искомое значение
for idx, row in df_temp.iterrows():
if row.astype(str).str.strip().str.contains(f"^{search_value}$", case=False, regex=True).any():
print(f"Заголовок найден в строке {idx} (Excel: {idx + 1})")
return idx # 0-based index — то, что нужно для header=
raise ValueError(f"Не найдена строка с заголовком '{search_value}' в первых {max_rows} строках.")
def parse_svodka_pm(self, file, sheet, header_num=None):
''' Собственно парсер отчетов одного ОГ для БП, ПП и факта '''
# Автоопределение header_num, если не передан
if header_num is None:
header_num = self.find_header_row(file, sheet, search_value="Итого")
# Читаем заголовки header_num и 1-2 строки данных, чтобы найти INDICATOR_ID
df_probe = pd.read_excel(
file,
sheet_name=sheet,
header=header_num,
usecols=None,
nrows=2,
engine='openpyxl'
)
if df_probe.shape[0] == 0:
raise ValueError("Файл пуст или не содержит данных.")
first_data_row = df_probe.iloc[0]
# Находим столбец с 'INDICATOR_ID'
indicator_cols = first_data_row[first_data_row == 'INDICATOR_ID']
if len(indicator_cols) == 0:
raise ValueError('Не найден столбец со значением "INDICATOR_ID" в первой строке данных.')
indicator_col_name = indicator_cols.index[0]
print(f"Найден INDICATOR_ID в столбце: {indicator_col_name}")
# Читаем весь лист
df_full = pd.read_excel(
file,
sheet_name=sheet,
header=header_num,
usecols=None,
index_col=None,
engine='openpyxl'
)
if indicator_col_name not in df_full.columns:
raise ValueError(f"Столбец {indicator_col_name} отсутствует при полной загрузке.")
# Перемещаем INDICATOR_ID в начало и делаем индексом
cols = [indicator_col_name] + [col for col in df_full.columns if col != indicator_col_name]
df_full = df_full[cols]
df_full.set_index(indicator_col_name, inplace=True)
# Обрезаем до "Итого" + 1
header_list = [str(h).strip() for h in df_full.columns]
try:
itogo_idx = header_list.index("Итого")
num_cols_needed = itogo_idx + 2
except ValueError:
print('Столбец "Итого" не найден. Оставляем все столбцы.')
num_cols_needed = len(header_list)
num_cols_needed = min(num_cols_needed, len(header_list))
df_final = df_full.iloc[:, :num_cols_needed]
# === Удаление полностью пустых столбцов ===
df_clean = df_final.replace(r'^\s*$', pd.NA, regex=True)
df_clean = df_clean.where(pd.notnull(df_clean), pd.NA)
non_empty_mask = df_clean.notna().any()
df_final = df_final.loc[:, non_empty_mask]
# === Обработка заголовков: Unnamed и "Итого" → "Итого" ===
new_columns = []
last_good_name = None
for col in df_final.columns:
col_str = str(col).strip()
# Проверяем, является ли колонка пустой/некорректной
is_empty_or_unnamed = col_str.startswith('Unnamed') or col_str == '' or col_str.lower() == 'nan'
if is_empty_or_unnamed:
# Если это пустая колонка, используем последнее хорошее имя
if last_good_name:
new_columns.append(last_good_name)
else:
# Если нет хорошего имени, используем имя по умолчанию
new_columns.append(f"col_{len(new_columns)}")
else:
# Это хорошая колонка
last_good_name = col_str
new_columns.append(col_str)
# Убеждаемся, что количество столбцов совпадает
if len(new_columns) != len(df_final.columns):
# Если количество не совпадает, обрезаем или дополняем
if len(new_columns) > len(df_final.columns):
new_columns = new_columns[:len(df_final.columns)]
else:
# Дополняем недостающие столбцы
while len(new_columns) < len(df_final.columns):
new_columns.append(f"col_{len(new_columns)}")
# Применяем новые заголовки
df_final.columns = new_columns
return df_final
def parse_svodka_pm_files(self, zip_path: str, params: dict) -> dict:
"""Парсинг ZIP архива со сводками ПМ"""
import zipfile
pm_dict = {
"facts": {},
"plans": {}
}
excel_fact_template = 'svodka_fact_pm_ID.xlsm'
excel_plan_template = 'svodka_plan_pm_ID.xlsx'
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
file_list = zip_ref.namelist()
for name, id in OG_IDS.items():
if id == 'BASH':
continue # пропускаем BASH
current_fact = replace_id_in_path(excel_fact_template, id)
fact_candidates = [f for f in file_list if current_fact in f]
if len(fact_candidates) == 1:
print(f'Загрузка {current_fact}')
with zip_ref.open(fact_candidates[0]) as excel_file:
pm_dict['facts'][id] = self.parse_svodka_pm(excel_file, 'Сводка Нефтепереработка')
print(f"✅ Факт загружен: {current_fact}")
else:
print(f"⚠️ Файл не найден (Факт): {current_fact}")
pm_dict['facts'][id] = None
current_plan = replace_id_in_path(excel_plan_template, id)
plan_candidates = [f for f in file_list if current_plan in f]
if len(plan_candidates) == 1:
print(f'Загрузка {current_plan}')
with zip_ref.open(plan_candidates[0]) as excel_file:
pm_dict['plans'][id] = self.parse_svodka_pm(excel_file, 'Сводка Нефтепереработка')
print(f"✅ План загружен: {current_plan}")
else:
print(f"⚠️ Файл не найден (План): {current_plan}")
pm_dict['plans'][id] = None
return pm_dict
def get_svodka_value(self, df_svodka, code, search_value, search_value_filter=None):
''' Служебная функция получения значения по коду и столбцу '''
row_index = code
mask_value = df_svodka.iloc[0] == code
if search_value is None:
mask_name = df_svodka.columns != 'Итого'
else:
mask_name = df_svodka.columns == search_value
# Убедимся, что маски совпадают по длине
if len(mask_value) != len(mask_name):
raise ValueError(
f"Несоответствие длин масок: mask_value={len(mask_value)}, mask_name={len(mask_name)}"
)
final_mask = mask_value & mask_name # булевая маска по позициям столбцов
col_positions = final_mask.values # numpy array или Series булевых значений
if not final_mask.any():
print(f"Нет столбцов с '{code}' в первой строке и именем, не начинающимся с '{search_value}'")
return 0
else:
if row_index in df_svodka.index:
# Получаем позицию строки
row_loc = df_svodka.index.get_loc(row_index)
# Извлекаем значения по позициям столбцов
values = df_svodka.iloc[row_loc, col_positions]
# Преобразуем в числовой формат
numeric_values = pd.to_numeric(values, errors='coerce')
# Агрегация данных (NaN игнорируются)
if search_value is None:
return numeric_values
else:
return numeric_values.iloc[0]
else:
return None
def get_svodka_og(self, pm_dict, id, codes, columns, search_value=None):
''' Служебная функция получения данных по одному ОГ '''
result = {}
# Безопасно получаем данные, проверяя их наличие
fact_df = pm_dict.get('facts', {}).get(id) if 'facts' in pm_dict else None
plan_df = pm_dict.get('plans', {}).get(id) if 'plans' in pm_dict else None
# Определяем, какие столбцы из какого датафрейма брать
for col in columns:
col_result = {}
if col in ['ПП', 'БП']:
if plan_df is None:
print(f"❌ Невозможно обработать '{col}': нет данных плана для {id}")
col_result = {code: None for code in codes}
else:
for code in codes:
val = self.get_svodka_value(plan_df, code, col, search_value)
col_result[code] = val
elif col in ['ТБ', 'СЭБ', 'НЭБ']:
if fact_df is None:
print(f"❌ Невозможно обработать '{col}': нет данных факта для {id}")
col_result = {code: None for code in codes}
else:
for code in codes:
val = self.get_svodka_value(fact_df, code, col, search_value)
col_result[code] = val
else:
print(f"⚠️ Неизвестный столбец: '{col}'. Пропускаем.")
col_result = {code: None for code in codes}
result[col] = col_result
return result
def get_svodka_total(self, pm_dict, codes, columns, search_value=None):
''' Служебная функция агрегации данные по всем ОГ '''
total_result = {}
for name, og_id in OG_IDS.items():
if og_id == 'BASH':
continue
# print(f"📊 Обработка: {name} ({og_id})")
try:
data = self.get_svodka_og(
pm_dict,
og_id,
codes,
columns,
search_value
)
total_result[og_id] = data
except Exception as e:
print(f"❌ Ошибка при обработке {name} ({og_id}): {e}")
total_result[og_id] = None
return total_result
# Убираем старый метод get_value, так как он теперь в базовом классе

View File

@@ -1,14 +1,7 @@
import pandas as pd import pandas as pd
import os
import json
import zipfile
import tempfile
import shutil
from typing import Dict, Any, List, Optional
from core.ports import ParserPort from core.ports import ParserPort
from adapters.pconfig import SINGLE_OGS, replace_id_in_path, find_header_row, data_to_json from adapters.pconfig import OG_IDS, replace_id_in_path, data_to_json
class SvodkaPMParser(ParserPort): class SvodkaPMParser(ParserPort):
@@ -16,18 +9,14 @@ class SvodkaPMParser(ParserPort):
name = "Сводки ПМ" name = "Сводки ПМ"
def __init__(self):
super().__init__()
self._register_default_getters()
def _register_default_getters(self): def _register_default_getters(self):
"""Регистрация геттеров для Сводки ПМ""" """Регистрация геттеров по умолчанию"""
self.register_getter( self.register_getter(
name="single_og", name="single_og",
method=self._get_single_og, method=self._get_single_og,
required_params=["id", "codes", "columns"], required_params=["id", "codes", "columns"],
optional_params=["search"], optional_params=["search"],
description="Получение данных по одному ОГ из сводки ПМ" description="Получение данных по одному ОГ"
) )
self.register_getter( self.register_getter(
@@ -35,121 +24,79 @@ class SvodkaPMParser(ParserPort):
method=self._get_total_ogs, method=self._get_total_ogs,
required_params=["codes", "columns"], required_params=["codes", "columns"],
optional_params=["search"], optional_params=["search"],
description="Получение данных по всем ОГ из сводки ПМ" description="Получение данных по всем ОГ"
) )
def parse(self, file_path: str, params: dict) -> Dict[str, pd.DataFrame]: def _get_single_og(self, params: dict):
"""Парсинг ZIP архива со сводками ПМ и возврат словаря с DataFrame""" """Получение данных по одному ОГ (обертка для совместимости)"""
# Проверяем расширение файла og_id = params["id"]
if not file_path.lower().endswith('.zip'): codes = params["codes"]
raise ValueError(f"Ожидается ZIP архив: {file_path}") columns = params["columns"]
search = params.get("search")
# Создаем временную директорию для разархивирования if not isinstance(codes, list):
temp_dir = tempfile.mkdtemp() raise ValueError("Поле 'codes' должно быть списком")
if not isinstance(columns, list):
raise ValueError("Поле 'columns' должно быть списком")
try: # Здесь нужно получить DataFrame из self.df, но пока используем старую логику
# Разархивируем файл # TODO: Переделать под новую архитектуру
with zipfile.ZipFile(file_path, 'r') as zip_ref: return self.get_svodka_og(self.df, og_id, codes, columns, search)
zip_ref.extractall(temp_dir)
print(f"📦 Архив разархивирован в: {temp_dir}")
# Посмотрим, что находится в архиве def _get_total_ogs(self, params: dict):
print(f"🔍 Содержимое архива:") """Получение данных по всем ОГ (обертка для совместимости)"""
for root, dirs, files in os.walk(temp_dir): codes = params["codes"]
level = root.replace(temp_dir, '').count(os.sep) columns = params["columns"]
indent = ' ' * 2 * level search = params.get("search")
print(f"{indent}{os.path.basename(root)}/")
subindent = ' ' * 2 * (level + 1)
for file in files:
print(f"{subindent}{file}")
# Создаем словари для хранения данных как в оригинале if not isinstance(codes, list):
df_pm_facts = {} # Словарь с данными факта, ключ - ID ОГ raise ValueError("Поле 'codes' должно быть списком")
df_pm_plans = {} # Словарь с данными плана, ключ - ID ОГ if not isinstance(columns, list):
raise ValueError("Поле 'columns' должно быть списком")
# Ищем файлы в архиве (адаптируемся к реальной структуре) # TODO: Переделать под новую архитектуру
fact_files = [] return self.get_svodka_total(self.df, codes, columns, search)
plan_files = []
for root, dirs, files in os.walk(temp_dir): def parse(self, file_path: str, params: dict) -> pd.DataFrame:
for file in files: """Парсинг файла и возврат DataFrame"""
if file.lower().endswith(('.xlsx', '.xlsm')): # Сохраняем DataFrame для использования в геттерах
full_path = os.path.join(root, file) self.df = self.parse_svodka_pm_files(file_path, params)
if 'fact' in file.lower() or 'факт' in file.lower(): return self.df
fact_files.append(full_path)
elif 'plan' in file.lower() or 'план' in file.lower():
plan_files.append(full_path)
print(f"📊 Найдено файлов факта: {len(fact_files)}") def find_header_row(self, file: str, sheet: str, search_value: str = "Итого", max_rows: int = 50) -> int:
print(f"📊 Найдено файлов плана: {len(plan_files)}") """Определения индекса заголовка в excel по ключевому слову"""
# Читаем первые max_rows строк без заголовков
df_temp = pd.read_excel(
file,
sheet_name=sheet,
header=None,
nrows=max_rows,
engine='openpyxl'
)
# Обрабатываем найденные файлы # Ищем строку, где хотя бы в одном столбце встречается искомое значение
for fact_file in fact_files: for idx, row in df_temp.iterrows():
# Извлекаем ID ОГ из имени файла if row.astype(str).str.strip().str.contains(f"^{search_value}$", case=False, regex=True).any():
filename = os.path.basename(fact_file) print(f"Заголовок найден в строке {idx} (Excel: {idx + 1})")
# Ищем паттерн типа svodka_fact_pm_SNPZ.xlsm return idx # 0-based index — то, что нужно для header=
if 'svodka_fact_pm_' in filename:
og_id = filename.replace('svodka_fact_pm_', '').replace('.xlsx', '').replace('.xlsm', '')
if og_id in SINGLE_OGS:
print(f'📊 Загрузка факта: {fact_file} (ОГ: {og_id})')
df_pm_facts[og_id] = self._parse_svodka_pm(fact_file, 'Сводка Нефтепереработка')
print(f"✅ Факт загружен для {og_id}")
for plan_file in plan_files: raise ValueError(f"Не найдена строка с заголовком '{search_value}' в первых {max_rows} строках.")
# Извлекаем ID ОГ из имени файла
filename = os.path.basename(plan_file)
# Ищем паттерн типа svodka_plan_pm_SNPZ.xlsm
if 'svodka_plan_pm_' in filename:
og_id = filename.replace('svodka_plan_pm_', '').replace('.xlsx', '').replace('.xlsm', '')
if og_id in SINGLE_OGS:
print(f'📊 Загрузка плана: {plan_file} (ОГ: {og_id})')
df_pm_plans[og_id] = self._parse_svodka_pm(plan_file, 'Сводка Нефтепереработка')
print(f"✅ План загружен для {og_id}")
# Инициализируем None для ОГ, для которых файлы не найдены def parse_svodka_pm(self, file, sheet, header_num=None):
for og_id in SINGLE_OGS: ''' Собственно парсер отчетов одного ОГ для БП, ПП и факта '''
if og_id == 'BASH': # Автоопределение header_num, если не передан
continue if header_num is None:
if og_id not in df_pm_facts: header_num = self.find_header_row(file, sheet, search_value="Итого")
df_pm_facts[og_id] = None
if og_id not in df_pm_plans:
df_pm_plans[og_id] = None
# Читаем заголовки header_num и 1-2 строки данных, чтобы найти INDICATOR_ID
df_probe = pd.read_excel(
# Возвращаем словарь с данными (как в оригинале) file,
result = { sheet_name=sheet,
'df_pm_facts': df_pm_facts, header=header_num,
'df_pm_plans': df_pm_plans usecols=None,
} nrows=2,
engine='openpyxl'
print(f"🎯 Обработано ОГ: {len([k for k, v in df_pm_facts.items() if v is not None])} факт, {len([k for k, v in df_pm_plans.items() if v is not None])} план") )
return result
finally:
# Удаляем временную директорию
shutil.rmtree(temp_dir, ignore_errors=True)
print(f"🗑️ Временная директория удалена: {temp_dir}")
def _parse_svodka_pm(self, file_path: str, sheet_name: str, header_num: Optional[int] = None) -> pd.DataFrame:
"""Парсинг отчетов одного ОГ для БП, ПП и факта"""
try:
# Автоопределение header_num, если не передан
if header_num is None:
header_num = find_header_row(file_path, sheet_name, search_value="Итого")
# Читаем заголовки header_num и 1-2 строки данных, чтобы найти INDICATOR_ID
df_probe = pd.read_excel(
file_path,
sheet_name=sheet_name,
header=header_num,
usecols=None,
nrows=2,
engine='openpyxl' # Явно указываем движок
)
except Exception as e:
raise ValueError(f"Ошибка при чтении файла {file_path}: {str(e)}")
if df_probe.shape[0] == 0: if df_probe.shape[0] == 0:
raise ValueError("Файл пуст или не содержит данных.") raise ValueError("Файл пуст или не содержит данных.")
@@ -162,15 +109,16 @@ class SvodkaPMParser(ParserPort):
raise ValueError('Не найден столбец со значением "INDICATOR_ID" в первой строке данных.') raise ValueError('Не найден столбец со значением "INDICATOR_ID" в первой строке данных.')
indicator_col_name = indicator_cols.index[0] indicator_col_name = indicator_cols.index[0]
print(f"Найден INDICATOR_ID в столбце: {indicator_col_name}")
# Читаем весь лист # Читаем весь лист
df_full = pd.read_excel( df_full = pd.read_excel(
file_path, file,
sheet_name=sheet_name, sheet_name=sheet,
header=header_num, header=header_num,
usecols=None, usecols=None,
index_col=None, index_col=None,
engine='openpyxl' # Явно указываем движок engine='openpyxl'
) )
if indicator_col_name not in df_full.columns: if indicator_col_name not in df_full.columns:
@@ -187,18 +135,19 @@ class SvodkaPMParser(ParserPort):
itogo_idx = header_list.index("Итого") itogo_idx = header_list.index("Итого")
num_cols_needed = itogo_idx + 2 num_cols_needed = itogo_idx + 2
except ValueError: except ValueError:
print('Столбец "Итого" не найден. Оставляем все столбцы.')
num_cols_needed = len(header_list) num_cols_needed = len(header_list)
num_cols_needed = min(num_cols_needed, len(header_list)) num_cols_needed = min(num_cols_needed, len(header_list))
df_final = df_full.iloc[:, :num_cols_needed] df_final = df_full.iloc[:, :num_cols_needed]
# Удаление полностью пустых столбцов # === Удаление полностью пустых столбцов ===
df_clean = df_final.replace(r'^\s*$', pd.NA, regex=True) df_clean = df_final.replace(r'^\s*$', pd.NA, regex=True)
df_clean = df_clean.where(pd.notnull(df_clean), pd.NA) df_clean = df_clean.where(pd.notnull(df_clean), pd.NA)
non_empty_mask = df_clean.notna().any() non_empty_mask = df_clean.notna().any()
df_final = df_final.loc[:, non_empty_mask] df_final = df_final.loc[:, non_empty_mask]
# Обработка заголовков: Unnamed и "Итого" → "Итого" # === Обработка заголовков: Unnamed и "Итого" → "Итого" ===
new_columns = [] new_columns = []
last_good_name = None last_good_name = None
for col in df_final.columns: for col in df_final.columns:
@@ -207,152 +156,109 @@ class SvodkaPMParser(ParserPort):
# Проверяем, является ли колонка пустой/некорректной # Проверяем, является ли колонка пустой/некорректной
is_empty_or_unnamed = col_str.startswith('Unnamed') or col_str == '' or col_str.lower() == 'nan' is_empty_or_unnamed = col_str.startswith('Unnamed') or col_str == '' or col_str.lower() == 'nan'
# Проверяем, начинается ли на "Итого" if is_empty_or_unnamed:
if col_str.startswith('Итого'): # Если это пустая колонка, используем последнее хорошее имя
current_name = 'Итого' if last_good_name:
last_good_name = current_name new_columns.append(last_good_name)
new_columns.append(current_name) else:
elif is_empty_or_unnamed: # Если нет хорошего имени, пропускаем
# Используем последнее хорошее имя continue
new_columns.append(last_good_name)
else: else:
# Имя, полученное из excel # Это хорошая колонка
last_good_name = col_str last_good_name = col_str
new_columns.append(col_str) new_columns.append(col_str)
# Применяем новые заголовки
df_final.columns = new_columns df_final.columns = new_columns
return df_final return df_final
def _get_svodka_value(self, df_svodka: pd.DataFrame, og_id: str, code: int, search_value: Optional[str] = None): def parse_svodka_pm_files(self, zip_path: str, params: dict) -> dict:
"""Служебная функция для простой выборке по сводке""" """Парсинг ZIP архива со сводками ПМ"""
print(f"🔍 DEBUG: Ищем код '{code}' для ОГ '{og_id}' в DataFrame с {len(df_svodka)} строками") import zipfile
print(f"🔍 DEBUG: Первая строка данных: {df_svodka.iloc[0].tolist()}") pm_dict = {
print(f"🔍 DEBUG: Доступные индексы: {list(df_svodka.index)}") "facts": {},
print(f"🔍 DEBUG: Доступные столбцы: {list(df_svodka.columns)}") "plans": {}
}
excel_fact_template = 'svodka_fact_pm_ID.xlsm'
excel_plan_template = 'svodka_plan_pm_ID.xlsx'
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
file_list = zip_ref.namelist()
for name, id in OG_IDS.items():
if id == 'BASH':
continue # пропускаем BASH
# Проверяем, есть ли код в индексе current_fact = replace_id_in_path(excel_fact_template, id)
if code not in df_svodka.index: fact_candidates = [f for f in file_list if current_fact in f]
print(f"⚠️ Код '{code}' не найден в индексе") if len(fact_candidates) == 1:
return 0 print(f'Загрузка {current_fact}')
with zip_ref.open(fact_candidates[0]) as excel_file:
pm_dict['facts'][id] = self.parse_svodka_pm(excel_file, 'Сводка Нефтепереработка')
print(f"✅ Факт загружен: {current_fact}")
else:
print(f"⚠️ Файл не найден (Факт): {current_fact}")
pm_dict['facts'][id] = None
# Получаем позицию строки с кодом current_plan = replace_id_in_path(excel_plan_template, id)
code_row_loc = df_svodka.index.get_loc(code) plan_candidates = [f for f in file_list if current_plan in f]
print(f"🔍 DEBUG: Код '{code}' в позиции {code_row_loc}") if len(plan_candidates) == 1:
print(f'Загрузка {current_plan}')
with zip_ref.open(plan_candidates[0]) as excel_file:
pm_dict['plans'][id] = self.parse_svodka_pm(excel_file, 'Сводка Нефтепереработка')
print(f"✅ План загружен: {current_plan}")
else:
print(f"⚠️ Файл не найден (План): {current_plan}")
pm_dict['plans'][id] = None
# Определяем позиции для поиска return pm_dict
def get_svodka_value(self, df_svodka, code, search_value, search_value_filter=None):
''' Служебная функция получения значения по коду и столбцу '''
row_index = code
mask_value = df_svodka.iloc[0] == code
if search_value is None: if search_value is None:
# Ищем все позиции кроме "Итого" и None (первый столбец с заголовком) mask_name = df_svodka.columns != 'Итого'
target_positions = []
for i, col_name in enumerate(df_svodka.iloc[0]):
if col_name != 'Итого' and col_name is not None:
target_positions.append(i)
else: else:
# Ищем позиции в первой строке, где есть нужное название mask_name = df_svodka.columns == search_value
target_positions = []
for i, col_name in enumerate(df_svodka.iloc[0]):
if col_name == search_value:
target_positions.append(i)
print(f"🔍 DEBUG: Найдены позиции для '{search_value}': {target_positions[:5]}...") # Убедимся, что маски совпадают по длине
print(f"🔍 DEBUG: Позиции в первой строке: {target_positions[:5]}...") if len(mask_value) != len(mask_name):
raise ValueError(
f"Несоответствие длин масок: mask_value={len(mask_value)}, mask_name={len(mask_name)}"
)
print(f"🔍 DEBUG: Ищем столбцы с названием '{search_value}'") final_mask = mask_value & mask_name # булевая маска по позициям столбцов
print(f"🔍 DEBUG: Целевые позиции: {target_positions[:10]}...") col_positions = final_mask.values # numpy array или Series булевых значений
if not target_positions: if not final_mask.any():
print(f"⚠️ Позиции '{search_value}' не найдены") print(f"Нет столбцов с '{code}' в первой строке и именем, не начинающимся с '{search_value}'")
return 0 return 0
# Извлекаем значения из найденных позиций
values = []
for pos in target_positions:
# Берем значение из пересечения строки с кодом и позиции столбца
value = df_svodka.iloc[code_row_loc, pos]
# Если это Series, берем первое значение
if isinstance(value, pd.Series):
if len(value) > 0:
# Берем первое не-NaN значение
first_valid = value.dropna().iloc[0] if not value.dropna().empty else 0
values.append(first_valid)
else:
values.append(0)
else:
values.append(value)
# Преобразуем в числовой формат
numeric_values = pd.to_numeric(values, errors='coerce')
print(f"🔍 DEBUG: Числовые значения (первые 5): {numeric_values.tolist()[:5]}")
# Попробуем альтернативное преобразование
try:
# Если pandas не может преобразовать, попробуем вручную
manual_values = []
for v in values:
if pd.isna(v) or v is None:
manual_values.append(0)
else:
try:
# Пробуем преобразовать в float
manual_values.append(float(str(v).replace(',', '.')))
except (ValueError, TypeError):
manual_values.append(0)
print(f"🔍 DEBUG: Ручное преобразование (первые 5): {manual_values[:5]}")
numeric_values = pd.Series(manual_values)
except Exception as e:
print(f"⚠️ Ошибка при ручном преобразовании: {e}")
# Используем исходные значения
numeric_values = pd.Series([0 if pd.isna(v) or v is None else v for v in values])
# Агрегация данных (NaN игнорируются)
if search_value is None:
# Возвращаем массив всех значений (игнорируя NaN)
if len(numeric_values) > 0:
# Фильтруем NaN значения и возвращаем как список
valid_values = numeric_values.dropna()
if len(valid_values) > 0:
return valid_values.tolist()
else:
return []
else:
return []
else: else:
# Возвращаем массив всех значений (игнорируя NaN) if row_index in df_svodka.index:
if len(numeric_values) > 0: # Получаем позицию строки
# Фильтруем NaN значения и возвращаем как список row_loc = df_svodka.index.get_loc(row_index)
valid_values = numeric_values.dropna()
if len(valid_values) > 0:
return valid_values.tolist()
else:
return []
else:
return []
def _get_svodka_og(self, og_id: str, codes: List[int], columns: List[str], search_value: Optional[str] = None): # Извлекаем значения по позициям столбцов
"""Служебная функция получения данных по одному ОГ""" values = df_svodka.iloc[row_loc, col_positions]
# Преобразуем в числовой формат
numeric_values = pd.to_numeric(values, errors='coerce')
# Агрегация данных (NaN игнорируются)
if search_value is None:
return numeric_values
else:
return numeric_values.iloc[0]
else:
return None
def get_svodka_og(self, pm_dict, id, codes, columns, search_value=None):
''' Служебная функция получения данных по одному ОГ '''
result = {} result = {}
# Получаем данные из сохраненных словарей (через self.df) fact_df = pm_dict['facts'][id]
if not hasattr(self, 'df') or self.df is None: plan_df = pm_dict['plans'][id]
print("❌ Данные не загружены. Сначала загрузите ZIP архив.")
return {col: {str(code): None for code in codes} for col in columns}
# Извлекаем словари из сохраненных данных
df_pm_facts = self.df.get('df_pm_facts', {})
df_pm_plans = self.df.get('df_pm_plans', {})
# Получаем данные для конкретного ОГ
fact_df = df_pm_facts.get(og_id)
plan_df = df_pm_plans.get(og_id)
print(f"🔍 ===== НАЧАЛО ОБРАБОТКИ ОГ {og_id} =====")
print(f"🔍 Коды: {codes}")
print(f"🔍 Столбцы: {columns}")
print(f"🔍 Получены данные для {og_id}: факт={'' if fact_df is not None else ''}, план={'' if plan_df is not None else ''}")
# Определяем, какие столбцы из какого датафрейма брать # Определяем, какие столбцы из какого датафрейма брать
for col in columns: for col in columns:
@@ -360,91 +266,49 @@ class SvodkaPMParser(ParserPort):
if col in ['ПП', 'БП']: if col in ['ПП', 'БП']:
if plan_df is None: if plan_df is None:
print(f"❌ Невозможно обработать '{col}': нет данных плана для {og_id}") print(f"❌ Невозможно обработать '{col}': нет данных плана для {id}")
else: else:
print(f"🔍 DEBUG: ===== ОБРАБАТЫВАЕМ '{col}' ИЗ ДАННЫХ ПЛАНА =====")
for code in codes: for code in codes:
print(f"🔍 DEBUG: --- Код {code} для {col} ---") val = self.get_svodka_value(plan_df, code, col, search_value)
val = self._get_svodka_value(plan_df, og_id, code, col) col_result[code] = val
col_result[str(code)] = val
print(f"🔍 DEBUG: ===== ЗАВЕРШИЛИ ОБРАБОТКУ '{col}' =====")
elif col in ['ТБ', 'СЭБ', 'НЭБ']: elif col in ['ТБ', 'СЭБ', 'НЭБ']:
if fact_df is None: if fact_df is None:
print(f"❌ Невозможно обработать '{col}': нет данных факта для {og_id}") print(f"❌ Невозможно обработать '{col}': нет данных факта для {id}")
else: else:
for code in codes: for code in codes:
val = self._get_svodka_value(fact_df, og_id, code, col) val = self.get_svodka_value(fact_df, code, col, search_value)
col_result[str(code)] = val col_result[code] = val
else: else:
print(f"⚠️ Неизвестный столбец: '{col}'. Пропускаем.") print(f"⚠️ Неизвестный столбец: '{col}'. Пропускаем.")
col_result = {str(code): None for code in codes} col_result = {code: None for code in codes}
result[col] = col_result result[col] = col_result
return result return result
def _get_single_og(self, params: Dict[str, Any]) -> str: def get_svodka_total(self, pm_dict, codes, columns, search_value=None):
"""API функция для получения данных по одному ОГ""" ''' Служебная функция агрегации данные по всем ОГ '''
# Если на входе строка — парсим как JSON
if isinstance(params, str):
try:
params = json.loads(params)
except json.JSONDecodeError as e:
raise ValueError(f"Некорректный JSON: {e}")
# Проверяем структуру
if not isinstance(params, dict):
raise TypeError("Конфиг должен быть словарём или JSON-строкой")
og_id = params.get("id")
codes = params.get("codes")
columns = params.get("columns")
search = params.get("search")
if not isinstance(codes, list):
raise ValueError("Поле 'codes' должно быть списком")
if not isinstance(columns, list):
raise ValueError("Поле 'columns' должно быть списком")
data = self._get_svodka_og(og_id, codes, columns, search)
json_result = data_to_json(data)
return json_result
def _get_total_ogs(self, params: Dict[str, Any]) -> str:
"""API функция для получения данных по всем ОГ"""
# Если на входе строка — парсим как JSON
if isinstance(params, str):
try:
params = json.loads(params)
except json.JSONDecodeError as e:
raise ValueError(f"❌Некорректный JSON: {e}")
# Проверяем структуру
if not isinstance(params, dict):
raise TypeError("Конфиг должен быть словарём или JSON-строкой")
codes = params.get("codes")
columns = params.get("columns")
search = params.get("search")
if not isinstance(codes, list):
raise ValueError("Поле 'codes' должно быть списком")
if not isinstance(columns, list):
raise ValueError("Поле 'columns' должно быть списком")
total_result = {} total_result = {}
for og_id in SINGLE_OGS: for name, og_id in OG_IDS.items():
if og_id == 'BASH': if og_id == 'BASH':
continue continue
# print(f"📊 Обработка: {name} ({og_id})")
try: try:
data = self._get_svodka_og(og_id, codes, columns, search) data = self.get_svodka_og(
pm_dict,
og_id,
codes,
columns,
search_value
)
total_result[og_id] = data total_result[og_id] = data
except Exception as e: except Exception as e:
print(f"❌ Ошибка при обработке {og_id}: {e}") print(f"❌ Ошибка при обработке {name} ({og_id}): {e}")
total_result[og_id] = None total_result[og_id] = None
json_result = data_to_json(total_result) return total_result
return json_result
# Убираем старый метод get_value, так как он теперь в базовом классе

View File

@@ -3,7 +3,6 @@ from functools import lru_cache
import json import json
import numpy as np import numpy as np
import pandas as pd import pandas as pd
import os
OG_IDS = { OG_IDS = {
"Комсомольский НПЗ": "KNPZ", "Комсомольский НПЗ": "KNPZ",
@@ -23,37 +22,8 @@ OG_IDS = {
"Красноленинский НПЗ": "KLNPZ", "Красноленинский НПЗ": "KLNPZ",
"Пурнефтепереработка": "PurNP", "Пурнефтепереработка": "PurNP",
"ЯНОС": "YANOS", "ЯНОС": "YANOS",
"Уфанефтехим": "UNH",
"РНПК": "RNPK",
"КмсНПЗ": "KNPZ",
"АНХК": "ANHK",
"НК НПЗ": "NovKuybNPZ",
"КНПЗ": "KuybNPZ",
"СНПЗ": "CyzNPZ",
"Нижневаторское НПО": "NVNPO",
"ПурНП": "PurNP",
} }
SINGLE_OGS = [
"KNPZ",
"ANHK",
"AchNPZ",
"BASH",
"UNPZ",
"UNH",
"NOV",
"NovKuybNPZ",
"KuybNPZ",
"CyzNPZ",
"TuapsNPZ",
"SNPZ",
"RNPK",
"NVNPO",
"KLNPZ",
"PurNP",
"YANOS",
]
SNPZ_IDS = { SNPZ_IDS = {
"Висбрекинг": "SNPZ.VISB", "Висбрекинг": "SNPZ.VISB",
"Изомеризация": "SNPZ.IZOM", "Изомеризация": "SNPZ.IZOM",
@@ -70,18 +40,7 @@ SNPZ_IDS = {
def replace_id_in_path(file_path, new_id): def replace_id_in_path(file_path, new_id):
# Заменяем 'ID' на новое значение return file_path.replace('ID', str(new_id))
modified_path = file_path.replace('ID', str(new_id)) + '.xlsx'
# Проверяем, существует ли файл
if not os.path.exists(modified_path):
# Меняем расширение на .xlsm
directory, filename = os.path.split(modified_path)
name, ext = os.path.splitext(filename)
new_filename = name + '.xlsm'
modified_path = os.path.join(directory, new_filename)
return modified_path
def get_table_name(exel): def get_table_name(exel):
@@ -150,25 +109,6 @@ def get_id_by_name(name, dictionary):
return best_match return best_match
def find_header_row(file, sheet, search_value="Итого", max_rows=50):
''' Определения индекса заголовка в exel по ключевому слову '''
# Читаем первые max_rows строк без заголовков
df_temp = pd.read_excel(
file,
sheet_name=sheet,
header=None,
nrows=max_rows
)
# Ищем строку, где хотя бы в одном столбце встречается искомое значение
for idx, row in df_temp.iterrows():
if row.astype(str).str.strip().str.contains(f"^{search_value}$", case=False, regex=True).any():
print(f"Заголовок найден в строке {idx} (Excel: {idx + 1})")
return idx # 0-based index — то, что нужно для header=
raise ValueError(f"Не найдена строка с заголовком '{search_value}' в первых {max_rows} строках.")
def data_to_json(data, indent=2, ensure_ascii=False): def data_to_json(data, indent=2, ensure_ascii=False):
""" """
Полностью безопасная сериализация данных в JSON. Полностью безопасная сериализация данных в JSON.
@@ -213,18 +153,11 @@ def data_to_json(data, indent=2, ensure_ascii=False):
# --- рекурсия по dict и list --- # --- рекурсия по dict и list ---
elif isinstance(obj, dict): elif isinstance(obj, dict):
# Обрабатываем только значения, ключи оставляем как строки return {
converted = {} key: convert_obj(value)
for k, v in obj.items(): for key, value in obj.items()
if is_nan_like(k): if not is_nan_like(key) # фильтруем NaN в ключах (недопустимы в JSON)
continue # ключи не могут быть null в JSON }
# Превращаем ключ в строку, но не пытаемся интерпретировать как число
key_str = str(k)
converted[key_str] = convert_obj(v) # только значение проходит через convert_obj
# Если все значения 0.0 — считаем, что данных нет, т.к. возможно ожидается массив.
if converted and all(v == 0.0 for v in converted.values()):
return None
return converted
elif isinstance(obj, list): elif isinstance(obj, list):
return [convert_obj(item) for item in obj] return [convert_obj(item) for item in obj]
@@ -242,6 +175,7 @@ def data_to_json(data, indent=2, ensure_ascii=False):
try: try:
cleaned_data = convert_obj(data) cleaned_data = convert_obj(data)
return json.dumps(cleaned_data, indent=indent, ensure_ascii=ensure_ascii) cleaned_data_str = json.dumps(cleaned_data, indent=indent, ensure_ascii=ensure_ascii)
return cleaned_data
except Exception as e: except Exception as e:
raise ValueError(f"Не удалось сериализовать данные в JSON: {e}") raise ValueError(f"Не удалось сериализовать данные в JSON: {e}")

View File

@@ -323,7 +323,7 @@ async def get_svodka_pm_single_og(
try: try:
# Создаем запрос # Создаем запрос
request_dict = request_data.model_dump() request_dict = request_data.model_dump()
request_dict['mode'] = 'single_og' request_dict['mode'] = 'single'
request = DataRequest( request = DataRequest(
report_type='svodka_pm', report_type='svodka_pm',
get_params=request_dict get_params=request_dict
@@ -377,7 +377,7 @@ async def get_svodka_pm_total_ogs(
try: try:
# Создаем запрос # Создаем запрос
request_dict = request_data.model_dump() request_dict = request_data.model_dump()
request_dict['mode'] = 'total_ogs' request_dict['mode'] = 'total'
request = DataRequest( request = DataRequest(
report_type='svodka_pm', report_type='svodka_pm',
get_params=request_dict get_params=request_dict
@@ -804,7 +804,7 @@ async def get_monitoring_fuel_total_by_columns(
try: try:
# Создаем запрос # Создаем запрос
request_dict = request_data.model_dump() request_dict = request_data.model_dump()
request_dict['mode'] = 'total_by_columns' request_dict['mode'] = 'total'
request = DataRequest( request = DataRequest(
report_type='monitoring_fuel', report_type='monitoring_fuel',
get_params=request_dict get_params=request_dict
@@ -849,7 +849,7 @@ async def get_monitoring_fuel_month_by_code(
try: try:
# Создаем запрос # Создаем запрос
request_dict = request_data.model_dump() request_dict = request_data.model_dump()
request_dict['mode'] = 'month_by_code' request_dict['mode'] = 'month'
request = DataRequest( request = DataRequest(
report_type='monitoring_fuel', report_type='monitoring_fuel',
get_params=request_dict get_params=request_dict

View File

@@ -25,7 +25,7 @@ class OGID(str, Enum):
class SvodkaPMSingleOGRequest(BaseModel): class SvodkaPMSingleOGRequest(BaseModel):
id: str = Field( id: OGID = Field(
..., ...,
description="Идентификатор МА для запрашиваемого ОГ", description="Идентификатор МА для запрашиваемого ОГ",
example="SNPZ" example="SNPZ"

View File

@@ -1,140 +0,0 @@
"""
Упрощенные утилиты для работы со схемами Pydantic
"""
from typing import List, Dict, Any, Type
from pydantic import BaseModel
import inspect
def get_required_fields_from_schema(schema_class: Type[BaseModel]) -> List[str]:
"""
Извлекает список обязательных полей из схемы Pydantic
Args:
schema_class: Класс схемы Pydantic
Returns:
Список имен обязательных полей
"""
required_fields = []
# Используем model_fields для Pydantic v2 или __fields__ для v1
if hasattr(schema_class, 'model_fields'):
fields = schema_class.model_fields
else:
fields = schema_class.__fields__
for field_name, field_info in fields.items():
# В Pydantic v2 есть метод is_required()
if hasattr(field_info, 'is_required'):
if field_info.is_required():
required_fields.append(field_name)
elif hasattr(field_info, 'required'):
if field_info.required:
required_fields.append(field_name)
else:
# Fallback для старых версий - проверяем наличие default
has_default = False
if hasattr(field_info, 'default'):
has_default = field_info.default is not ...
elif hasattr(field_info, 'default_factory'):
has_default = field_info.default_factory is not None
if not has_default:
required_fields.append(field_name)
return required_fields
def get_optional_fields_from_schema(schema_class: Type[BaseModel]) -> List[str]:
"""
Извлекает список необязательных полей из схемы Pydantic
Args:
schema_class: Класс схемы Pydantic
Returns:
Список имен необязательных полей
"""
optional_fields = []
# Используем model_fields для Pydantic v2 или __fields__ для v1
if hasattr(schema_class, 'model_fields'):
fields = schema_class.model_fields
else:
fields = schema_class.__fields__
for field_name, field_info in fields.items():
# В Pydantic v2 есть метод is_required()
if hasattr(field_info, 'is_required'):
if not field_info.is_required():
optional_fields.append(field_name)
elif hasattr(field_info, 'required'):
if not field_info.required:
optional_fields.append(field_name)
else:
# Fallback для старых версий - проверяем наличие default
has_default = False
if hasattr(field_info, 'default'):
has_default = field_info.default is not ...
elif hasattr(field_info, 'default_factory'):
has_default = field_info.default_factory is not None
if has_default:
optional_fields.append(field_name)
return optional_fields
def register_getter_from_schema(parser_instance, getter_name: str, method: callable,
schema_class: Type[BaseModel], description: str = ""):
"""
Регистрирует геттер в парсере, используя схему Pydantic для определения параметров
Args:
parser_instance: Экземпляр парсера
getter_name: Имя геттера
method: Метод для выполнения
schema_class: Класс схемы Pydantic
description: Описание геттера (если не указано, берется из docstring метода)
"""
# Извлекаем параметры из схемы
required_params = get_required_fields_from_schema(schema_class)
optional_params = get_optional_fields_from_schema(schema_class)
# Если описание не указано, берем из docstring метода
if not description:
description = inspect.getdoc(method) or ""
# Регистрируем геттер
parser_instance.register_getter(
name=getter_name,
method=method,
required_params=required_params,
optional_params=optional_params,
description=description
)
def validate_params_with_schema(params: Dict[str, Any], schema_class: Type[BaseModel]) -> Dict[str, Any]:
"""
Валидирует параметры с помощью схемы Pydantic
Args:
params: Словарь параметров
schema_class: Класс схемы Pydantic
Returns:
Валидированные параметры
Raises:
ValidationError: Если параметры не прошли валидацию
"""
try:
# Создаем экземпляр схемы для валидации
validated_data = schema_class(**params)
return validated_data.dict()
except Exception as e:
raise ValueError(f"Ошибка валидации параметров: {str(e)}")

View File

@@ -43,7 +43,7 @@ class ReportService:
try: try:
# Парсим файл # Парсим файл
parse_params = request.parse_params or {} parse_params = request.parse_params or {}
parse_result = parser.parse(temp_file_path, parse_params) df = parser.parse(temp_file_path, parse_params)
# Генерируем object_id # Генерируем object_id
object_id = f"nin_excel_data_{request.report_type}" object_id = f"nin_excel_data_{request.report_type}"
@@ -54,7 +54,7 @@ class ReportService:
print(f"Старый объект удален: {object_id}") print(f"Старый объект удален: {object_id}")
# Сохраняем в хранилище # Сохраняем в хранилище
if self.storage.save_dataframe(parse_result, object_id): if self.storage.save_dataframe(df, object_id):
return UploadResult( return UploadResult(
success=True, success=True,
message="Отчет успешно загружен", message="Отчет успешно загружен",
@@ -89,9 +89,9 @@ class ReportService:
message=f"Отчет типа '{request.report_type}' не найден. Возможно, MinIO недоступен или отчет не был загружен." message=f"Отчет типа '{request.report_type}' не найден. Возможно, MinIO недоступен или отчет не был загружен."
) )
# Загружаем данные из хранилища # Загружаем DataFrame из хранилища
loaded_data = self.storage.load_dataframe(object_id) df = self.storage.load_dataframe(object_id)
if loaded_data is None: if df is None:
return DataResult( return DataResult(
success=False, success=False,
message="Ошибка при загрузке данных из хранилища. Возможно, MinIO недоступен." message="Ошибка при загрузке данных из хранилища. Возможно, MinIO недоступен."
@@ -100,84 +100,25 @@ class ReportService:
# Получаем парсер # Получаем парсер
parser = get_parser(request.report_type) parser = get_parser(request.report_type)
# Устанавливаем данные в парсер для использования в геттерах # Устанавливаем DataFrame в парсер для использования в геттерах
parser.df = loaded_data parser.df = df
print(f"🔍 DEBUG: ReportService.get_data - установлены данные в парсер {request.report_type}")
# Проверяем тип загруженных данных
if hasattr(loaded_data, 'shape'):
# Это DataFrame
print(f"🔍 DEBUG: DataFrame shape: {loaded_data.shape}")
print(f"🔍 DEBUG: DataFrame columns: {list(loaded_data.columns) if not loaded_data.empty else 'Empty'}")
elif isinstance(loaded_data, dict):
# Это словарь (для парсера ПМ)
print(f"🔍 DEBUG: Словарь с ключами: {list(loaded_data.keys())}")
else:
print(f"🔍 DEBUG: Неизвестный тип данных: {type(loaded_data)}")
# Получаем параметры запроса # Получаем параметры запроса
get_params = request.get_params or {} get_params = request.get_params or {}
# Для svodka_ca определяем режим из данных или используем 'fact' по умолчанию # Определяем имя геттера (по умолчанию используем первый доступный)
if request.report_type == 'svodka_ca': getter_name = get_params.pop("getter", None)
# Извлекаем режим из DataFrame или используем 'fact' по умолчанию if not getter_name:
if hasattr(parser, 'df') and parser.df is not None and not parser.df.empty: # Если геттер не указан, берем первый доступный
modes_in_df = parser.df['mode'].unique() if 'mode' in parser.df.columns else ['fact'] available_getters = list(parser.getters.keys())
# Используем первый найденный режим или 'fact' по умолчанию if available_getters:
default_mode = modes_in_df[0] if len(modes_in_df) > 0 else 'fact' getter_name = available_getters[0]
print(f"⚠️ Геттер не указан, используем первый доступный: {getter_name}")
else: else:
default_mode = 'fact' return DataResult(
success=False,
# Устанавливаем режим в параметры, если он не указан message="Парсер не имеет доступных геттеров"
if 'mode' not in get_params: )
get_params['mode'] = default_mode
# Определяем имя геттера
if request.report_type == 'svodka_ca':
# Для svodka_ca используем геттер get_ca_data
getter_name = 'get_ca_data'
elif request.report_type == 'monitoring_fuel':
# Для monitoring_fuel определяем геттер из параметра mode
getter_name = get_params.pop("mode", None)
if not getter_name:
# Если режим не указан, берем первый доступный
available_getters = list(parser.getters.keys())
if available_getters:
getter_name = available_getters[0]
print(f"⚠️ Режим не указан, используем первый доступный: {getter_name}")
else:
return DataResult(
success=False,
message="Парсер не имеет доступных геттеров"
)
elif request.report_type == 'svodka_pm':
# Для svodka_pm определяем геттер из параметра mode
getter_name = get_params.pop("mode", None)
if not getter_name:
# Если режим не указан, берем первый доступный
available_getters = list(parser.getters.keys())
if available_getters:
getter_name = available_getters[0]
print(f"⚠️ Режим не указан, используем первый доступный: {getter_name}")
else:
return DataResult(
success=False,
message="Парсер не имеет доступных геттеров"
)
else:
# Для других парсеров определяем из параметра mode
getter_name = get_params.pop("mode", None)
if not getter_name:
# Если режим не указан, берем первый доступный
available_getters = list(parser.getters.keys())
if available_getters:
getter_name = available_getters[0]
print(f"⚠️ Режим не указан, используем первый доступный: {getter_name}")
else:
return DataResult(
success=False,
message="Парсер не имеет доступных геттеров"
)
# Получаем значение через указанный геттер # Получаем значение через указанный геттер
try: try:

View File

@@ -12,3 +12,4 @@ requests>=2.31.0
# pytest-mock>=3.10.0 # pytest-mock>=3.10.0
httpx>=0.24.0 httpx>=0.24.0
numpy numpy
streamlit>=1.28.0

View File

@@ -0,0 +1 @@
python-3.11.*

View File

@@ -1,20 +0,0 @@
#!/usr/bin/env python3
"""
Простой тест для проверки работы FastAPI
"""
from fastapi import FastAPI
app = FastAPI(title="Test API")
@app.get("/")
async def root():
return {"message": "Test API is working"}
@app.get("/health")
async def health():
return {"status": "ok"}
if __name__ == "__main__":
import uvicorn
print("Starting test server...")
uvicorn.run(app, host="0.0.0.0", port=8000)

65
run_streamlit_local.py Normal file
View File

@@ -0,0 +1,65 @@
#!/usr/bin/env python3
"""
Запуск Streamlit интерфейса локально из изолированного пакета
"""
import subprocess
import sys
import webbrowser
import os
def main():
"""Основная функция"""
print("🚀 ЗАПУСК STREAMLIT ИЗ ИЗОЛИРОВАННОГО ПАКЕТА")
print("=" * 60)
print("Убедитесь, что FastAPI сервер запущен на порту 8000")
print("=" * 60)
# Проверяем, существует ли папка streamlit_app
if not os.path.exists("streamlit_app"):
print("❌ Папка streamlit_app не найдена")
print("Создайте изолированный пакет или используйте docker-compose up -d")
return
# Переходим в папку streamlit_app
os.chdir("streamlit_app")
# Проверяем, установлен ли Streamlit
try:
import streamlit
print(f"✅ Streamlit {streamlit.__version__} установлен")
except ImportError:
print("❌ Streamlit не установлен")
print("Установите: pip install -r requirements.txt")
return
print("\n🚀 Запускаю Streamlit...")
print("📍 URL: http://localhost:8501")
print("🔗 API: http://localhost:8000")
print("🛑 Для остановки нажмите Ctrl+C")
# Открываем браузер
try:
webbrowser.open("http://localhost:8501")
print("✅ Браузер открыт")
except Exception as e:
print(f"⚠️ Не удалось открыть браузер: {e}")
# Запускаем Streamlit с правильными переменными окружения
env = os.environ.copy()
env["DOCKER_ENV"] = "false" # Локальный запуск
env["API_BASE_URL"] = "http://localhost:8000" # Локальный API
try:
subprocess.run([
sys.executable, "-m", "streamlit", "run", "app.py",
"--server.port", "8501",
"--server.address", "localhost",
"--server.headless", "false",
"--browser.gatherUsageStats", "false"
], env=env)
except KeyboardInterrupt:
print("\n👋 Streamlit остановлен")
if __name__ == "__main__":
main()

View File

@@ -1,49 +0,0 @@
#!/usr/bin/env python3
"""
Скрипт для запуска проекта в режиме разработки
"""
import subprocess
import sys
import os
def run_command(command, description):
"""Выполнение команды с выводом"""
print(f"🔄 {description}...")
try:
result = subprocess.run(command, shell=True, check=True, capture_output=True, text=True)
print(f"{description} выполнено успешно")
return True
except subprocess.CalledProcessError as e:
print(f"❌ Ошибка при {description.lower()}:")
print(f" Команда: {command}")
print(f" Ошибка: {e.stderr}")
return False
def main():
print("🚀 Запуск проекта в режиме разработки")
print("=" * 50)
# Останавливаем продакшн контейнеры если они запущены
if run_command("docker compose ps", "Проверка статуса контейнеров"):
if "Up" in subprocess.run("docker compose ps", shell=True, capture_output=True, text=True).stdout:
print("🛑 Останавливаю продакшн контейнеры...")
run_command("docker compose down", "Остановка продакшн контейнеров")
# Запускаем режим разработки
print("\n🔧 Запуск режима разработки...")
if run_command("docker compose -f docker-compose.dev.yml up -d", "Запуск контейнеров разработки"):
print("\n🎉 Проект запущен в режиме разработки!")
print("\n📍 Доступные сервисы:")
print(" • Streamlit: http://localhost:8501")
print(" • FastAPI: http://localhost:8000")
print(" • MinIO Console: http://localhost:9001")
print("\n💡 Теперь изменения в streamlit_app/ будут автоматически перезагружаться!")
print("\n🛑 Для остановки используйте:")
print(" docker compose -f docker-compose.dev.yml down")
else:
print("\nНе удалось запустить проект в режиме разработки")
sys.exit(1)
if __name__ == "__main__":
main()

View File

@@ -1,49 +0,0 @@
#!/usr/bin/env python3
"""
Скрипт для запуска проекта в продакшн режиме
"""
import subprocess
import sys
def run_command(command, description):
"""Выполнение команды с выводом"""
print(f"🔄 {description}...")
try:
result = subprocess.run(command, shell=True, check=True, capture_output=True, text=True)
print(f"{description} выполнено успешно")
return True
except subprocess.CalledProcessError as e:
print(f"❌ Ошибка при {description.lower()}:")
print(f" Команда: {command}")
print(f" Ошибка: {e.stderr}")
return False
def main():
print("🚀 Запуск проекта в продакшн режиме")
print("=" * 50)
# Останавливаем контейнеры разработки если они запущены
if run_command("docker compose -f docker-compose.dev.yml ps", "Проверка статуса контейнеров разработки"):
if "Up" in subprocess.run("docker compose -f docker-compose.dev.yml ps", shell=True, capture_output=True, text=True).stdout:
print("🛑 Останавливаю контейнеры разработки...")
run_command("docker compose -f docker-compose.dev.yml down", "Остановка контейнеров разработки")
# Запускаем продакшн режим
print("\n🏭 Запуск продакшн режима...")
if run_command("docker compose up -d --build", "Запуск продакшн контейнеров"):
print("\n🎉 Проект запущен в продакшн режиме!")
print("\n📍 Доступные сервисы:")
print(" • Streamlit: http://localhost:8501")
print(" • FastAPI: http://localhost:8000")
print(" • MinIO Console: http://localhost:9001")
print("\n💡 Для разработки используйте:")
print(" python start_dev.py")
print("\n🛑 Для остановки используйте:")
print(" docker compose down")
else:
print("\nНе удалось запустить проект в продакшн режиме")
sys.exit(1)
if __name__ == "__main__":
main()

View File

@@ -0,0 +1,31 @@
__pycache__
*.pyc
*.pyo
*.pyd
.Python
env
pip-log.txt
pip-delete-this-directory.txt
.tox
.coverage
.coverage.*
.cache
nosetests.xml
coverage.xml
*.cover
*.log
.git
.mypy_cache
.pytest_cache
.hypothesis
.DS_Store
.env
.venv
venv/
ENV/
env/
.idea/
.vscode/
*.swp
*.swo
*~

View File

@@ -1,15 +0,0 @@
[server]
port = 8501
address = "0.0.0.0"
enableCORS = false
enableXsrfProtection = false
[browser]
gatherUsageStats = false
[theme]
primaryColor = "#FF4B4B"
backgroundColor = "#FFFFFF"
secondaryBackgroundColor = "#F0F2F6"
textColor = "#262730"
font = "sans serif"

View File

@@ -2,22 +2,22 @@ FROM python:3.11-slim
WORKDIR /app WORKDIR /app
# Установка системных зависимостей # Устанавливаем системные зависимости
RUN apt-get update && apt-get install -y \ RUN apt-get update && apt-get install -y \
gcc \ gcc \
&& rm -rf /var/lib/apt/lists/* && rm -rf /var/lib/apt/lists/*
# Копирование requirements.txt # Копируем файлы зависимостей
COPY requirements.txt . COPY requirements.txt .
# Установка Python зависимостей # Устанавливаем Python зависимости
RUN pip install --no-cache-dir -r requirements.txt RUN pip install --no-cache-dir -r requirements.txt
# Копирование кода приложения # Копируем код приложения
COPY . . COPY . .
# Открытие порта # Открываем порт
EXPOSE 8501 EXPOSE 8501
# Запуск Streamlit # Команда запуска
CMD ["streamlit", "run", "streamlit_app.py", "--server.port=8501", "--server.address=0.0.0.0"] CMD ["streamlit", "run", "app.py", "--server.port", "8501", "--server.address", "0.0.0.0"]

44
streamlit_app/README.md Normal file
View File

@@ -0,0 +1,44 @@
# 📊 Streamlit App - NIN Excel Parsers API
Изолированное Streamlit приложение для демонстрации работы NIN Excel Parsers API.
## 🚀 Запуск
### Локально:
```bash
cd streamlit_app
pip install -r requirements.txt
streamlit run app.py
```
### В Docker:
```bash
docker build -t streamlit-app .
docker run -p 8501:8501 streamlit-app
```
## 🔧 Конфигурация
### Переменные окружения:
- `API_BASE_URL` - адрес FastAPI сервера (по умолчанию: `http://fastapi:8000`)
### Параметры Streamlit:
- Порт: 8501
- Адрес: 0.0.0.0 (для Docker)
- Режим: headless (для Docker)
## 📁 Структура
```
streamlit_app/
├── app.py # Основное приложение
├── requirements.txt # Зависимости Python
├── Dockerfile # Docker образ
├── .streamlit/ # Конфигурация Streamlit
│ └── config.toml # Настройки
└── README.md # Документация
```
## 🌐 Доступ
После запуска приложение доступно по адресу: **http://localhost:8501**

View File

@@ -1,100 +0,0 @@
import streamlit as st
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from minio import Minio
import os
from io import BytesIO
# Конфигурация страницы
st.set_page_config(
page_title="Сводка данных",
page_icon="📊",
layout="wide",
initial_sidebar_state="expanded"
)
# Заголовок приложения
st.title("📊 Анализ данных сводки")
st.markdown("---")
# Инициализация MinIO клиента
@st.cache_resource
def init_minio_client():
try:
client = Minio(
os.getenv("MINIO_ENDPOINT", "localhost:9000"),
access_key=os.getenv("MINIO_ACCESS_KEY", "minioadmin"),
secret_key=os.getenv("MINIO_SECRET_KEY", "minioadmin"),
secure=os.getenv("MINIO_SECURE", "false").lower() == "true"
)
return client
except Exception as e:
st.error(f"Ошибка подключения к MinIO: {e}")
return None
# Боковая панель
with st.sidebar:
st.header("⚙️ Настройки")
# Выбор типа данных
data_type = st.selectbox(
"Тип данных",
["Мониторинг топлива", "Сводка ПМ", "Сводка ЦА"]
)
# Выбор периода
period = st.date_input(
"Период",
value=pd.Timestamp.now().date()
)
st.markdown("---")
st.markdown("### 📈 Статистика")
st.info("Выберите тип данных для анализа")
# Основной контент
col1, col2 = st.columns([2, 1])
with col1:
st.subheader(f"📋 {data_type}")
if data_type == "Мониторинг топлива":
st.info("Анализ данных мониторинга топлива")
# Здесь будет логика для работы с данными мониторинга топлива
elif data_type == "Сводка ПМ":
st.info("Анализ данных сводки ПМ")
# Здесь будет логика для работы с данными сводки ПМ
elif data_type == "Сводка ЦА":
st.info("Анализ данных сводки ЦА")
# Здесь будет логика для работы с данными сводки ЦА
with col2:
st.subheader("📊 Быстрая статистика")
st.metric("Всего записей", "0")
st.metric("Активных", "0")
st.metric("Ошибок", "0")
# Нижняя панель
st.markdown("---")
st.subheader("🔍 Детальный анализ")
# Заглушка для графиков
placeholder = st.empty()
with placeholder.container():
col1, col2 = st.columns(2)
with col1:
st.write("📈 График 1")
# Здесь будет график
with col2:
st.write("📊 График 2")
# Здесь будет график
# Футер
st.markdown("---")
st.markdown("**Разработано для анализа данных сводки** | v1.0.0")

View File

@@ -15,9 +15,17 @@ st.set_page_config(
initial_sidebar_state="expanded" initial_sidebar_state="expanded"
) )
# Конфигурация API # Конфигурация API - автоматически определяем правильный адрес
API_BASE_URL = os.getenv("API_BASE_URL", "http://fastapi:8000") # Внутренний адрес для Docker def get_api_base_url():
API_PUBLIC_URL = os.getenv("API_PUBLIC_URL", "http://localhost:8000") # Внешний адрес для пользователя """Автоматически определяет правильный адрес API"""
# Если запущено в Docker, используем внутренний адрес
if os.getenv("DOCKER_ENV") == "true":
return "http://fastapi:8000"
# Если запущено локально, используем localhost
return "http://localhost:8000"
API_BASE_URL = os.getenv("API_BASE_URL", get_api_base_url())
def check_api_health(): def check_api_health():
"""Проверка доступности API""" """Проверка доступности API"""
@@ -37,6 +45,16 @@ def get_available_parsers():
except: except:
return [] return []
def get_parser_getters(parser_name: str):
"""Получение информации о геттерах парсера"""
try:
response = requests.get(f"{API_BASE_URL}/parsers/{parser_name}/getters")
if response.status_code == 200:
return response.json()
return {}
except:
return {}
def get_server_info(): def get_server_info():
"""Получение информации о сервере""" """Получение информации о сервере"""
try: try:
@@ -74,7 +92,7 @@ def main():
st.info("Убедитесь, что FastAPI сервер запущен") st.info("Убедитесь, что FastAPI сервер запущен")
return return
st.success(f"✅ API доступен по адресу {API_PUBLIC_URL}") st.success(f"✅ API доступен по адресу {API_BASE_URL}")
# Боковая панель с информацией # Боковая панель с информацией
with st.sidebar: with st.sidebar:
@@ -106,6 +124,9 @@ def main():
with tab1: with tab1:
st.header("📊 Сводки ПМ - Полный функционал") st.header("📊 Сводки ПМ - Полный функционал")
# Получаем информацию о геттерах
getters_info = get_parser_getters("svodka_pm")
# Секция загрузки файлов # Секция загрузки файлов
st.subheader("📤 Загрузка файлов") st.subheader("📤 Загрузка файлов")
uploaded_pm = st.file_uploader( uploaded_pm = st.file_uploader(
@@ -134,6 +155,15 @@ def main():
# Секция получения данных # Секция получения данных
st.subheader("🔍 Получение данных") st.subheader("🔍 Получение данных")
# Показываем доступные геттеры
if getters_info and "getters" in getters_info:
st.info("📋 Доступные геттеры:")
for getter_name, getter_info in getters_info["getters"].items():
st.write(f"• **{getter_name}**: {getter_info.get('description', 'Нет описания')}")
st.write(f" - Обязательные параметры: {', '.join(getter_info.get('required_params', []))}")
if getter_info.get('optional_params'):
st.write(f" - Необязательные параметры: {', '.join(getter_info['optional_params'])}")
col1, col2 = st.columns(2) col1, col2 = st.columns(2)
with col1: with col1:
@@ -165,12 +195,13 @@ def main():
if codes and columns: if codes and columns:
with st.spinner("Получаю данные..."): with st.spinner("Получаю данные..."):
data = { data = {
"getter": "single_og",
"id": og_id, "id": og_id,
"codes": codes, "codes": codes,
"columns": columns "columns": columns
} }
result, status = make_api_request("/svodka_pm/get_single_og", data) result, status = make_api_request("/svodka_pm/get_data", data)
if status == 200: if status == 200:
st.success("✅ Данные получены") st.success("✅ Данные получены")
@@ -201,11 +232,12 @@ def main():
if codes_total and columns_total: if codes_total and columns_total:
with st.spinner("Получаю данные..."): with st.spinner("Получаю данные..."):
data = { data = {
"getter": "total_ogs",
"codes": codes_total, "codes": codes_total,
"columns": columns_total "columns": columns_total
} }
result, status = make_api_request("/svodka_pm/get_total_ogs", data) result, status = make_api_request("/svodka_pm/get_data", data)
if status == 200: if status == 200:
st.success("✅ Данные получены") st.success("✅ Данные получены")
@@ -219,6 +251,9 @@ def main():
with tab2: with tab2:
st.header("🏭 Сводки СА - Полный функционал") st.header("🏭 Сводки СА - Полный функционал")
# Получаем информацию о геттерах
getters_info = get_parser_getters("svodka_ca")
# Секция загрузки файлов # Секция загрузки файлов
st.subheader("📤 Загрузка файлов") st.subheader("📤 Загрузка файлов")
uploaded_ca = st.file_uploader( uploaded_ca = st.file_uploader(
@@ -246,7 +281,16 @@ def main():
st.markdown("---") st.markdown("---")
# Секция получения данных # Секция получения данных
st.subheader("🔍 Получение данных") st.subheader("<EFBFBD><EFBFBD> Получение данных")
# Показываем доступные геттеры
if getters_info and "getters" in getters_info:
st.info("📋 Доступные геттеры:")
for getter_name, getter_info in getters_info["getters"].items():
st.write(f"• **{getter_name}**: {getter_info.get('description', 'Нет описания')}")
st.write(f" - Обязательные параметры: {', '.join(getter_info.get('required_params', []))}")
if getter_info.get('optional_params'):
st.write(f" - Необязательные параметры: {', '.join(getter_info['optional_params'])}")
col1, col2 = st.columns(2) col1, col2 = st.columns(2)
@@ -273,6 +317,7 @@ def main():
if modes and tables: if modes and tables:
with st.spinner("Получаю данные..."): with st.spinner("Получаю данные..."):
data = { data = {
"getter": "get_data",
"modes": modes, "modes": modes,
"tables": tables "tables": tables
} }
@@ -283,7 +328,7 @@ def main():
st.success("✅ Данные получены") st.success("✅ Данные получены")
st.json(result) st.json(result)
else: else:
st.error(f"❌ Ошибка: {result.get('message', 'Неизвестная ошибка')}") st.error(f"❌ Ошибка: {result.get('message', f'Неизвестная ошибка: {status}')}")
else: else:
st.warning("⚠️ Выберите режимы и таблицы") st.warning("⚠️ Выберите режимы и таблицы")
@@ -291,6 +336,9 @@ def main():
with tab3: with tab3:
st.header("⛽ Мониторинг топлива - Полный функционал") st.header("⛽ Мониторинг топлива - Полный функционал")
# Получаем информацию о геттерах
getters_info = get_parser_getters("monitoring_fuel")
# Секция загрузки файлов # Секция загрузки файлов
st.subheader("📤 Загрузка файлов") st.subheader("📤 Загрузка файлов")
uploaded_fuel = st.file_uploader( uploaded_fuel = st.file_uploader(
@@ -319,6 +367,15 @@ def main():
# Секция получения данных # Секция получения данных
st.subheader("🔍 Получение данных") st.subheader("🔍 Получение данных")
# Показываем доступные геттеры
if getters_info and "getters" in getters_info:
st.info("📋 Доступные геттеры:")
for getter_name, getter_info in getters_info["getters"].items():
st.write(f"• **{getter_name}**: {getter_info.get('description', 'Нет описания')}")
st.write(f" - Обязательные параметры: {', '.join(getter_info.get('required_params', []))}")
if getter_info.get('optional_params'):
st.write(f" - Необязательные параметры: {', '.join(getter_info['optional_params'])}")
col1, col2 = st.columns(2) col1, col2 = st.columns(2)
with col1: with col1:
@@ -335,10 +392,11 @@ def main():
if columns_fuel: if columns_fuel:
with st.spinner("Получаю данные..."): with st.spinner("Получаю данные..."):
data = { data = {
"getter": "total_by_columns",
"columns": columns_fuel "columns": columns_fuel
} }
result, status = make_api_request("/monitoring_fuel/get_total_by_columns", data) result, status = make_api_request("/monitoring_fuel/get_data", data)
if status == 200: if status == 200:
st.success("✅ Данные получены") st.success("✅ Данные получены")
@@ -360,10 +418,11 @@ def main():
if st.button("🔍 Получить данные за месяц", key="fuel_month_btn"): if st.button("🔍 Получить данные за месяц", key="fuel_month_btn"):
with st.spinner("Получаю данные..."): with st.spinner("Получаю данные..."):
data = { data = {
"getter": "month_by_code",
"month": month "month": month
} }
result, status = make_api_request("/monitoring_fuel/get_month_by_code", data) result, status = make_api_request("/monitoring_fuel/get_data", data)
if status == 200: if status == 200:
st.success("✅ Данные получены") st.success("✅ Данные получены")
@@ -374,7 +433,7 @@ def main():
# Футер # Футер
st.markdown("---") st.markdown("---")
st.markdown("### 📚 Документация API") st.markdown("### 📚 Документация API")
st.markdown(f"Полная документация доступна по адресу: {API_PUBLIC_URL}/docs") st.markdown(f"Полная документация доступна по адресу: {API_BASE_URL}/docs")
# Информация о проекте # Информация о проекте
with st.expander(" О проекте"): with st.expander(" О проекте"):

View File

@@ -1,7 +1,4 @@
streamlit>=1.28.0 streamlit>=1.28.0
pandas>=2.0.0 requests>=2.31.0
pandas>=1.5.0
numpy>=1.24.0 numpy>=1.24.0
plotly>=5.15.0
minio>=7.1.0
openpyxl>=3.1.0
xlrd>=2.0.1

84
test_api.py Normal file
View File

@@ -0,0 +1,84 @@
#!/usr/bin/env python3
"""
Тестовый скрипт для проверки API
"""
import requests
import json
def test_api_endpoints():
"""Тестирование API эндпоинтов"""
base_url = "http://localhost:8000"
print("🧪 ТЕСТИРОВАНИЕ API")
print("=" * 50)
# Тест 1: Проверка доступности API
print("\n1⃣ Проверка доступности API...")
try:
response = requests.get(f"{base_url}/")
if response.status_code == 200:
print(f"✅ API доступен: {response.json()}")
else:
print(f"❌ API недоступен: {response.status_code}")
return False
except Exception as e:
print(f"❌ Ошибка подключения к API: {e}")
return False
# Тест 2: Список парсеров
print("\n2⃣ Получение списка парсеров...")
try:
response = requests.get(f"{base_url}/parsers")
if response.status_code == 200:
parsers = response.json()
print(f"✅ Парсеры: {parsers}")
else:
print(f"❌ Ошибка получения парсеров: {response.status_code}")
except Exception as e:
print(f"❌ Ошибка: {e}")
# Тест 3: Информация о геттерах
print("\n3⃣ Информация о геттерах парсеров...")
parsers_to_test = ["svodka_pm", "svodka_ca", "monitoring_fuel"]
for parser in parsers_to_test:
try:
response = requests.get(f"{base_url}/parsers/{parser}/getters")
if response.status_code == 200:
getters = response.json()
print(f"{parser}: {len(getters.get('getters', {}))} геттеров")
else:
print(f"{parser}: ошибка {response.status_code}")
except Exception as e:
print(f"{parser}: ошибка {e}")
# Тест 4: Загрузка тестового файла
print("\n4⃣ Тест загрузки файла...")
try:
# Создаем простой Excel файл для теста
test_data = b"test content"
files = {"file": ("test.xlsx", test_data, "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet")}
response = requests.post(f"{base_url}/svodka_ca/upload", files=files)
print(f"📤 Результат загрузки: {response.status_code}")
if response.status_code == 200:
result = response.json()
print(f"✅ Файл загружен: {result}")
else:
print(f"❌ Ошибка загрузки: {response.status_code}")
try:
error_detail = response.json()
print(f"📋 Детали ошибки: {error_detail}")
except:
print(f"📋 Текст ошибки: {response.text}")
except Exception as e:
print(f"❌ Ошибка теста загрузки: {e}")
print("\n🎯 Тестирование завершено!")
return True
if __name__ == "__main__":
test_api_endpoints()

79
test_api_direct.py Normal file
View File

@@ -0,0 +1,79 @@
#!/usr/bin/env python3
"""
Прямое тестирование API эндпоинтов
"""
import requests
import json
def test_api_endpoints():
"""Тестирование API эндпоинтов"""
base_url = "http://localhost:8000"
print("🧪 ПРЯМОЕ ТЕСТИРОВАНИЕ API")
print("=" * 40)
# Тест 1: Проверка доступности API
print("\n1⃣ Проверка доступности API...")
try:
response = requests.get(f"{base_url}/")
print(f"✅ API доступен: {response.status_code}")
except Exception as e:
print(f"❌ Ошибка: {e}")
return
# Тест 2: Тестирование эндпоинта svodka_ca/get_data
print("\n2⃣ Тестирование svodka_ca/get_data...")
try:
data = {
"getter": "get_data",
"modes": ["plan", "fact"],
"tables": ["ТиП", "Топливо"]
}
response = requests.post(f"{base_url}/svodka_ca/get_data", json=data)
print(f"📥 Результат: {response.status_code}")
if response.status_code == 200:
result = response.json()
print(f"✅ Успешно: {result}")
else:
try:
error_detail = response.json()
print(f"❌ Ошибка: {error_detail}")
except:
print(f"❌ Ошибка: {response.text}")
except Exception as e:
print(f"❌ Исключение: {e}")
# Тест 3: Тестирование эндпоинта svodka_pm/get_data
print("\n3⃣ Тестирование svodka_pm/get_data...")
try:
data = {
"getter": "single_og",
"id": "SNPZ",
"codes": [78, 79],
"columns": ["БП", "ПП"]
}
response = requests.post(f"{base_url}/svodka_pm/get_data", json=data)
print(f"📥 Результат: {response.status_code}")
if response.status_code == 200:
result = response.json()
print(f"✅ Успешно: {result}")
else:
try:
error_detail = response.json()
print(f"❌ Ошибка: {error_detail}")
except:
print(f"❌ Ошибка: {response.text}")
except Exception as e:
print(f"❌ Исключение: {e}")
print("\n🎯 Тестирование завершено!")
if __name__ == "__main__":
test_api_endpoints()

96
test_ca_workflow.py Normal file
View File

@@ -0,0 +1,96 @@
#!/usr/bin/env python3
"""
Тестирование полного workflow с сводкой СА
"""
import requests
import os
import time
def test_ca_workflow():
"""Тестирование полного workflow с сводкой СА"""
base_url = "http://localhost:8000"
test_file = "python_parser/data/svodka_ca.xlsx"
print("🧪 ТЕСТ ПОЛНОГО WORKFLOW СВОДКИ СА")
print("=" * 50)
# Проверяем, что файл существует
if not os.path.exists(test_file):
print(f"❌ Файл {test_file} не найден")
return False
print(f"📁 Тестовый файл найден: {test_file}")
print(f"📏 Размер: {os.path.getsize(test_file)} байт")
# Шаг 1: Загружаем файл
print("\n1⃣ Загружаю файл сводки СА...")
try:
with open(test_file, 'rb') as f:
file_data = f.read()
files = {"file": ("svodka_ca.xlsx", file_data, "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet")}
response = requests.post(f"{base_url}/svodka_ca/upload", files=files)
print(f"📤 Результат загрузки: {response.status_code}")
if response.status_code == 200:
result = response.json()
print(f"✅ Файл загружен: {result}")
object_id = result.get('object_id', 'nin_excel_data_svodka_ca')
else:
print(f"❌ Ошибка загрузки: {response.status_code}")
try:
error_detail = response.json()
print(f"📋 Детали ошибки: {error_detail}")
except:
print(f"📋 Текст ошибки: {response.text}")
return False
except Exception as e:
print(f"❌ Ошибка загрузки: {e}")
return False
# Шаг 2: Получаем данные через геттер
print("\n2⃣ Получаю данные через геттер...")
try:
data = {
"getter": "get_data",
"modes": ["plan", "fact"], # Используем английские названия
"tables": ["ТиП", "Топливо"]
}
response = requests.post(f"{base_url}/svodka_ca/get_data", json=data)
print(f"📥 Результат получения данных: {response.status_code}")
if response.status_code == 200:
result = response.json()
print(f"✅ Данные получены успешно!")
print(f"📊 Размер ответа: {len(str(result))} символов")
# Показываем структуру данных
if isinstance(result, dict):
print(f"🔍 Структура данных:")
for key, value in result.items():
if isinstance(value, dict):
print(f" {key}: {len(value)} элементов")
else:
print(f" {key}: {type(value).__name__}")
else:
print(f"❌ Ошибка получения данных: {response.status_code}")
try:
error_detail = response.json()
print(f"📋 Детали ошибки: {error_detail}")
except:
print(f"📋 Текст ошибки: {response.text}")
return False
except Exception as e:
print(f"❌ Ошибка получения данных: {e}")
return False
print("\n🎯 Тестирование завершено успешно!")
return True
if __name__ == "__main__":
test_ca_workflow()

110
test_minio_connection.py Normal file
View File

@@ -0,0 +1,110 @@
#!/usr/bin/env python3
"""
Тестовый скрипт для проверки подключения к MinIO
"""
import os
import sys
import io
from minio import Minio
def test_minio_connection():
"""Тестирование подключения к MinIO"""
print("🔍 Тестирование подключения к MinIO...")
# Параметры подключения
endpoint = os.getenv("MINIO_ENDPOINT", "localhost:9000")
access_key = os.getenv("MINIO_ACCESS_KEY", "minioadmin")
secret_key = os.getenv("MINIO_SECRET_KEY", "minioadmin")
bucket_name = os.getenv("MINIO_BUCKET", "svodka-data")
print(f"📍 Endpoint: {endpoint}")
print(f"🔑 Access Key: {access_key}")
print(f"🔐 Secret Key: {secret_key}")
print(f"🪣 Bucket: {bucket_name}")
try:
# Создаем клиент
print("\n🚀 Создаю MinIO клиент...")
client = Minio(
endpoint,
access_key=access_key,
secret_key=secret_key,
secure=False,
cert_check=False
)
# Проверяем подключение
print("✅ MinIO клиент создан")
# Проверяем bucket
print(f"\n🔍 Проверяю bucket '{bucket_name}'...")
if client.bucket_exists(bucket_name):
print(f"✅ Bucket '{bucket_name}' существует")
else:
print(f"⚠️ Bucket '{bucket_name}' не существует, создаю...")
client.make_bucket(bucket_name)
print(f"✅ Bucket '{bucket_name}' создан")
# Пробуем загрузить тестовый файл
print("\n📤 Тестирую загрузку файла...")
test_data = b"Hello MinIO!"
test_stream = io.BytesIO(test_data)
client.put_object(
bucket_name,
"test.txt",
test_stream,
length=len(test_data),
content_type='text/plain'
)
print("✅ Тестовый файл загружен")
# Пробуем скачать файл
print("\n📥 Тестирую скачивание файла...")
response = client.get_object(bucket_name, "test.txt")
downloaded_data = response.read()
print(f"✅ Файл скачан: {downloaded_data}")
# Удаляем тестовый файл
client.remove_object(bucket_name, "test.txt")
print("✅ Тестовый файл удален")
print("\n🎉 Все тесты MinIO прошли успешно!")
return True
except Exception as e:
print(f"\n❌ Ошибка подключения к MinIO: {e}")
print(f"Тип ошибки: {type(e).__name__}")
return False
def test_environment():
"""Проверка переменных окружения"""
print("🔧 Проверка переменных окружения:")
env_vars = [
"MINIO_ENDPOINT",
"MINIO_ACCESS_KEY",
"MINIO_SECRET_KEY",
"MINIO_BUCKET"
]
for var in env_vars:
value = os.getenv(var, "НЕ УСТАНОВЛЕНО")
print(f" {var}: {value}")
if __name__ == "__main__":
print("=" * 60)
print("🧪 ТЕСТ ПОДКЛЮЧЕНИЯ К MINIO")
print("=" * 60)
test_environment()
print()
success = test_minio_connection()
if success:
print("\n✅ MinIO работает корректно!")
sys.exit(0)
else:
print("\n❌ Проблемы с MinIO!")
sys.exit(1)

69
test_upload.py Normal file
View File

@@ -0,0 +1,69 @@
#!/usr/bin/env python3
"""
Тестирование загрузки Excel файла
"""
import requests
import os
def test_file_upload():
"""Тестирование загрузки файла"""
base_url = "http://localhost:8000"
filename = "test_file.xlsx"
print("🧪 ТЕСТ ЗАГРУЗКИ ФАЙЛА")
print("=" * 40)
# Проверяем, что файл существует
if not os.path.exists(filename):
print(f"❌ Файл {filename} не найден")
return False
print(f"📁 Файл найден: {filename}")
print(f"📏 Размер: {os.path.getsize(filename)} байт")
# Тестируем загрузку в разные парсеры
parsers = [
("svodka_ca", "/svodka_ca/upload", "file"),
("monitoring_fuel", "/monitoring_fuel/upload-zip", "zip_file"),
("svodka_pm", "/svodka_pm/upload-zip", "zip_file")
]
for parser_name, endpoint, file_param in parsers:
print(f"\n🔍 Тестирую {parser_name}...")
try:
# Читаем файл
with open(filename, 'rb') as f:
file_data = f.read()
# Определяем content type
if filename.endswith('.xlsx'):
content_type = "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"
else:
content_type = "application/octet-stream"
# Загружаем файл с правильным параметром
files = {file_param: (filename, file_data, content_type)}
response = requests.post(f"{base_url}{endpoint}", files=files)
print(f"📤 Результат: {response.status_code}")
if response.status_code == 200:
result = response.json()
print(f"✅ Успешно: {result}")
else:
try:
error_detail = response.json()
print(f"❌ Ошибка: {error_detail}")
except:
print(f"❌ Ошибка: {response.text}")
except Exception as e:
print(f"❌ Исключение: {e}")
print("\n🎯 Тестирование завершено!")
return True
if __name__ == "__main__":
test_file_upload()