ЭБС Уфимского университета науки и технологий
фонд Заки Валиди 32, Карла Маркса 3/1 и Достоевского 131

     

Детальная информация

Обухов, Александр Сергеевич. Чат-бот для генерации описания изображения на основе нейросети (проектный): выпускная квалификационная работа по программе магистратуры. Направление подготовки 01.04.02 : "Прикладная математика и информатика". Направленность (профиль): "Искусственный интеллект в кибербезопасности" / А.С. Обухов; Уфимский университет науки и технологий, Институт информатики, математики и робототехники, Кафедра математического и компьютерного моделирования ; научный руководитель А.М. Ефимов;. — Уфа, 2025. — 64 с. — <URL:https://elib.bashedu.ru/dl/diplom/2025/Obukhov_A_S_PMI-IKB-201M_01_04_02_PMI_06_2025.pdf>. — Текст: электронный

Дата создания записи: 06.11.2025

Тематика: ВКР; бакалавриат; создании доступного интерфейса; нейросетевая модель; Telegram-бот; озвучивание сгенерированного текста; обработка изображений

Коллекции: Магистерские диссертации; Общая коллекция

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему и будете работать на компьютерах в читальных залах Библиотеки

Группа: Анонимные пользователи

Сеть: Интернет

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть Библиотеки Аутентифицированные пользователи Прочитать
Локальная сеть Библиотеки Все
Интернет Аутентифицированные пользователи Прочитать
-> Интернет Все

Оглавление

  • Содержание
  • Введение
  • Глава 1. Генерация описаний и синтез речи
    • 1.1. Генерация описаний изображений (Image Captioning)
      • Крупнейшие датасеты для обучения:
      • Сравнительная таблица моделей:
    • 1.1.2. Синтез речи (Text-to-Speech)
    • 1.1.3. Чат-боты и Telegram-боты
    • 1.2 Теоретические основы генерации описаний изображений
      • 1.2.1. Классическая архитектура encoder–decoder
      • 1.2.2 Attention-механизм
        • Общий принцип:
        • Математическое описание:
      • 1.2.3. Архитектура трансформеров и переход к BLIP
      • 1.2.4. Обучение модели
      • 1.2.5. Анализ существующих решений
        • 1. Google Lens
        • 2. Be My Eyes
        • 3. Telegram-боты на основе Hugging Face / BLIP / GIT
        • 4. Инструменты TTS и перевода текста
        • 5. Модели нового поколения: GPT-4V, Gemini, BLIP-2
        • 6. Сравнительная таблица решений
      • 1.2.6 Архитектура используемой нейросетевой модели
      • 1.2.7 Обоснование выбора модели BLIP и анализ альтернатив
      • 1.2.8 Метрики оценки качества генерации описаний
        • BLEU (Bilingual Evaluation Understudy)
        • METEOR (Metric for Evaluation of Translation with Explicit ORdering)
          • Ключевые особенности METEOR:
          • Формула метрики (в упрощённом виде)
          • Преимущества в задачах image captioning:
          • Ограничения:
        • CIDEr (Consensus-based Image Description Evaluation)
          • Основная идея:
          • Ключевые особенности CIDEr:
          • Формула CIDEr (упрощённо):
          • Преимущества:
          • Ограничения:
        • ROUGE-L (Recall-Oriented Understudy for Gisting Evaluation – Longest Common Subsequence)
          • Основная идея:
          • Ключевые особенности ROUGE-L:
          • Формула (в упрощённом виде):
          • Преимущества ROUGE-L:
          • Ограничения:
          • Применение в задачах captioning:
        • SPICE (Semantic Propositional Image Caption Evaluation)
          • Основная идея:
          • Компоненты семантического графа:
          • Как рассчитывается SPICE:
          • Преимущества:
          • Ограничения:
          • Роль SPICE в captioning-системах:
      • 1.2.9 Ограничения и возможные направления улучшения моделей генерации описаний изображений
        • 1. Языковая ограниченность
        • 2. Поверхностное понимание сцены
        • 3. Отсутствие персонализации и адаптации
        • 4. Вычислительная нагрузка
    • 1.3 Обзор используемых технологий и инструментов
      • 1.3.1 Язык программирования
      • 1.3.2 Библиотека aiogram
        • Основные особенности библиотеки aiogram:
      • 1.3.3 Библиотека Pillow (PIL)
        • Возможности Pillow:
        • Преимущества использования:
      • 1.3.4 Библиотека transformers
        • Особенности transformers:
        • Преимущества использования:
      • 1.3.5 Фреймворк PyTorch
        • Основные возможности PyTorch:
        • Преимущества:
      • 1.3.6 Библиотека gTTS (Google Text-to-Speech)
        • Ключевые плюсы gTTS:
        • Преимущества использования gTTS:
        • Ограничения:
      • 1.3.7 Библиотека translate
        • Основные возможности библиотеки translate:
        • Преимущества:
        • Ограничения:
      • 1.3.8 Библиотека speech_recognition
        • Основные возможности speech_recognition:
        • Пример базового использования:
        • Преимущества:
        • Ограничения:
  • Глава 2. Реализация программной системы
    • 2.1 Общая архитектура системы
    • 2.2 Обработка изображений и генерация описания
    • 2.3 Перевод и синтез речи
    • 2.4 Логика взаимодействия с пользователем
    • 2.5 Хранение и удаление временных файлов
    • 2.6 Практическая часть
      • 2.6.1 Макеты экранных форм
      • 2.6.2 Блок-схема работы приложения
      • 2.6.3 Программный код с комментариями
      • 2.6.4 Комментарии к реализации
    • 2.7 Тестирование Telegram-бота
      • 2.7.1 Цель тестирования
      • 2.7.2 Методика тестирования
      • 2.7.3 Сценарии и результаты тестирования
      • 2.7.4 Обработка ошибок и защита от сбоев
  • Заключение
  • Список использованных источников

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика