| Карточка | Таблица | RUSMARC | |
Обухов, Александр Сергеевич. Чат-бот для генерации описания изображения на основе нейросети (проектный): выпускная квалификационная работа по программе магистратуры. Направление подготовки 01.04.02 : "Прикладная математика и информатика". Направленность (профиль): "Искусственный интеллект в кибербезопасности" / А.С. Обухов; Уфимский университет науки и технологий, Институт информатики, математики и робототехники, Кафедра математического и компьютерного моделирования ; научный руководитель А.М. Ефимов;. — Уфа, 2025. — 64 с. — <URL:https://elib.bashedu.ru/dl/diplom/2025/Obukhov_A_S_PMI-IKB-201M_01_04_02_PMI_06_2025.pdf>. — Текст: электронныйДата создания записи: 06.11.2025 Тематика: ВКР; бакалавриат; создании доступного интерфейса; нейросетевая модель; Telegram-бот; озвучивание сгенерированного текста; обработка изображений Коллекции: Магистерские диссертации; Общая коллекция Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему и будете работать на компьютерах в читальных залах Библиотеки
Группа: Анонимные пользователи Сеть: Интернет |
Права на использование объекта хранения
| Место доступа | Группа пользователей | Действие | ||||
|---|---|---|---|---|---|---|
| Локальная сеть Библиотеки | Аутентифицированные пользователи |
|
||||
| Локальная сеть Библиотеки | Все | |||||
| Интернет | Аутентифицированные пользователи |
|
||||
|
Интернет | Все |
Оглавление
- Содержание
- Введение
- Глава 1. Генерация описаний и синтез речи
- 1.1. Генерация описаний изображений (Image Captioning)
- Крупнейшие датасеты для обучения:
- Сравнительная таблица моделей:
- 1.1.2. Синтез речи (Text-to-Speech)
- 1.1.3. Чат-боты и Telegram-боты
- 1.2 Теоретические основы генерации описаний изображений
- 1.2.1. Классическая архитектура encoder–decoder
- 1.2.2 Attention-механизм
- Общий принцип:
- Математическое описание:
- 1.2.3. Архитектура трансформеров и переход к BLIP
- 1.2.4. Обучение модели
- 1.2.5. Анализ существующих решений
- 1. Google Lens
- 2. Be My Eyes
- 3. Telegram-боты на основе Hugging Face / BLIP / GIT
- 4. Инструменты TTS и перевода текста
- 5. Модели нового поколения: GPT-4V, Gemini, BLIP-2
- 6. Сравнительная таблица решений
- 1.2.6 Архитектура используемой нейросетевой модели
- 1.2.7 Обоснование выбора модели BLIP и анализ альтернатив
- 1.2.8 Метрики оценки качества генерации описаний
- BLEU (Bilingual Evaluation Understudy)
- METEOR (Metric for Evaluation of Translation with Explicit ORdering)
- Ключевые особенности METEOR:
- Формула метрики (в упрощённом виде)
- Преимущества в задачах image captioning:
- Ограничения:
- CIDEr (Consensus-based Image Description Evaluation)
- Основная идея:
- Ключевые особенности CIDEr:
- Формула CIDEr (упрощённо):
- Преимущества:
- Ограничения:
- ROUGE-L (Recall-Oriented Understudy for Gisting Evaluation – Longest Common Subsequence)
- Основная идея:
- Ключевые особенности ROUGE-L:
- Формула (в упрощённом виде):
- Преимущества ROUGE-L:
- Ограничения:
- Применение в задачах captioning:
- SPICE (Semantic Propositional Image Caption Evaluation)
- Основная идея:
- Компоненты семантического графа:
- Как рассчитывается SPICE:
- Преимущества:
- Ограничения:
- Роль SPICE в captioning-системах:
- 1.2.9 Ограничения и возможные направления улучшения моделей генерации описаний изображений
- 1. Языковая ограниченность
- 2. Поверхностное понимание сцены
- 3. Отсутствие персонализации и адаптации
- 4. Вычислительная нагрузка
- 1.3 Обзор используемых технологий и инструментов
- 1.3.1 Язык программирования
- 1.3.2 Библиотека aiogram
- Основные особенности библиотеки aiogram:
- 1.3.3 Библиотека Pillow (PIL)
- Возможности Pillow:
- Преимущества использования:
- 1.3.4 Библиотека transformers
- Особенности transformers:
- Преимущества использования:
- 1.3.5 Фреймворк PyTorch
- Основные возможности PyTorch:
- Преимущества:
- 1.3.6 Библиотека gTTS (Google Text-to-Speech)
- Ключевые плюсы gTTS:
- Преимущества использования gTTS:
- Ограничения:
- 1.3.7 Библиотека translate
- Основные возможности библиотеки translate:
- Преимущества:
- Ограничения:
- 1.3.8 Библиотека speech_recognition
- Основные возможности speech_recognition:
- Пример базового использования:
- Преимущества:
- Ограничения:
- 1.1. Генерация описаний изображений (Image Captioning)
- Глава 2. Реализация программной системы
- 2.1 Общая архитектура системы
- 2.2 Обработка изображений и генерация описания
- 2.3 Перевод и синтез речи
- 2.4 Логика взаимодействия с пользователем
- 2.5 Хранение и удаление временных файлов
- 2.6 Практическая часть
- 2.6.1 Макеты экранных форм
- 2.6.2 Блок-схема работы приложения
- 2.6.3 Программный код с комментариями
- 2.6.4 Комментарии к реализации
- 2.7 Тестирование Telegram-бота
- 2.7.1 Цель тестирования
- 2.7.2 Методика тестирования
- 2.7.3 Сценарии и результаты тестирования
- 2.7.4 Обработка ошибок и защита от сбоев
- Заключение
- Список использованных источников
Статистика использования
|
|
Количество обращений: 0
За последние 30 дней: 0 Подробная статистика |
