ЭБС Уфимского университета науки и технологий
фонд Заки Валиди 32, Карла Маркса 3/1 и Достоевского 131

     

Детальная информация

Петрова, Мария Владимировна. Практикум по обработке лингвистических данных для машинного перевода (проект): выпускная квалификационная работа по программе магистратуры. Направление подготовки (специальность) : 45.04.02 "Лингвистика". Направленность (профиль): "Перевод и переводоведение" / М. В. Петрова; Башкирский государственный университет, Факультет романо-германской филологии, Кафедра лингводидактики и переводоведения ; научный руководитель Р. Г. Мифтахова. — Уфа, 2021. — 108 с. — <URL:https://elib.bashedu.ru/dl/diplom/Petrova MV 45.04.02_lingvistika_mag_2021..pdf>. — Текст: электронный

Дата создания записи: 25.06.2021

Тематика: Языкознание — Теория перевода; ВКР; магистратура; машинный перевод; прикладная лингвистика; Python

УДК: 81'25

ББК: 81.07

Коллекции: Магистерские диссертации; Общая коллекция

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему и будете работать на компьютерах в читальных залах Библиотеки

Группа: Анонимные пользователи

Сеть: Интернет

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть Библиотеки Аутентифицированные пользователи Прочитать
Локальная сеть Библиотеки Все
Интернет Аутентифицированные пользователи Прочитать
-> Интернет Все

Оглавление

  • Другой проблемой является то, что у одного слова может быть несколько разных лемм. Преодолеть эти две проблемы можно следующим образом: используя контекст, определить тег POS (part-of-speech) для конкретного слова и выделить его лемму [URL 34].
  • Ниже приведен пример кода, с помощью которого описан способ лемматизации слов и предложений. Для этого необходимо из пакета nltk загрузить модуль wordnet и использовать его лемматизатор WordNetLemmatizer.
  • >>> import nltk
  • >>> nltk.download('wordnet')
  • [nltk_data] Downloading package wordnet to
  • [nltk_data] C:\Users\Мария\AppData\Roaming\nltk_data...
  • [nltk_data] Package wordnet is already up-to-date!
  • True
  • >>> from nltk.stem import WordNetLemmatizer
  • >>> lemmatizer=WordNetLemmatizer()
  • >>> print(lemmatizer.lemmatize('feet'))
  • foot
  • >>> print(lemmatizer.lemmatize('horses'))
  • horse
  • >>> print(lemmatizer.lemmatize('teeth'))
  • teeth
  • >>> lem=mc.words('example.txt')
  • >>> lem[:30]
  • ['Increased', 'use', 'of', 'psychiatric', 'language', 'means', 'ordinary', 'distress', 'is', 'being', 'medicalised', ',', 'while', 'the', 'seriously', 'ill', 'are', 'not', 'being', 'heard', '.', 'Many', 'years', 'ago', ',', 'in', 'the', 'fading', 'hou...
  • >>> print(lemmatizer.lemmatize('years'))
  • year
  • >>> print(lemmatizer.lemmatize('increased'))
  • increased
  • >>> print(lemmatizer.lemmatize('heard'))
  • heard
  • >>> print(lemmatizer.lemmatize('heard', 'v'))
  • hear
  • >>> print(lemmatizer.lemmatize('means'))
  • mean
  • >>> print(lemmatizer.lemmatize('heard')) (1)
  • heard (1)
  • >>> print(lemmatizer.lemmatize('heard', 'v')) (1)
  • hear (1)

Статистика использования

stat Количество обращений: 1
За последние 30 дней: 0
Подробная статистика