Вход в систему

ЭБС Уфимского университета науки и технологий
фонд Заки Валиди 32, Карла Маркса 3/1 и Достоевского 131

Детальная информация

	Карточка	Таблица	RUSMARC

Петрова, Мария Владимировна. Практикум по обработке лингвистических данных для машинного перевода (проект): выпускная квалификационная работа по программе магистратуры. Направление подготовки (специальность) : 45.04.02 "Лингвистика". Направленность (профиль): "Перевод и переводоведение" / М. В. Петрова; Башкирский государственный университет, Факультет романо-германской филологии, Кафедра лингводидактики и переводоведения ; научный руководитель Р. Г. Мифтахова. — Уфа, 2021. — 108 с. — <URL:https://elib.bashedu.ru/dl/diplom/Petrova MV 45.04.02_lingvistika_mag_2021..pdf>. — Текст: электронный

Дата создания записи: 25.06.2021

Тематика: Языкознание — Теория перевода; ВКР; магистратура; машинный перевод; прикладная лингвистика; Python

УДК: 81'25

ББК: 81.07

Коллекции: Магистерские диссертации; Общая коллекция

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему и будете работать на компьютерах в читальных залах Библиотеки

Группа: Анонимные пользователи

Сеть: Интернет

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть Библиотеки		Аутентифицированные пользователи
	Локальная сеть Библиотеки		Все
	Интернет		Аутентифицированные пользователи
	Интернет		Все

Другой проблемой является то, что у одного слова может быть несколько разных лемм. Преодолеть эти две проблемы можно следующим образом: используя контекст, определить тег POS (part-of-speech) для конкретного слова и выделить его лемму [URL 34].
Ниже приведен пример кода, с помощью которого описан способ лемматизации слов и предложений. Для этого необходимо из пакета nltk загрузить модуль wordnet и использовать его лемматизатор WordNetLemmatizer.
>>> import nltk
>>> nltk.download('wordnet')
[nltk_data] Downloading package wordnet to
[nltk_data] C:\Users\Мария\AppData\Roaming\nltk_data...
[nltk_data] Package wordnet is already up-to-date!
True
>>> from nltk.stem import WordNetLemmatizer
>>> lemmatizer=WordNetLemmatizer()
>>> print(lemmatizer.lemmatize('feet'))
foot
>>> print(lemmatizer.lemmatize('horses'))
horse
>>> print(lemmatizer.lemmatize('teeth'))
teeth
>>> lem=mc.words('example.txt')
>>> lem[:30]
['Increased', 'use', 'of', 'psychiatric', 'language', 'means', 'ordinary', 'distress', 'is', 'being', 'medicalised', ',', 'while', 'the', 'seriously', 'ill', 'are', 'not', 'being', 'heard', '.', 'Many', 'years', 'ago', ',', 'in', 'the', 'fading', 'hou...
>>> print(lemmatizer.lemmatize('years'))
year
>>> print(lemmatizer.lemmatize('increased'))
increased
>>> print(lemmatizer.lemmatize('heard'))
heard
>>> print(lemmatizer.lemmatize('heard', 'v'))
hear
>>> print(lemmatizer.lemmatize('means'))
mean
>>> print(lemmatizer.lemmatize('heard')) (1)
heard (1)
>>> print(lemmatizer.lemmatize('heard', 'v')) (1)
hear (1)

Статистика использования

Количество обращений: 1
За последние 30 дней: 0
Подробная статистика

ЭБС Уфимского университета науки и технологий фонд Заки Валиди 32, Карла Маркса 3/1 и Достоевского 131

Детальная информация

Права на использование объекта хранения

Оглавление

Статистика использования

ЭБС Уфимского университета науки и технологий
фонд Заки Валиди 32, Карла Маркса 3/1 и Достоевского 131