Бесплатный Банк Рефератов - Взаимодействие математики и языкознания

Рефераты. Взаимодействие математики и языкознания

В наше время появляются новые технологии машинного перевода, основанные на использовании систем искусственного интеллекта, статистических методах. О последних - в следующем разделе.

2.2 Статистические методы в изучении языка

Немалое внимание в современной лингвистике отводится изучению языковых явлений методами количественной математики. Количественные данные часто помогают более глубоко осмыслить изучаемые явления, их место и роль в системе смежных явлений. Ответ на вопрос «сколько» помогает ответить и на вопросы «что», «как», «почему» - таков эвристический потенциал количественной характеристики.

Немалую роль статистические методы играют в разработке систем машинного перевода (см. раздел 2.1). При статистическом подходе проблема перевода рассматривается в терминах канала с помехами. Представим себе, что нам нужно перевести предложение с английского на русский. Принцип канала с помехами предлагает нам следующее объяснение отношений между английской и русской фразой: английское предложение представляет собой не что иное, как русское предложение, искаженное неким шумом. Для того чтобы восстановить исходное русское предложение, нам нужно знать, что именно люди обычно говорят по-русски и как русские фразы искажаются до состояния английского. Перевод осуществляется путем поиска такого русского предложения, которое максимизирует произведения безусловной вероятности русского предложения и вероятности английского предложения (оригинала) при условии данного русского предложения. Согласно теореме Байеса, это русское предложение является наиболее вероятным переводом английского:

где e - предложение перевода, а f - предложение оригинала

Таким образом, нам требуется модель источника и модель канала, или модель языка и модель перевода. Модель языка должна присваивать оценку вероятности любому предложению конечного языка (в нашем случае, русского), а модель перевода -предложению оригинала. (cм. табл.1)

Табл.1.

	amount	bonus	compensation	payment	rate
выплата	15%	8%	6%	71%	0%
оплата	0%	0%	0%	97%	3%

В общем случае система машинного перевода работает в двух режимах:

1. Обучение системы: берется тренировочный корпус параллельных текстов, и с помощью линейного программирования ищутся такие значения таблиц переводных соответствий, которые максимизируют вероятность (например) русской части корпуса при имеющейся английской согласно выбранной модели перевода. На русской части того же корпуса строится модель русского языка.

2. Эксплуатация: на основе полученных данных для незнакомого английского предложения ищется русское, максимизирующее произведение вероятностей, присваиваемых моделью языка и моделью перевода. Программа, используемая для такого поиска, называется дешифратором.

Самой простой статистической моделью перевода является модель дословного перевода. В этой модели предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель Для приведения P(a, f | e) к P(a | e, f), т.е. вероятности данного выравнивания при данной паре предложений, каждая вероятность P(a, f | e) нормализуется по сумме вероятностей всех выравниваний данной пары предложений:

Реализация алгоритма Витерби, используемая для обучения Модели №1, состоит в следующем:

1.Вся таблица вероятностей переводных соответствий заполняется одинаковыми значениями.

2. Для всех возможных вариантов попарных связей слов вычисляется вероятность P(a, f | e):

3. Значения P(a, f | e) нормализуются для получения значений P(a | e, f).

4. Подсчитывается частота каждой переводной пары, взвешенная по вероятности каждого варианта выравнивания.

5. Полученные взвешенные частоты нормализуются и формируют новую таблицу вероятностей переводных соответствий

6. Алгоритм повторяется с шага 2.

Рассмотрим в качестве примера тренировку подобной модели на корпусе из двух пар предложений (рис.2):

- Белый Дом/White House

Дом/House

Рис.1

После большого числа итераций мы получим таблицу (табл.2.), из которой видно, что перевод осуществляется с высокой точностью.

Табл.2

	White	House
белый	0,9999	0, 0001
дом	0, 0001	0,9999

Также статистические методы широко используются в изучении лексики, морфологии, синтаксиса, стилистики. Учёные Пермского государственного университета провели исследование, в основе которого лежало утверждение о том, что стереотипные словосочестания являются важным «строительным материалом» текста [13, c.24]. Эти словосочетания состоят из «ядерных» повторяющихся слов и зависимых слов-конкретизавторов и имеют ярко выраженную стилистическую окраску.

В научном стиле «ядерными» словами можно назвать: исследование, изучение, задача, проблема, вопрос, явление, факт, наблюдение, анализ и др. В публицистике «ядерными» будут уже другие слова, обладающие повышенной ценностью именно для текста газеты: время, лицо, власть, дело, действие, закон, жизнь, история, место и т.д. (всего 29)

Особый интерес для лингвистов представляет также профессиональная диффереренциация общенародного языка, своеобразие использования лексики и грамматики в зависимости от рода занятий. Известно, что шофёры в профессиональной речи употребляю форму шофер, медики говорят коклюш вместо коклюш - подобных примеров можно привести. Задача статистики - проследить за вариативностью произношения и изменением языковой нормы.

Профессиональные различия ведут за собой различия не только грамматические, но и лексические. В Якутском государственном университете им. М.К. Аммосова было проанализировано по 50 анкет с наиболее часто встречающимися реакциями на некоторые слова среди медиков и строителей (табл.3) [13, c.78].

Табл.3

Стимул	Медики	Строители
человек	пациент (10), личность (5)	мужчина (5)
добро	помощь (8), помогать (7)	зло (16)
жизнь	смерть (10)	прекрасная (5)
смерть	труп (8)	жизнь (6)
огонь	жар (8), ожог (6)	пожар (7)
палец	рука (14), панариций (5)	большой (7), указательный (6)
глаза	зрение (6), зрачок, окулист (по 5)	карие (10), большие (6)
голова	ум (14), мозги (5)	большая (9), умная (8), ум (6)
терять	сознание, жизнь (по 4)	деньги (5), находить (4)

Можно заметить, что медики чаще, чем строители, дают ассоциации, связанные с их профессиональной деятельностью, так как приведённые в анкете слова-стимулы имеют к их профессии больше отношения, чем к профессии строителя.

Статистические закономерности в языке используются для создания частотных словарей - словарей, в которых приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого-либо языка - языка писателя, какого-либо произведения и т. п. Обычно в качестве характеристики употребительности используется частота встречаемости слова в тексте определенного объема

Модель восприятия речи невозможна без словаря как своего существеннейшего компонента. При восприятии речи основной оперативной единицей выступает слово. Из этого следует, в частности, что каждое слово воспринимаемого текста должно быть отождествлено с соответствующей единицей внутреннего словаря слушающего (или читающего). Естественно считать, что уже с самого начала поиск ограничен некоторыми подобластями словаря. Согласно большинству современных теорий восприятия речи, собственно фонетический анализ звучащего текста в типичном случае дает лишь некоторую частичную информацию о возможном фонологическом облике слова, и такого рода информации отвечает не одно, а определенное МНОЖЕСТВО слов словаря; следовательно, возникает две задачи:

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11