МЕЖДУ ТЕКСТОМ И СМЫСЛОМ

 

 

 

Александр Гельбух[1]

Центр компьютерных исследований,

Национальный политехнический институт,

Мехико, Мексика

 gelbukh(?)pollux.cic.ipn.mx,

gelbukh(?)micron.msk.ru.

 

 

 

Обсуждается представление общей структуры языка как преобразователя между Смыслом и Текстом в виде нетривиальной сети (не цепочки) зависимостей между отдельными подструктурами текста, такими как морфологическая, синтаксическая и т.д. Хотя основные узлы этой сети могут совпадать для разных языков, структура связей в ней оказывается различной. Ее анализ помогает уяснить особенности конкретного языка, его структурное сходство с другими языками и отличия от них и тем самым подобрать из арсенала разных традиций компьютерной лингвистики соответствующие подходы, модели и методы для построения лингвистического процессора для этого языка с применением объектно-ориентированной технологии. В этой связи сравниваются российская и американская лингвистические традиции.

 

 

1.     Введение

 

Данная работа не представляет ни какой-либо конкретной разработки, ни завершенной теории. Вместо этого я хочу вынести на суд коллег мое понимание общей структуры языка, подхода к задаче сравнения языков с точки зрения их компьютерного анализа, а также общей схемы разработки для конкретного языка лингвистического процессора (ЛП), пригодного для достаточно полного «понимания» открытых текстов.

 

Изложенные здесь идеи возникли в ходе работы над ЛП для испанского языка. Из двух лингвистических традиций — модели Смысл Ű Текст, разработанной в первую очередь на материале русского языка, и современных вариантов теории формальных грамматик в стиле Хомского, хорошо работающих, похоже, только на английском материале — нужно было выбрать одну или как-то их совместить. Но к какому из этих двух языков ближе испанский? И в каком смысле? В некоторых существенных для компьютерного моделирования чертах он ближе к английскому (нет падежей, есть артикли и сложные глагольные времена), в некоторых  — к русскому (сложная морфология, свободный порядок слов). Как должно это отразиться на модели Смысл Ű Текст для этого языка?

 

Модель Смысл Ű Текст была создана в эпоху расцвета структурного программирования, системы ЮНИКС с ее конвейерами — короче, идей простоты, последовательности и вложенности, и явилась блестящим воплощением этих идей в компьютерной (да и не только) лингвистике. Сейчас в программирование пришли новые идеи — идеи объектов, сетей и сложности. Отразилось ли это на развитии модели?

 

 

2.     От цепочки к сети

 

Для определенности мы будем говорить только об анализе текста, оставляя за рамками обсуждения вопросы синтеза.

 

2.1.     Цепочка

 

В модели Смысл Ű Текст (МСТ) отдельные уровни, или формы представления текста, связаны в цепочку, так что каждая следующая форма может быть непосредственно построена по предыдущей. На Рис. ˇError! Argumento de modificador desconocido. стрелки, входящие в обозначение такой формы, показывают информацию, необходимую для построения данной структуры при анализе текста, а стрелки, выходящие из обозначения структуры, показывают ее назначение в языке, ее использование при анализе текста.

 

Рис. ˇError! Argumento de modificador desconocido.. Связи между подструктурами в модели Смысл Ű Текст.

Мор — морфологическая структура, Син — синтаксическая структура, Сем — семантическая структура.

 

Каждая из этих структур может быть детализирована, разбита на части, и отношение между узлами в этих частях снова будет последовательное, см. Рис. ˇError! Argumento de modificador desconocido.. Таким образом, все рассматриваемые структуры могут быть вытянуты в одну длинную цепочку.

 

Рис. ˇError! Argumento de modificador desconocido.. Пример детализация структуры в МСТ.

Син — синтаксическая структура, ПС — поверхностный синтаксис, ГС — глубинный синтаксис.

 

Однако такое представление наталкивается на определенные трудности. Неиспользуемая до поры информация прозрачно передается по цепочке до тех пор, пока на каком-либо шаге не будет использована, см., например, рассуждение в [Мельчук 1974] об обработке информации об актуальном членении. Другими словами, на каждом шаге такого конвейера обрабатывается на самом деле не вся, а часть информации. При этом существенные взаимосвязи между отдельными структурами в тексте затушевываются.

 

2.2.     Сеть

 

Типологически существенная информация о взаимосвязях между структурами текста может быть представлена эксплицитно в виде сети. Ее узлами являются отдельные выделяемые в тексте структуры, например, морфологическая (структура слов), синтаксическая (связи между словами), тема-рематическая и т.д. Направленные связи в такой сети показывают, какая информация необходима для построения данной структуры при анализе, другими словами, через какую или какие структуры выражена в тексте данная структура. Пример такой сети для русского языка, точнее, очень приближенный ее набросок, приведен на Рис. ˇError! Argumento de modificador desconocido.[2].

 

Рис. ˇError! Argumento de modificador desconocido.. Структура русского языка.

СФ  —  словоформы, ПС — порядок слов, ИП — интонация или пунктуация,  Мор — морфологическая структура и морфологическая информация,  Лек — лексическая структура и лексическая информация,  ГХ — грамматические характеристики, напр. падеж,  Син  — синтаксическая структура, АЧ — актуальное членение, ЗМ  — знания о мире и ситуации, Сем  — семантика, Пра — прагматика, МА — морфологический анализ.

 

Только три структуры — словоформы, порядок слов и интонация или пунктуация — являются в русском языке непосредственно наблюдаемыми слушающим и непосредственно производимыми говорящим[3]. Остальные служат для внутренних нужд языка как строительный материал для других структур. Наконец, некий набор структур — семантика, прагматика, возможно, какие-то еще, являются «выходными», конечной и самоценной целью анализа.

 

Жирными линиями показаны наиболее существенные для построения конкретной структуры (или просто для настоящего обсуждения) связи, серым цветом обведено «магистральное направление» анализа текста, см. п. 3.3. На рисунке видно, что наиболее важной информацией для построения синтаксической структуры в русском языке являются грамматические характеристики — род, число, падеж. Напротив, порядок слов слабо используется для этой цели. Читатель без труда восстановит значение остальных стрелок, соответствующие объяснения заняли бы слишком много места. Под связью между лексикой и синтаксисом я прежде всего понимаю модели управления — лексическую информацию, необходимую для синтаксического анализа в русском языке.

 

 

3.     Типологические импликации

 

3.1.     Русский и английский

 

Аналогичная схема для английского языка показана на Рис. ˇError! Argumento de modificador desconocido.. Типологические различия двух языков выражены в различной топологии сетей на Рис. ˇError! Argumento de modificador desconocido. и Рис. ˇError! Argumento de modificador desconocido..

 

Рис. ˇError! Argumento de modificador desconocido.. Структура английского языка.

МЧР — маркер частей речи (part of speech tagger).

 

На рисунке видно, что основной структурой, через которую выражен английский синтаксис, его «носителем», является порядок слов. Связь между лексикой и синтаксисом также существенна — это все те же модели управления. Опосредованная грамматическими характеристиками связь же между морфологией и синтаксисом, столь существенная для русского языка, в английском выражена слабо.

 

3.2.     Язык без грамматики?

 

На семинаре Диалог-95 Давид Гил (gil@eva.mpg.de, dgil@copland.udel.edu) сделал замечательный доклад, к сожалению, не опубликованный: «Язык без грамматики», о языке одного из индонезийских племен — риау. По представленной в докладе информации можно вообразить схему, подобную Рис. ˇError! Argumento de modificador desconocido..

 

Рис. ˇError! Argumento de modificador desconocido.. Гипотетическая структура языка риау.

 

Отсутствие в этом языке морфологии и синтаксиса не противоречит требованиям, изложенным в п. 5.1. Что ж, если они не используются как строительный материал для других структур, то они и не нужны.

 

Что кажется несколько странным, так это отсутствие на схеме стрелок, выходящих из узлов «порядок слов» и «интонация» — неужели язык никак их не использует? Вероятно, в языке имеется актуальное членение, но как оно выражается, что является носителем этой структуры? Позволю себе предположить, что им мог бы оказаться один из незадействованных узлов, возможно, порядок слов. Вероятно, список таких вопросов можно продолжить, детализируя схему на Рис. ˇError! Argumento de modificador desconocido. и рассматривая связи между ее узлами.

 

3.3.     Три подхода

 

Каждая из рассмотренных схем подсказывает свой подход к построению ЛП. Лингвисты (и программисты), воспитанные на материале конкретного языка, склонны абсолютизировать его черты и пытаться сводить строение других языков к известным им понятиям. Отсюда многочисленные попытки построения контекстно-свободных грамматик, скажем, для испанского языка. Отсюда, по моему личному мнению, завышение роли понятия части речи в английском языке.

 

Трудность борьбы с предрассудками в области предвзятого поиска несуществующих (несущественных) структур в чужом языке заключается в том, что если в каком-либо языке специально искать какую-либо структуру или явление, то они там обязательно окажутся, пусть и в странном виде (да, английское слово deep можно рассматривать как три омонимичных слова разных частей речи, только зачем искать различия там, где их нет? Да, структуру русского предложения можно представлять в виде Sentence ¬ SVO | SOV | VSO | VOS | OSV | OVS[4], только опять — зачем искать варианты там, где на самом деле единая структура, просто порядок слов в ней несуществен?). Рассмотрение разных языков в рамках единой схемы может помочь осознать разницу между разными подходами к их анализу и, следовательно, найти подходящие аналогии для конкретного, например, испанского, языка.

 

Российский подход. Выделенный серым цветом магистральный путь на Рис. ˇError! Argumento de modificador desconocido. подводит нас к триаде морфология — синтаксис — семантика, то есть к подходу, развитому российской традицией и связанному с именами И.А.Мельчука, Ю.Д.Апресяна и их школы.

 

Более того, программист, во всяком случае не «объектно-ориентированный», думает прежде всего не об узлах сети, а о стрелках — об алгоритмах получения той или иной структуры. Поэтому люди склонны не различать два конца одной стрелки — структуру и ее основной носитель. Занимающиеся русским языком склонны чуть ли не по определению связывать синтаксис с морфологией: подлежащее — это то, что стоит в именительном падеже, а дополнение — в винительном.

 

Американский. Схема на Рис. ˇError! Argumento de modificador desconocido. навязывает мысль, что синтаксис — это и есть порядок слов: подлежащее — это то, что стоит перед глаголом, дополнение — после. Этот подход ассоциируется с именем Н.Хомского. Моделью чего являются формальные грамматики — синтаксиса или порядка слов? В рамках американской традиции сам вопрос представляется почти что некорректным — не все понимают, в чем разница, во всяком случае, не все студенты и рядовые разработчики ЛП, часто далекие от лингвистики, но глубоко впитавшие дух традиции. В действительности формальная грамматика описывает эти две разные структуры кумулятивно, почти не оставляя места для учета влияния других структур.

 

Однако даже для английского языка отдельные «досадные исключения» — на наших схемах, другие стрелки — приходится учитывать в виде неестественных довесков к грамматикам, модифицируя и наращивая их, так что в конце концов «общий случай» тонет в многочисленных уточнениях и исключениях. Осознание того, что синтаксическая (как и другие) структуры выражается не только одним способом, что на нее влияют несколько разных структур языка, пошло бы на пользу разработчикам ЛП (и студентам) на Западе.

 

Семантически ориентированный. Вероятно, ученые племени риау строят свои ЛП по принципу прямого перехода от лексики к семантике, без использования морфологического и синтаксического анализа. Является ли такой подход неправильным? Конечно, не является. Подходит ли он для анализа открытых русских или английских текстов? Вероятно, не подходит, хотя нечто похожее на такие попытки и предпринимается [Small 1982]. Подходит ли он для анализа текстов на этих языках в узких предметных областях, с четко структурированной и ограниченной семантикой? По-видимому, да, и в России такой подход связан для меня прежде всего с работами А.С.Нариньяни в области интерфейсов к базам данных [Нариньяни 1995]. Вероятно, объективно Рис. ˇError! Argumento de modificador desconocido. равно подходит для описания основных черт подъязыка запросов к базам данных.

 

Какой из этих подходов «на самом деле» правильный? Первый приходящий в голову ответ — каждый для своего языка. Похоже, однако, что каждый из этих подходов выиграл бы от рассмотрения не только магистральных, но и других стрелок на схеме. И, напротив, осознание того, что именно и по каким типологическим причинам игнорируется, помогло бы оправдать (или отвергнуть) какой-либо упрощенный подход для конкретного языка или подъязыка. При построении же ЛП для других языков, еще не имеющих собственной традиции компьютерной лингвистики, выявление топологии сети зависимостей между структурами и соответствующее построение ЛП — а не слепое принятие одного из перечисленных подходов, скажем, американского — представляется весьма полезным.

 

3.4.     Две тенденции

 

Обращает на себя внимание также разница в наиболее популярных направлениях работы в российской и американской традициях: в России очень много внимания уделяется морфологическим анализаторам, а на Западе — маркерам частей речи (part of speech taggers) и соответствующим статистическим методам. Естественно, это объясняется различным положением наиболее интересных — встречных — пар стрелок на Рис. ˇError! Argumento de modificador desconocido. и Рис. ˇError! Argumento de modificador desconocido., где соответствующие пары специально помечены символами МА и МЧР. В этом наблюдении нет ничего ни нового, ни удивительного.

 

Однако при выборе методов и направлений лингвистического исследования для другого языка необходимо учитывать структурное сходство данного языка с базовыми языками двух основных (или иных) лингвистических традиций. К сожалению, из-за малой известности российской лингвистической традиции на Западе исследователи, работающие, например, с испанским языком, следуют в основном американской традиции. Так, крупнейшая в Мексике группа лексикографов под руководством д-ра Л.Ф.Лары использовала статистические методы в стиле американской традиции при построении своего маркера частей речи [Lara 1979]. С типологической точки зрения такой выбор самого направления работ представляется гораздо менее обоснованным, чем, например, подвиг А.А.Зализняка, составившего свой Грамматический словарь для русского языка.

 

3.5.     Составляющие или зависимости?

 

Не претендуя на разрешение давнего спора между сторонниками этих двух методов синтаксического анализа, и, более того, оставляя в стороне более тонкий  и содержательный анализ в [Гладкий 1985], где приводятся аргументы в пользу ответа «и составляющие, и зависимости», однако в несколько ином смысле, заметим, что наши схемы наводят на мысль, что самой этой оппозиции не существует. Более точно, ее члены принадлежат к двум разным узлам сети (или, говоря более традиционным языком — «уровням»): собственно синтаксической структуре и способу ее выражения. А именно, составляющие — один из способов выражения, то есть один из возможных носителей синтаксической структуры; морфологическое (или иное) маркирование синтаксически связанных слов — другой.

 

Что же такое сама синтаксическая структура? Похоже, даже западная лингвистика приходит к мысли, что это —  структура, в конечном счете, зависимостей. На этом сходятся не только Смысл Ű Текст, но и HPSG [Sag 1999], и LFG [Kaplan 1994], и другие «западные» модели. Итак, реальная оппозиция — синтаксические зависимости, выраженные составляющими (то есть порядком слов) versus синтаксические зависимости, выраженные маркерами (грубо говоря, морфологически). Как видно из наших схем, однако, в конкретном языке присутствуют оба способа выражения, хотя и с разной степенью «важности» — и, следовательно, оба должны быть реализованы в достаточно полной модели языка.

 

4.     Развитие идеи

 

В одной статье нет возможности изложить детали построения сетей для разных языков, поэтому выше я сознательно ограничился изложением только самой грубой схемы. В данном разделе будут намечены пути более детальной ее проработки.

 

Детализация сети. Естественно, каждый элемент такой сети может быть детализирован, превращен в несколько элементов, которые наследуют некоторые из связей первоначального элемента, аналогично Рис. ˇError! Argumento de modificador desconocido.. При этом структура сети усложняется, связи, которые в укрупненной схеме входили в один узел или исходили из одного узла, могут оказаться разнесенными по разным узлам, причем различие структуры сетей для разных языков становится еще более очевидным. На Рис. ˇError! Argumento de modificador desconocido. дан пример детализации узла «грамматические характеристики» для английского языка (намеренно отражены те характеристики, которые также присутствуют на соответствующей схеме для русского языка).

 

Рис. ˇError! Argumento de modificador desconocido.. Детализация части сети для английского языка.

ЧР — часть речи, Пад — падеж, Чис — число, Вре — время.

 

Легко видеть, что для русского языка зависимости получились бы иными, например, русский падеж выражен в основном через морфологию, часть речи не зависит от синтаксиса, род активно используется синтаксисом, а число и род прилагательных (в русском они отделены от соответствующих характеристик существительных и глаголов) связаны с морфологией и синтаксисом, а не с семантикой.

 

Язык и речь. Для каждого элемента относящиеся к нему знания должны быть отделены на схеме от представления соответствующей структуры текста. Пример такого разделения для узлов «морфология» и «лексика» дан на Рис. ˇError! Argumento de modificador desconocido.. Аналогичным образом должны быть отделены «знания о мире» (это скорее язык) от «знаний о ситуации» (текст) и т.д.

 

Рис. ˇError! Argumento de modificador desconocido.. Разделение узлов на знания о языке и о структуре анализируемого текста.

 

Спецификация зависимостей. Каждая стрелка на схеме должна быть снабжена описанием того, как именно связаны две данные структуры. Вероятно, на самом деле в сети почти любые два узла как-то связаны, просто некоторые связи важны и заметны сразу, некоторые же неочевидны. Таким образом, различной для разных языков оказывается не столько топология сети, сколько «сила» и, главное, конкретное содержание стрелок на ней. Полная спецификация связей фактически может служить заданием на программирование лингвистического процессора для данного языка.

 

 

5.     Импликации для разработчиков ЛП

 

5.1.     Свойства сети

 

Каждый узел зависит от других. В сети обсуждаемого типа в каждый узел, вероятно, должна идти стрелка. Если в некоторый узел не ведет никакой стрелки, то он либо должен быть «непосредственно наблюдаемым», либо должен принадлежать не тексту, а языку (см. раздел 4), либо... либо мы чего-то не понимаем в данном языке.

 

По-видимому, часто возможно выделить одну «главную» стрелку, ведущую в узел сети  — это основной носитель данной структуры в данном языке, значит, и метод построения данной структуры в ЛП должен быть выбран соответствующим. Однако в каждый узел, вероятно, должно вести несколько или даже много второстепенных стрелок. Отсутствие их в схеме конкретного ЛП, возможно, должно быть серьезным сигналом тревоги для его разработчиков.

 

От каждого узла зависят другие. Из каждого элемента, если он вообще представлен на схеме, должна вести хотя бы одна стрелка. Язык не терпит пустоты — не может имеющееся в распоряжении средство выражения оставаться в языке неиспользуемым. Так, русский язык называют языком со свободным порядком слов, что иногда принимается за возможность расставлять слова как угодно. Отсутствие на Рис. ˇError! Argumento de modificador desconocido. существенных стрелок, ведущих из узла «порядок слов», послужило бы сигналом тревоги — некоторого существенного недопонимания. На самом деле, конечно, термин свободный порядок слов должен пониматься как порядок слов, являющийся носителем не синтаксиса, а чего-то другого. Задача разработчиков ЛП в этом случае — выяснить, чего именно. При разработке ЛП схема, подобная приведенной на Рис. ˇError! Argumento de modificador desconocido., должна вызывать у разработчиков ЛП вопросы, поставленные в разделе 3.2.

 

5.2.     Порядок разработки ЛП

 

Выбор лингвистической традиции. Так или иначе, разработчики ЛП для конкретного языка сталкиваются с необходимостью опираться на одну из крупных лингвистических традиций. Выбор традиции должен основываться на сравнении схемы данного языка с другими, для которых методы анализа хорошо известны. Так, сравнение схемы для испанского языка с Рис. ˇError! Argumento de modificador desconocido. и Рис. ˇError! Argumento de modificador desconocido. показывает, что идеи российской традиции в области морфологического и синтаксического анализа должны быть более эффективны при построении испанского ЛП. Возможно, по-видимому, и совмещение разных методов, если одни связи на построенной схеме ближе к одному языку, а другие — к другому. Так, существенную роль в синтаксическом анализе испанских текстов должны играть предлоги, следовательно, оправдано заимствование соответствующих методов из американской традиции.

 

Разработка сетевой модели. Построение сетевой схемы для конкретного языка позволит упорядочить работу по созданию ЛП и организовать ее, как это принято в объектно-ориентированном программировании: после построения общей схемы перейти к детализации каждого ее узла, то есть к спецификации соответствующих структур (объектов) и затем связей между узлами. Первое, возможно, будет скорее делом программистов совместно с лингвистами, второе — лингвистов. После спецификации каждой из подструктур по отдельности можно приступать к независимой программной реализации соответствующих классов и составлению словарей.

 

Уточнение существующей модели. Даже ЛП для английского или русского языка выиграл бы от явного учета многообразных связей между структурами текста. Так, разработчики русского ЛП могут задаться вопросом: связаны ли в русском языке актуальное членение и лексика? учли ли мы эту связь? А пунктуация и семантика? Даже если такой анализ не привнесет никакого нового качества, он позволит упорядочить разработку и лучше осознать структуру программы.

 

 

6.     Выводы и вопросы

 

Итак, рассмотрение сети зависимостей между структурами текста позволяет разработчикам ЛП (и студентам-нелингвистам) сравнить разные подходы и традиции, в данном случае российскую и американскую, в рамках одной схемы и, таким образом, лучше уяснить место различных методов, применяемых при анализе конкретного языка, в особенности языка, не имеющего собственной традиции компьютерной лингвистики.

 

Более того, предлагается строить лингвистический процессор в соответствии с идеями объектно-ориентированного подхода. При таком подходе лингвисты специфицируют набор рассматриваемых структур и связей между ними, включая конкретное содержание каждой связи, после чего коллектив программистов может реализовывать каждый класс независимо от других.

 

Нельзя сказать, что предложенный подход однозначно лучше, скажем, традиционной последовательной схемы модели Смысл Ű Текст. Так, при сетевом представлении оказывается утерянной идея вложенности структур: морфы складываются в слова, те во фразы и т.д. Кроме того, неясно, как представлять тройные и более зависимости между структурами: например, данная лексема так-то влияет на актуальное членение, но только в таком-то синтаксическом контексте.

 

Еще больше вопросов остается в плане практической реализации ЛП по обсуждаемой технологии. Как представлять конкретные структуры, скажем, тема-рематическую структуру отдельно от синтаксической? Как их синхронизировать, то есть как соотносить, скажем, части тема-рематической структуры как отдельного объекта с частями синтаксической? Какого рода «сообщения» должны циркулировать между такими объектами при их взаимодействии? Ответ на эти вопросы мог бы дать платформу для разработки и оценки ЛП, отвечающую современным требованиям как к технической и лингвистической, так и к организационной стороне.

 

 

Литература

 

Мельчук И.А. Опыт теории лингвистических моделей Смысл Ű Текст. М.: Наука, 1974.

Нариньяни A.C. Проблема понимания ЕЯ-запросов к базам данных решена // Труды Международного семинара Диалог'95, Казань, 1995.

Lara, L.F., et al. Investigaciones linguisticas en lexicografia. El Colegio de Mexiсo, Mexico, 1979.

Small, S.L., and C.J. Rieger. Parsing and comprehending with word experts (a theory and its realization) // Lehnert and Ringle (eds.), Strategies for Natural Language Processing, 1982, pp. 89-147.

Гладкий А.В.  Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Наука, 1985.

Sag, Ivan A., and Thomas Wasow. Syntactic theory: A Formal introduction. CSLI Publ.,  Stanford, 1999.

Kaplan, Ronald M. The Formal Architecture of Lexical-Functional Grammar. In M. Dalrymple et al, ed. Formal Issues in Lexical-Functional Grammar, Stanford, 1994.

 

 

BETWEEN TEXT AND MEANING

 

Alexander Gelbukh[5]

 

The general structure of language as a Meaning Ű Text transformer is discussed. In the (nongenerative) tradition related to the Meaning Ű Text theory, the traditional representation of language is a chain of structures, or levels, e.g.: morphology ® syntax ® semantics, see Fig. 1. Instead of a chain, we suggest to consider a network of dependencies between various structures of language, such as morphology, lexicon, syntax, actual articulation, etc. Such a network has different topology for different languages, see Fig. 3 for Russian, Fig. 4 for English, Fig. 5 for the language of NL DB queries and also the natural language Rhiau. In the development of a linguistic processor (LP) for some another language, say, Spanish, the analysis of such network helps to choose the methods to be adopted from the major linguistic traditions. We argue for the Russian tradition, namely the Meaning Ű Text theory, to be more adequate for Spanish than the American one. We suggest to develop the LP according to the object oriented technology by refining the network of interrelationships of the language structures, see Fig. 6 for English. The multiplicity of relationships for each structure is emphasized. In particular, it is argued that there is no opposition between syntactic constituents and syntactic dependencies; instead, the opposition exists between syntactic dependencies expressed by the constituency structure and syntactic dependencies expressed by (morphological) markers, and both exist in nearly any particular language. We also believe that our  representations are useful in teaching computational linguistics.

 

 

Данные для цитирования этой статьи:

 

Александр Гельбух. Между смыслом и текстом. Труды Диалог-99, 30 мая 5 июня, 1999, Москва, стр. 47–55.

 

Please cite this paper as follows:

 

Alexander Gelbukh. Between meaning and text. Proc. Dialogue-99, May 30 – June 5, 1999, Moscow, Russia, pp. 47–55.

 



[1] Зав. Лабораторией естественного языка, Центр компьютерных исследований, Национальный политехнический институт, Мехико, Мексика, gelbukh(?)pollux.cic.ipn.mx, gelbukh(?)micron.msk.ru.

[2] На этом рисунке не столько отражена реальная структура русского языка, сколько подчеркнуто его отличие от английского, Рис. ˇError! Argumento de modificador desconocido..

[3] Для языков других типов или для других систем письма, например, иероглифической (поскольку речь идет о технической задаче анализа письменного текста), этот список может оказаться иным.

[4] Sentence предложение, S подлежащее, V — глагол, O — дополнение.

[5] Work done in the Natural Language Laboratory, Center for Computing Research (CIC), National Polytechnic Institute (IPN), Mexico City, Mexico, gelbukh(?)pollux.cic.ipn.mx, with partial support of REDII-CONACyT, DEPI-IPN, and COFAA-IPN, Mexico.