В семи томах том Информатика смысла Машинная лингвистика




НазваниеВ семи томах том Информатика смысла Машинная лингвистика
страница6/33
Дата29.11.2012
Размер4.61 Mb.
ТипДокументы
1   2   3   4   5   6   7   8   9   ...   33
Глава 2. Семантическая грамматика русского языка


Два стимула послужили основанием для создания новой грамматики русского языка. Первый стимул - это упорная работа над созданием Интеллсист, призванной обеспечить любого пользователя ВМ средствами решения его задач и проблем на основе своих знаний без привлечения программистов и формальных способов их представления. Второй стимул - публикация пяти лекций известного в информатике языковеда Н. Хомского [Хомский96] о сопоставлении и согласовании языка и знаний. Первый стимул явился как необходимость рассмотрения ЕЯ в качестве средства общения человека с ВМ, а второй - вызвал критическое настроение от способов понимания смысла любых текстов, передающих знания. В этой главе рассматривается формальное определение ЯПП как части ЕЯ с помощью грамматики языка Лейбниц, который предназначен для внутреннего (в Интеллсист) представления знаний и для точного понимания языковой сущности общения в системе человек-ВМ.


Утверждается, что существующая грамматика русского языка является по существу синтаксической. Она рассматривает правила построения слов, словосочетаний, предложений и текстов. Грамматика базируется примерно на двух-трех сотнях грамматических категорий. Различие ЕЯ одной национальности и ЕЯ другой заключается не только в различных способах представления слов и алфавитов, но и базируется на разных категориях грамматик. Эти факторы усложняют процессы перевода с одного ЕЯ на другой. В частности, от этого же усложняется перевод с данного ЕЯ на ФЯ, а перевод крайне необходим при передаче смысла знаний для Интеллсист. Синтаксическая грамматика ЕЯ не определяет смысл всех конструкций и категорий этого языка для Интеллсист (эта задача и не входила в цели описания грамматики). Имеются некоторые исключения для такого общего мнения. К примеру, в синтаксической грамматике поясняется смысл косвенной речи, некоторых знаков пунктуации и собственных имен. Несколько больше смысла можно обнаружить в части русского языка, применяемой для передачи профессиональных знаний. ВМ обычно используется для решения задач, вопросов или проблем, формулировка которых содержит смысл, который не может быть понят на основе грамматических правил. Определение смысла возможно только при построении СеГ ЕЯ. СеГ состоит из правил вычисления смысла текстов. Будем рассматривать только русский язык, хотя все формальные определения его СеГ легко перекладываются на любой другой ЕЯ. Эти обстоятельства позволяют предполагать, что СеГ является универсальной и промежуточной (посреднической), она может использоваться для построения программ перевода с одного (в том числе и формального) языка на другой (в том числе формальный) язык. Именно в связи с этим укрепляется мысль о существовании универсальной грамматики, которая явилась бы промежуточным языком в алгоритмах перевода с языка на язык.


Введение в сущность СеГ


Истоки воззрений на смысл текстов находятся в трудах Лейбница [Лейбниц], который исследовал начала символического языка как универсального средства анализа научного мышления, а также в трудах Фреге [Фреге77], который определил элементарную единицу знания. Клини в своей монографии [Клини73] показал примеры сопоставления ЕЯ и символического языка. Длительная работа со средствами написания программ и развития интеллекта ВМ позволили автору вплотную заняться изучением сущности грамматики русского языка и поиском алгоритмов понимания ЕЯ. Ограничимся рассмотрением только русского языка, в предположении, что для других ЕЯ сохраняется общий конструктивный подход для формирования алгоритмов понимания текстов. В лекциях Хомского делается попытка поиска смысла текста с помощью средств, данных в классической грамматике, - СиГ ЕЯ. Этот подход оправдывается только частично. Рассматривается альтернативный подход к методам определения смысла текстов.


Современная литература по проблемам анализа ЕЯ и применения его в ИИ отражает поиск продуктивного сопоставления грамматик ЕЯ и ФЯ [Логический98 и др.]. Внимательный анализ литературы в сопоставлении с идеями настоящего раздела приводит к следующему. Можно указать несколько ошибок в анализах ЕЯ с точки зрения нового понимания СеГ в выборе путей сближения ЕЯ и логических языков. Первая ошибка состоит в игнорировании принятого в информатике правила о том, что каждое понятие должно быть описано, а описание понятия должно передаваться ВМ для использования его при анализе текстов. Человек понимает текст только в том случае, когда ему известны (может быть и на интуитивном уровне) смыслы всех понятий, используемых в тексте. Известное высказывание Рассела из Анализе разума, приведенное в эпиграфе, подтверждает сказанное. Другой взгляд таков: только термины могут иметь смысл или значения, которые определяют смысл фразы. Вторая ошибка состоит в переносе из СиГ идеи о том, что основным носителем смысла является только слово. Опять можно применить указанный выше другой взгляд. Конечно, слово может быть термином, тогда оно будет носителем смысла. Третья ошибка состоит в том, что смысл фразы постоянен относительно данной БЗ и не зависит от контекста ее использования или применения. Смысл фразы: «Жители Адаманских островов едят на обед рагу из гиппопотама» может быть определенным. Если имеются затруднения при понимании этого высказывания, то эту фразу можно задать в качестве запроса для Интеллсист, тогда она в зависимости от наполнения БЗ будет выводить различные ответы: «да», «нет» или «не знаю». Так же эту фразу понимает и человек. Четвертая ошибка состоит в том, что части речи грамматики ЕЯ привязываются прочно к смыслу понятий, упуская при этом важное обстоятельство - фраза, составленная из слов различных частей речи, может составлять структурное понятие, имеющее смысл, отличный от соединения смыслов отдельных слов. Конечно основная беда исследований ЕЯ, представленных в [Логический98], состоит в том, что каждый подход к формализации ЕЯ (обсуждается формализация английского языка) состоит в поиске правил, охватывающих весь ЕЯ. Всезнайкой быть невозможно, поэтому ЯПП ориентирован на конкретную область знаний (для анализируемой литературы это пятая ошибка). Это вполне оправдано, поскольку задачи решаются специалистами конкретной области, их не интересует другая область знаний, может быть кроме смежных областей.


История формирования СеГ начиналась в связи с появлением первых электронных ВМ. ВМ перерабатывает (главным образом) двоичные коды. Запись программ в двоичных кодах сразу же не была воспринята, но помогла счастливая случайность простого перевода двоичного кода в восьмеричный и обратный перевод. Эти возможности помогли программистам некоторое время успешному освоению основ программирования. Вскоре появился буквенно-цифровой код, имена ячеек памяти ВМ стало возможным именовать словами, а коды операций - их естественным обозначением. Такой способ записи программ стали именовать автокодом. Было обнаружено, что трансляция формул осуществляется на основе простых алгоритмов. После этого родилось средство записи программ на языке формульный автокод (ФРАК). Со временем стали появляться многочисленные ФЯ некоторого уровня абстракции. В настоящее время актуально использование ЕЯ на основе символов, экранных пиктограмм или картинок. При этом история развития средств общения с ВМ наложила серьезный отпечаток на программирование, каждый из способов представления программ работает и будет работать в программистской деятельности.


Тексты на ЕЯ после ввода в память ВМ подвергаются переводу на внутреннее представление, которое должно максимально сохранять смысл исходного текста (как главное требование к любому преобразованию текстов или цепочек символов). Проблема перевода с одного ЕЯ (исходный язык) на другой (объектный язык) состоит в построении текста на объектном языке таким образом, чтобы смысл исходного текста сохранился максимально. Едва ли можно утверждать «сохранился полностью», об этом необходим отдельный разговор. С точки зрения требования сохранения смысла все рассматриваемые процедуры должны их выполнять. По-видимому, алгоритм понимания текстов пригоден для программ перевода с одного ЕЯ на другой. При переходе к внутреннему представлению текстов возникает реальная и разрешимая проблема построения универсальной грамматики и универсального языка, который именуется Лейбниц. Универсальная грамматика не пригодна для всеобщего использования человеком, она выполняет специальные функции построения Интеллсист или программ перевода (она доступна только программистам для построения таких программ).


На основе алгоритмов понимания ЕЯ представляется возможным построение новой грамматики русского языка, которая по составу возможных или допустимых ею текстов не отличается от классической грамматики, но которую понимает и человек, и ВМ. Классическая грамматика русского языка [Шанский81, Современный81] нами именуется синтаксической грамматикой или СиГ, поскольку она дает правила построения слов, словосочетаний и предложений, новая грамматика – семантической грамматикой или СеГ, поскольку она дает правила «вычисления смысла» всего текста. Именно СеГ русского языка является предметом нашего рассмотрения. Язык, порождаемый СеГ, называется ЯПП. Профессиональность ЯПП определяется составом лексикона. Язык поэзии можно и надо изучать с точки зрения передачи знания, но он очень уж активно использует принцип умолчания и небрежно (хотя и красиво) варьирует термины и синонимы.


Научить ВМ пониманию ЕЯ - это главная цель построения СеГ. Другая цель состоит в обучении пользователя общению с ВМ, которому сообщены знания в данных предметных и проблемных областях. Указанные цели являются взаимодополняющими и не противоречат ни современной грамматике русского языка, ни запросам обладателя ВМ, не знающего средств написания программ.


СиГ содержит набор грамматических категорий (или понятий самой грамматики) и набор правил построения слов и фраз (главным образом из слов и знаков препинания). Исходными лексемами, как начальными кирпичиками текстов, являются слова. По традиции в словах ищется смысл. Все толковые словари составлены по принципу «слово - смысл слова». Эта традиция и является камнем преткновения для нашего рассмотрения. Толковые словари обобщают каждое слово по многим областям их применения, но не по всем (!). Иногда слову сопоставляется несколько смыслов в зависимости от контекста, что препятствует пониманию смысла в заданном и составленном тексте. Кроме этого, наш критический взгляд направлен на ограниченные возможности СиГ, которые отсутствуют в практических текстах. Например, имеются лексемы, которые не рассматривает СиГ ЕЯ. Построение СеГ связано с расширением возможностей грамматики ЕЯ. Заметим, что запись фраз по правилам СеГ должна удовлетворять правилам СиГ, но не наоборот.


Имеющиеся попытки поиска смысла текстов с помощью СиГ, как это, например, реализует Хомский на основе графов зависимостей слов, будут обречены. Только СеГ обеспечит передачу знаний ВМ и, в конечном счете, человеку. Это следует из того факта, что правила СеГ позволяют определить смысл текста. Так или иначе, лекции Хомского позволили четче обрисовать границы СеГ и перспективу ее развития. Действительно, проблема сопоставления язык-знание является сложной, поэтому необходимо сделать крутой поворот от привычных правил понимания текстов к необычным правилам, но только на первый взгляд.


Информатика проникла во все отрасли знания [Красилов90д]. Но она доступна пока только программистам, а с их помощью (с помощью готовых программ) другим пользователям ВМ, для которых подготовлена программа. Программы стоят дорого. Необходимо обеспечить каждого пользователя средствами самому решать свои задачи с помощью ВМ без написания программ (реализация идеи бесплатной программы). Для этого необходимо построить инструментарий Интеллсист с учетом языка данной группы пользователей, на основе их знания, которые должны быть переданы для Интеллсист на (естественном для нее) ЯПП. Фразы языка должны передавать полностью смысл всего знания и соответствовать СеГ.


Рассмотрим последовательно следующие вопросы, частные ответы на которые можно найти в ссылках на литературу:

1. Что явилось основанием для создания СеГ и что такое знание с точки зрения поиска смысла, а также, какова связь этого понятия с формализацией [Красилов90в, 90е, 00а, т.4]. Понятие знание известно всем интуитивно, но при описании СеГ необходимо придерживаться некоторого формализма в определении знания для обеспечения точной передачи его для Интеллсист. Известные по литературе основания и формализм ориентированы на СиГ, что приводит авторов к неразрешимым проблемам при получении результатов сопоставления ЕЯ и ФЯ, при анализе ЕЯ и при реализации Интеллсист, базирующихся на ЕЯ в представлениях знаний.

2. Что такое язык и грамматика при формализации СеГ? Важный вопрос связан с сохранением непротиворечивости двух грамматик СиГ и СеГ, они должны быть полностью согласованы. Смысл любого текста должен определяться независимо от использования той или иной грамматики, если выполнены условия или правила СеГ.

3. Грамматику любого языка характеризуют фундаментальные исходные понятия или грамматические категории. От того, какие понятия или категории определяют СеГ, определяется ее назначение. Какие же это категории?

4. Как представлять знания с помощью СеГ и какова критика недостаточности СиГ? Главное средство для достижения указанных целей появляется после сопоставления слова (и других элементов текста) и знания. СеГ предназначена для указания правил такого сопоставления. Определение элементов текста является скорее техническим делом. А вот определение знания требует некоторого усилия для преодоления классического понимания этого термина. При этом надо учитывать, что определение знания обычно строилось для человека, умеющего интуитивно осмысливать каждое понятие. Теперь определение знания надо построить так, чтобы возникло понимание определения для ВМ. Заметим, что после формирования «нового» определения знания, станет ясным, что оно годится и для человека, иначе он не приобретет возможность общения с ВМ.

5. Центральными вопросами являются: каков механизм познания и что такое экология знания? Эти вопросы обычно исследуются слабо в надежде на интуитивные представления о них у человека. Если полагают, что любой текст имеет значение (или смысл) истины, то важно найти противоречия в БЗ или в предлагаемом тексте.

6. Как использовать знания в Интеллсист для решения практически важных вопросов, задач или проблем [Красилов91б, 91в, 94а] и как построить процесс логического вывода решения? Какова роль СеГ в этом процессе?

7. Последний вопрос является итоговым, он связан с языковой системой и универсальной грамматикой, которая должна явиться буфером между двумя различными ЕЯ. Кратко и описательно рассмотрим язык Лейбниц, который скрыт от пользователя и является внутренним языком Интеллсист. Как использовать систему ЕЯ и ФЯ для формирования нового знания?


Следует заметить, что не на голом месте строится СеГ. Она понималась человеком интуитивно. Развитие СеГ шло от методов программирования, от развития средств общения с любой ВМ. С появлением первой ВМ были осмыслены понятия адреса и содержимого ячейки памяти. Понятие адреса постепенно развилось в понятие идентификатора, затем в понятие имени и, наконец, достигло своего апогея - появилось в информатике понятие термина. Понятие содержимого ячейки памяти развивалось чисто технически. Постепенно рассматривалось содержимое одного двоичного разряда, байта - 8 двоичных разряда, слова - 16 или 32 двоичных разряда, набора слов, последовательности наборов слов и т.д. Смысл содержимого выявлялся только при выводе на печать или экран последовательностей преобразованных нулей и единиц, только тогда человек мог увидеть внешнее представление содержимого. Аналогично этому рассуждают об адресе и содержимом «ячеек памяти» человека. Адресом в письме и речи является термин. Только внешнее представление (через речь, письмо, действия) можно понять содержимое «ячеек памяти» человека.


Трудно рассчитывать на полное описание СеГ в объеме одной главы. Полное описание СеГ занимает 400-500 страниц текста. Рассмотрим только ее основы, формальное изложение и сформулируем основные посылки, тезисы и канву грамматики для реализации Интеллсист, для стимулирования критики лингвистов и для поиска путей развития исходных оснований. Некоторые практические пояснения излагаемого формализма языка можно найти в томе 4. Чтение изложения СеГ или фрагментов грамматики языка Лейбниц не требует специального знания, как и чтение грамматики ЕЯ. При знакомстве с главой может показаться, что СеГ учит программированию, так для описания грамматики используется формализм. Здесь снимаются всякие подозрения на этот счет, поскольку Интеллсист воспринимает задания, представленные в СеГ, которые не являются конкретными программами, но рассуждениями. С другой стороны СеГ учит логическому программированию так, как этому учат везде, включая лекции или доклады. Желающие программисты могут использовать покомандное описание алгоритмов в СеГ для построения программ на своем профессиональном языке. Процедурные языки - языки приказов - обеспечивают пошаговое описание алгоритмов, как это делается при описании алгоритмов, но при этом не используются ФЯ.


Кроме изложения основ СеГ необходимо иметь в виду проблемы использования грамматики. В силу «привычек», которые сложились в информатике, необходимы незначительные уступки ФЯ, что образует своего рода проблему СеГ. Чрезвычайно важна проблема связи СеГ и СиГ для «увеличения» понимания смысла текстов и для корректной печати результатов работы Интеллсист. Конечно, технически решаются проблемы размеров контекста, полного словаря и быстродействия ВМ. Особняком стоят проблемы неоднозначности понятий, умолчания части текста, ударений в словах, избыточности слов и текстов, а иногда понятий. Эти вопросы будут рассмотрены в разделе 4.7.

1   2   3   4   5   6   7   8   9   ...   33

Похожие:

В семи томах том Информатика смысла Машинная лингвистика iconСобрание сочинений в семи томах 3 «Собрание сочинений в семи томах»: Время; 2008
Собрание сочинений М. М. Зощенко — самое полное издание прозы одного из крупнейших писателей-новаторов XX века. В него входят практически...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Излагаемые методы частично модифицированы по сравнению с их оригинальным изложением для их ориентирования и усиления при использовании...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Определяются логические лексемы, фундаментальные операции, правила преобразования логических уравнений, а также металогика для обоснования...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Словарь поможет пользователям Интеллсист и разработчикам машинных систем разнообразного назначения в написании отчетов, руководств...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Основы информатики (Введение в информатику)
Вм на основе своих общих и профессиональных знаний без привлечения программистов для решения задач, для разрешения вопросов или проблем...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Представление знаний (Структуры данных)
Приводимые примеры служат фрагментами прототипов записей знаний и запросов, предназначенных для создателей заданий и запросов к базе...
В семи томах том Информатика смысла Машинная лингвистика iconРавительство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том V уфа гилем 2010
Российская академия наук Уфимский научный центр ■ Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconЬство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том VI москва восточная литература 2011
Российская академия наук Уфимский научный центр Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Интеллектуальные системы (Системы решения проблем)
Интеллсист, их структуры и технологии работы с инструментарием составляют центральную часть тома. Оценка возможностей Интеллсист...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика и вычислительная техника” и специальностей 220100 “Вычислительные машины, комплексы, системы и сети” и 021800 “Теоретическая и прикладная лингвистика” Ульяновск 2003
Методические указания к выполнению лабораторных работ по программированию для студентов направления 552800 “Информатика и вычислительная...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница