В семи томах том Информатика смысла Машинная лингвистика




НазваниеВ семи томах том Информатика смысла Машинная лингвистика
страница11/33
Дата29.11.2012
Размер4.61 Mb.
ТипДокументы
1   ...   7   8   9   10   11   12   13   14   ...   33

2.4.4. Предварительные сведения о представлении знаний. Если представления данных известны (это лексемы, термины или выражения, как в только что рассмотренных проблемах), то менее ясны методы представления знаний. Знания в таблицах, массивах и записях отражают простейшее знания - факты. Более сложное знание представляется последовательностями терминов, определенных в лексиконе. Кроме этого, знания могут быть представлены алгоритмами или программами (нельзя исключать алгоритмические знания, которые уже накоплены), формулами, которые часто используются не только в текстах фундаментальных наук. Не всякий текст, написанный в соответствии с СиГ, может пониматься Интеллсист, если для него не составлен подходящий лексикон, такие тексты не передают знаний.


Особое место в знании занимают факты. Представление фактов уже показано на примерах. Их можно проиллюстрировать еще и на таких примерах: «идет дождь», «снег не падает», «возраст юноши более 20», «лось является животным», «птица не относится к лососевым», «стол есть мебель». Интеллсист реализует использование фактов, введенных в БЗ или запрос, и выводит новые факты. Приведенные примеры показывают, как используются термины для построения фактов, фраз и предложений.


Итак, знания представляются терминами, фактами, фразами и утверждениями (или выражениями), кроме представления фактов в форме таблиц, массивов и записей. Представление знаний полностью и формально определяются языком Лейбниц.


2.5. Фразы и абзацы


Перейдем к неформальному рассмотрению определения ЯПП. Основные принципы, характеризующие ЯПП по сравнению с ЕЯ, можно кратко сформулировать так: ЯПП - это часть ЕЯ, используемая в данной профессии и использующая расширяемый лексикон, содержащий определения терминов. Формализованные языки или ФЯ могут быть частью знаний по некоторым специальностям. К преимуществам ЯПП следует отнести такие факторы:


1. Поскольку лексикон задается заведомо при первичном формировании знаний в памяти Интеллсист, легко реализовать синтаксический контроль над правильностью формального представления знаний в этом лексиконе и текстов самих знаний. Так реализуется формальная автоматическая отладка текстов.

2. ЯПП поддержан ФЯ Лейбниц (универсальной грамматикой), что также обеспечивает автоматизацию семантической отладки текстов знаний и запросов. Поддержка выражается в том, что для текстов знаний подключается транслятор ЯПП на ФЯ, который контролирует тексты автоматическими средствами.

3. Для специалиста данных предметной и проблемной областей ЯПП является естественным профессиональным языком, что обеспечивает специалисту упрощение в общении его с Интеллсист по элементам знания при наполнении БЗ (обеспечение дружественного интерфейса).

4. При выполнении условий предыдущих пунктов создается ситуация для общения с Интеллсист без участия знаниеведа. Это обстоятельство обеспечивает отторжение разработок знаний и запросов от программиста и процедурного программирования. Роль отторжения велика.

5. Освоение любой Интеллсист должно обходиться без емких руководств. Для использования Интеллсист должно быть достаточно самой системы, которая общается с пользователем на его ЯПП. Обучение должно предусматривать исключение из практики применения Интеллсист пособий и руководств, особенно в тот момент, когда идет производственная работа (как с играми на компьютере).

6. Система составления и использования лексикона предусматривает возможность пополнения его новыми терминами в процессе эксплуатации самой Интеллсист. Развитие ЯПП в процессе работы является естественной основой для развития любой науки.

7. Настройка Интеллсист проходит стадии: набор текстов знания, прогон текстов для выбора и формирования лексикона, прогон знаний при вводе его в БЗ, контрольный ввод знаний в базу для верификации на контрольных примерах. ЯПП обеспечивает параллельную работу с лексиконом и знаниями.

8. На ЯПП можно описать любые знания, и он понятен любому специалисту данной предметной области (в настоящий момент исключение составляют предметные и графические знания).

9. Использование ЯПП устраняет необходимость обучения пользователя ФЯ, обычно доступного программисту или теоретику (которые в принципе могут использовать ФЯ для передачи специальных знаний и запросов).

10. ЯПП легко совершенствуется за счет расширения БЗ и лексикона как стандартного, так и пользовательского. Расширение может быть независимым или автономным, а может быть связанным с процессами формулировки запросов.


Основной единицей языка является фраза, структура которой совпадает по большей части со структурой предложения в СиГ. Но из-за расширения лексики СеГ под фразой подразумевается часть текста, которая рассматривается автономно и, в частности, может быть и предложением. Например, А+В является фразой. Главное свойство фразы состоит в том, что она должна иметь значение, в нее заложен вполне определенный смысл. Формально фразу можно определить как часть текста, имеющую вычисляемый смысл.


Более точно определяется понятие абзаца. Абзац - это последовательность фраз (может быть одна фраза), которые составляются из одного или нескольких предложений и имеют законченный смысл, который выражается истиной или ложью. Значение абзаца может быть ложным, тогда может возникнуть или не возникнет противоречие, если различные абзацы соединены логической операцией, обеспечивающей истину для всего текста. Весь текст состоит из абзацев. Абзацы отделяются друг от друга пустой строчкой или отступом в первой фразе абзаца. Заметим, что предложение обязательно должно быть фразой.


В СеГ отсутствуют категории типов предложений, частей речи (их 15 в СиГ), частей предложения (подлежащее или сказуемое) и др. Однако, если применять СиГ, то в текстах можно обнаружить все такие категории. Фразы, абзацы и тексты из абзацев полностью состоят из терминов двух типов: термин-операнд (будем именовать кратко терманд) и термин-операция (или кратко термация). Терманд и термация являются основными членами предложений. Если вводные слова и предложения не являются терминами или частями терминов совместно с другими словами или знаками, то они могут игнорироваться при анализе текстов знания. Но если они определены как термины, которые либо передают знания, либо введены в лексикон как игнорируемые термины, то они так и учитываются. Кроме таких текстов в записи могут включаться комментарии, которые игнорируются. Рассудительные фразы предназначены для передачи знания, командные фразы - для выполнения действий или для передачи алгоритмического знания, как и термации. Таким образом, в СеГ имеется две части речи (или два члена предложения): терманда и термация. Заметим, что лексемы могут быть термандами или термациями по применению. Терманды и термации представлены терминами, которые образуются из слов всех частей речи СиГ, лексем и знаков. Конечно, чаще всего существительные бывают термандами, а глаголы - термациями, поскольку существительные обозначают предметность, а глаголы - процесс или способ действия. Некоторые лексемы обозначаются словами, например, значения истинности или имена множеств значений. Терманд обозначает понятие, которое имеет значение, термация также обозначает понятие, которое ссылается на действия с термандами, их значение получается в результате завершения выполнения действий. Терманд обозначает предмет, явление, процесс или их свойства. Термация обозначает действие, взаимосвязь, взаимодействие или зависимость.


Каждый абзац состоит из последовательности терминов. Некоторые «лишние» слова или термины при анализе текстов игнорируются или учитываются как контекст отдельных терминов. Такие слова и термины традиционно следует называть контекстными. Фразы также являются последовательностями терминов, если они имеют законченную мысль, они могут включать части терминов, если они не имеют законченную мысль.


Части речи русского языка в СеГ не выделяются, так как слово любой части речи может быть частью терманды или термации. К примеру, глаголы не обязательно именуют действия, а существительные - предметы, явления или процессы. С точки зрения синтаксической грамматики операнды и операции (существительные и глаголы) обычно обозначаются одним словом, которые могут использоваться в ЯПП в том же смысле.


Кроме абзацев текст может состоять из разделов различной квалификации. Если абзац не имеет явно заданного имени, то раздел может иметь имя - название раздела, которое может использоваться для организации ссылок. Смысл ссылок состоит не только в наименовании раздела, но и в организации управления, если в тексте использованы записи алгоритмов или последовательностей действий.


В СеГ определены 115 широко известных операций, которые называются базовыми. Среди них:

логические (и, или, не, больше, равно, меньше, принадлежит, влечет),

арифметические (сложить, вычесть, умножить, делить, возвести в степень),

математические (синус, логарифм, целая часть и др.),

преобразовательные (агрегат, атрибут, именование в записях, индексирование в массивах, приведение к требуемому типу),

операции с таблицами и лексемами.

Кроме этого пользователь сам может определить операции и использовать их в заданиях.


Надо заметить, что выше практически дано краткое неформальное описание языка Лейбниц. При этом следует добавить, что текст на языке Лейбниц состоит из разделов, которые также упомянуты выше (предметная и проблемная области, знания и запрос).


2.6. Смысл фразы


Основное назначение СеГ - вычисление смысла текста. Определим понятие смысла по индукции. Общее определение смысла интуитивно известно каждому. Здесь понятие будет уточнено до описания алгоритма вычисления смысла текста. Будет осуществлено сопоставление двух понятий значение и смысл, сформулированы принципы вычисления, а также будет проведен анализ частей речи СиГ с точки зрения СеГ. Наиболее точно смысл определяется на формальном уровне при описании формализма СеГ.


2.6.1. Понятие смысла. Так дается определение смысла в различных словарях и книгах. Прежде чем передать знания в память Интеллсист необходимо определить понятие смысл текстов, чтобы передавать только осмысливаемые знания. Смысл слова в известных словарях определяется несколькими вариантами:

смысл - это внутреннее содержание, значение чего-либо, постигаемое разумом;

смысл - это цель, разумное основание;

смысл - это то же, что и разум.

Обычно приводятся примеры использования понятия для передачи смысла: понять смысл чего-либо; слово в прямом и переносном смысле; в этом нет смысла; жизнь получила новый смысл; иметь здравый смысл; в подлинном значении слова. Действительно, разностороннее определение понятия смысла важно, поскольку человек находится в различных сферах деятельности и требует разного толкования этого понятия. По нашей традиции дадим 7 определений понятия смысл.

  1. Смысл - это форма фиксации внутреннего содержания данных о предмете, явлении, процессе или их свойствах в памяти человека (или Интеллсист) для правильного использования этих объектов.

  2. Смысл - это языковая категория, отражающая в символьном виде понимание внутреннего содержания данных об объектах.

  3. Смысл - это языковая категория, отражающая значения понятий, их совокупностей, существенных свойств, связей и отношений.

  4. Смысл - это следующие представления термина вместе с некоторыми данными: число, символ, строка, текст, действия, дата, время, имя, любая комбинация или синтаксически поддержанная и определенная структура перечисленных данных, а также пустое данное или пустое действие.

  5. Смысл - это сущность понимания цели, которую можно достигнуть путем использования сущности, выраженной значениями, представленными лексемами.

  6. Смысл - это значение, определяемое в процессе понимания текстов (предметов или картинок).

  7. Смысл - это результат понимания сложных объектов, получаемый в процессе осмысления (логического вывода) таких объектов или их взаимодействий и взаимосвязей.

Смысл раскрывается системой данных выше определений.


2.6.2. Смысл и значение. Смысл и значение не являются синонимами одно другому. Значение получается в результате вычислений (с числами, строками и др. объектами), оно остается им до какого-то момента. Смысл возникает тогда, когда значение соединяется с каким-либо именем. Например, если значение напечатано или выведено из памяти ВМ на какой-либо дисплей, то появляется имя, которое с одной стороны является изображением значения (тогда говорят о собственном имени), а с другой стороны может быть именем понятия, с которым связано это значение (тогда говорят о факте). Во втором случае можно сказать, что имя имеет смысл, представленный выведенным на дисплее значением. Сопоставление смысла и значения, имени и значения, смысла и имени требует исследований, которые относятся к информатике смысла, которая включает в себя все средства для осуществления представлений, обработки и выдачи результатов осмысленных объектов и их значений.


Источники проблемы смысла находятся в следующем. До сих пор понятие смысла в большинстве случаев находилось вне СиГ ЕЯ. Попытки поиска смысла высказываний из применяемых правил СиГ приводили к небольшому успеху. Конечно, грамотно составленный текст точнее передает смысл высказывания. Наша главная задача состоит в построении Интеллсист, понимающая ЕЯ по правилам СеГ. Для решения задачи необходимо иметь четкое представление о способах передачи для Интеллсист смысла текстов. Рассматривая тексты можно найти ошибки только благодаря тому, что понимаем смысл текста. Без понимания текста весьма сложно найти ошибки. Иногда в бессмысленном тексте можно обнаружить ошибку. А иногда в тексте, написанном с (кажущимся) нарушением правил СиГ, нельзя обнаружить ошибку. Например, перед словом «что» должна стоять запятая (правило). Но что же это значит? Смысл вопроса понятен, хотя перед словом «что» нет запятой. Для определения смысла высказывания необходим новый подход к построению грамматики ЕЯ.


Замечание. Смысл объекта зависит от языка представления знаний. Для текстов ЕЯ, определяемого СиГ, понятие смысла рассматривается по принятым правилам, для текстов ЯПП, определяемого СеГ, понятие смысла рассматривается ниже, для графической информации понятие смысла дано в томе 4 в общих чертах.


Имеется много программ для ВМ, которые учитывают понимание ЕЯ (а значит и смысла текстов) с помощью графового представления связей слов и предложений. Связи могут сопровождаться некоторыми функциями, выполнение которых определяет или уточняет смысл текста. Негативной стороной этого подхода является тот факт, что граф осмысления или сам смысл текста может существенно измениться либо при переходе в другую область знаний, либо при незначительной корректировке текста. Например, «дом стоит шатко» и «Белый дом стоит шатко» имею различные смыслы. Для какого-то текста необходимо применять совсем другой граф связей слов.


Графовый путь осмысления текстов может принести пользу при решении конкретных лингвистических задач и способствовать пониманию их смысла, но он не приводит к фундаментальному алгоритму осмысления текстов. На тексты ЕЯ накладываются некоторые ограничения, связанные с лексиконом, но которые могут изменить смысл текста при коррекции лексикона, и, с другой стороны, расширять грамматику понятиями, которые «забыты» в СиГ, например даты или время. В [Логический98] приведен подтверждающий данные выше высказывания пример с фразой «серый дом», в которой трудно (или невозможно) установить связь слов «серый» и «дом» из-за сложности построения пересечений двух множеств фраз «серый что-то» и «какой-то дом». Даже, как утверждается ниже при описании примера, пересечение не устанавливает истины при замене слова «серый» на слово «следующий». Конкретное применение фразы «серый дом» приведет к мысли, что она является просто термином.


2.6.3. Принципы для определения смысла фразы. Какие положения являются основополагающими в методе разрешения проблем информатики относительно смысла текста? Будем исходить из положения, что каждый текст является средством передачи известного или нового знания. Второе положение состоит в том, что каждый текст имеет одну из двух ипостасей: он является истинным (или ложным) высказыванием (и третьего не дано) или он является командой для выполнения. (И третьего не дано.) В связи с этим понимание структуры знания и итогового значения текста лежит в основе построения информатики смысла. Зерном структуры знания является элементарное знание, которое обычно квалифицируется как факт. «Ему 17 лет» - факт, который отражает характеристику некоторого существа. Значением факта является истина или ложь. Производным от фактов являются утверждения относительно фактов и правила построения новых фактов. Утверждения относительно фактов являются «сложными» фактами, которые также принимают значение истина или ложь. Правила играют главную роль в методе понимания смысла текста. Из таких положений и зерен (фактов) строится все знание.


Следующий шаг в изучении структуры знания и итогового значения состоит в структуре и анализе простого знания, построенного из фактов. В основе СеГ лежит принцип, состоящий в том, что элементарным знанием является факт. Факт - это пара (имя, значение [смысл]), которая является конкретным представлением понятия. Простое знание обычно представляет собой композицию совокупности элементарного знания и отношений между фактами. Сложное знание - это композиция простого знания, имеющая законченную мысль. Факт имеет смысл, выраженный самим фактом. Простое знание имеет смысл, поскольку каждый факт имеет смысл и результаты отношений фактов также имеет смысл, вполне определенный по правилам СеГ через значения фактов. Сложное знание имеет смысл, получаемый после «вычисления» смысла составляющих простых знаний и окончательного «вычисления» смысла композиции простых знаний. Например, «ему 20 лет» - элементарное знание, а «ему 20 лет, а ей 18 лет» - простое знание, составленное из двух фактов, соединенных отношением-термином «, а». Примером сложного знания может быть фраза «ему 20 лет, а ей 18 лет, следовательно, они молоды и могут быть женихом и невестой».


Особое положение в представлении знания имеют тексты, содержащие команды. Любой текст из команд также может пониматься как структура из элементарного знания - отдельно взятая команда и из простого знания - последовательность команд. Например, «писать» или «читать» каждый представляет элементарное знание (по нашей классификации - алгоритмическое знание). Необходимо иметь в виду, что выполненная команда порождает истину, а невыполненная - ложь (и третьего не дано). Сложное знание представляет собой подпрограмму или программу, состоящую из команд.


Сложное знание (или знание вообще) представляется последовательностью простых знаний (абзацев или/и череды команд). Каждый полный текст - это сложное знание, являющееся истинным или ложным. Конечно, истинное знание по традиции считается полезным, а ложное знание требует пересмотра исходных фактов или отношений фактов для исправления полученной ситуации (квалификации знания). Не исключается из рассмотрения сложное ложное знание, которым практически не занимаются. Но теоретическое значение ложного знания велико. Если изучение ложного знания представляет интерес, то все или некоторые факты и отношения фактов необходимо снабдить термином отрицания для того, чтобы Интеллсист могла переработать такое знание и вывести новые ложные факты. А в основном Интеллсист исследует только истинное знание.


Значение, полученное человеком или Интеллсист из элементарного, простого или сложного знания, имеет смысл того или иного высказывания. Таково самое общее определение смысла. Нам необходимо понимание смысла, которое пригодно для переработки знания в Интеллсист. Для этого необходимо разрешить проблему смысла, которая именуется как проблема формализации знания (или поиска смысла). Вот тут и сталкиваются с основной практической проблемой информатики смысла.


Наше общее определение смысла таково: смысл текста есть его значение, которое предписывается имени текста в результате вычисления. Простым примером может служить факт. Например, факт: «сегодня дата есть 20 февраля 1990 года» состоит из имени «сегодня дата» и значения «20 февраля 1990 года» и имеет смысл истины или лжи. Запись «ф?к!пр2» не имеет смысла, но может быть названа абракадаброй или текстом, не имеющим смысла. Однако, запись ««ф?к!пр2» есть простая последовательность знаков» уже имеет смысл, поскольку значению «ф?к!пр2» связано с именем «простая последовательность знаков, не имеющее смысла». Наиболее вероятно, что фраза имеет истинное значение, хотя в некотором контексте она может быть и ложной. Для фактов чаще всего смысл находится достаточно просто. Но как быть с длинным текстом, в котором изложены многие взаимосвязанные факты.


2.6.4. Вычисление смысла. Вернемся к пониманию смысла текста, который складывается из смысла термандов (термин-операнд) и термаций (термин-операция), применяемого к термандам. Значение терманда может быть определено или просто задано, тогда процесс вычисления смысла фразы может немедленно начаться, а в противном случае весь процесс получения смысла приостанавливается до получения значения терманда. Если значение терманда из-за недостающего или малого знания не определится в течении логического вывода решения, то данный терманд останется для определения значения некоторого факта, выраженного сложным утверждением. Тем самым факт будет определен в контексте данного терманда. В качестве примера рассмотрим утверждение «скорость есть скорость тела плюс 25». Если скорость тела не определится при логическом выводе, то получаемый факт относительно понятия скорость будет зависеть от скорости тела. Если скорость тела определится как 30, то получаемый факт будет иметь вид: «скорость равна 55». Пример прост, он служит иллюстрацией для понимания процесса получения значения скорости.


Предположим, что для Интеллсист сообщены знания в некоторых предметной и проблемной областях. Затем для Интеллсист ставится вопрос, задача или проблема (запрос). Интеллсист обрабатывает знания в следующей последовательности:

  1. переводит запись знаний на внутренний язык Лейбниц в соответствии с СеГ,

  2. составляет БЗ с автоматической проверкой корректности элементов знаний по абзацам (экология абзаца),

  3. переводит запрос на язык Лейбниц,

  4. решает логическое уравнение, составленное из знаний и запроса,

  5. проверяет корректность запроса (экология запроса), если в системе возникают вопросы, то она сообщает их пользователю, иначе печатает альтернативные ответы.

Так Интеллсист использует знания для решения или разрешения заданий, вопросов или проблем.


2.6.5. Роли частей речи СиГ. Роли частей речи СиГ (их 15) распределяются примерно так. Имя существительное главным образом используется для составления термандов, поскольку оно обозначает предметность. Но оно также может входить как часть термации. При этом используются нарицательные и собственные, личные и неличные, одушевленные и неодушевленные, конкретные и отвлеченные, вещественные и собирательные существительные.


Имя прилагательное используется как качественный, относительный или притяжательный признак предмета, явления или процесса при составлении термина так, чтобы терманды или термации отличались друг от друга по смыслу. «синий плюс» и «черный плюс» обозначают различные термации. Основная роль прилагательных состоит в построении термандов или термаций вместе с существительными. Прилагательные могут выступать самостоятельно и без существительного.


Имя числительное главным образом используется для формирования числовых лексем. К именам числительным относятся не только словесные записи чисел, к ним относятся и цифровые записи. Как и прилагательные числительные могут выступать самостоятельно. “сорок первый”, “158-1241” или “Первый” являются скорее всего термандами.


Местоимение является ссылкой на предмет, явление или процесс. Алгоритм поиска оригинала сложен, он может быть и не учтен в первых версиях Интеллсист. Иногда личные местоимения могут использоваться как терманды. Вопросительные, относительные, отрицательные, и неопределенные местоимения могут использоваться в качестве термаций, например для обозначения кванторов. “для каждого человека имеется одежда, зависящая от его конституции” - квантор принимающий истинное значение. Некоторые местоимения или группы местоимений (среди которых можно рассматривать возвратные, указательные, притяжательные или определительные) могут быть частью термина.


Глагол главным образом используется как термация (процесс или явление) или ее часть в термине. Он может использоваться и как терманд при указании отношения действия к действительности, пределу, предмету или субъекту. Он может использоваться как терманд для характеристики предмета. Аналогично используется деепричастие. Чаще всего глаголы используются для построения команд и термаций, но что не является обязательным.


Причастие и деепричастия, определительное или обстоятельственное наречие как и прилагательные могут использоваться для введения термандов и термаций. “освещенная комната”, “ведущая” или “стоящий” - примеры использования причастия, а “быстро” и “медленно” - примеры наречий в качестве термандов или элементов перечислимых в многозначных логиках.


Состояние используется как терманд для изучения свойств предметов, явлений или процессов. Возможным применением может быть образование метапонятий или перечислимых в многозначной логике для оценки состояний логических термандов. “мучительно”, “неловко” или “безрассудно” - примеры использования состояния в качестве перечислимых при определении понятия «поведение человека».


Модальные утвердительные или предположительные слова используются главным образом в качестве перечислимых в многозначных логиках, как и состояния. “правда” и “вероятно” являют примеры элементов перечислимых. Предлоги и союзы используются для обозначения термаций при установлении отношений между предметами, явлениями или процессами. Например, “и” и “или” обычно являются термациями с логическими величинами. Частицы, междометия и звукоподражания, передавая эмоциональные и побудительные черты относительно предметов, явлений или процессов, могут использоваться в качестве части или синонимов термандов, а также иногда термаций, например «не» или сравнительные «вроде». Некоторые утвердительные частицы используются в качестве синонимов логических лексем или перечислимых, например «да» или «нет». Некоторые частицы остаются вводными словами.


Примерно так (в частности) используется СиГ в СеГ, что касается частей речи. СиГ должен интенсивно использоваться при формировании ответов Интеллсист на запросы пользователей. Объявляемый термин может не согласоваться с другими терминами, если они используются в изложении одного нового факта. Термин «сер_ый дом» в ответе «у серый дом остановился автомобиль» не читабелен. Применение СиГ должен скорректировать фразу так: «у серого дома остановился автомобиль».


2.7. Система смысла и применения СеГ


Формальную модель русского языка (или другого ЕЯ) построить сложно, а скорее всего невозможно, поскольку его развитие связано не только с непрерывным пополнением словарного запаса, но и с быстрым формированием новых лексиконов или его более быстрым пополнением (по сравнению со словным словарем). Главный аргумент против построения формальных моделей ЕЯ состоит в том, что СиГ не формализует смысл текста, а определяет правила построения слов, предложений и текста. Правила СиГ не определяют смысла терминов и всего текста. Читающий понимает смысл текста интуитивно. Обычно в СиГ единицей текстов является слово, которое имеет много значений (смыслов). Для Интеллсист задача распознавания смысла слова по широкому контексту является пока неразрешимой проблемой. Если контекст ограничен используемыми БЗ и запросом, то задача распознавания смысла термина успешно решается.


Однако следует иметь в виду, что словарь из слов и правила СиГ для их формирования полезны как вспомогательная информационная база для поиска смысла терминов и текста. Поэтому создание словарного машинного фонда, в частности русского языка, является фундаментальной постановкой проблемы развития практического языкознания и информатической лингвистики (или лингвистической информатики). Наряду с созданием такого фонда для каждого ЕЯ необходимо создание машинного фонда терминов русского языка по специальности или специализации, а точнее надо сказать лексикона данной специальности, в котором термины содержат не только определения для человека, но и все характеристики всех терминов. Это основной предмет машинной лингвистики. Работа по созданию машинных фондов слов и фондов терминов может осуществляться автоматизировано или автоматически на ВМ без привлечения формальных средств, например ФЯ. Использование словарей связано со многими задачами:

  • реализация анализа текстов для построения лексиконов и извлечения знаний при первичной и вторичной обработках текстов,

  • автоматическое составление словарей из слов и создание и ввод словарей терминов и знаний в базу и их автоматический анализ,

  • определение (или вычисление) смысла терминов, а в последующем и текстов для формирования логического вывода решений запросов,

  • реализация информационно-справочных систем на основе смысла запроса, а не на основе ключевых слов или словосочетаний,

  • консультация пользователей по словарям, терминам для ручной работы с текстами при формировании текстов знаний и запросов и обнаружении ошибок,

  • поддержка машинных методов информатики лингвистики и информатики смысла, как путь использования словарей и осмысливаемых фраз и предложений,

  • поиск ошибок всех 13 классов в текстах (экология текстов) для построения правильных текстов знаний и запросов,

  • распознавание и классификация текстов по имеющимся образцам с учетом их смысла.

Ниже рассматривается анализ всего текста для получения его смысла.


2.7.1. Алгоритм вычисления смысла текста. Определим алгоритм поиска смысла текста (вычисление смысла) следующим образом. Смысл понятия определен выше как совокупная запись термина понятия и его полной характеристики (определение, тип, вид, состав из слов и знаков, дата введения в БЗ). Каждый абзац - осмысленное высказывание - являет собой логическое выражение, или композицию терминов (термандов и термаций). Абзац является новым (по отношению к составляющим его частям) понятием, термин которого умалчивается или можно сказать подразумевается. Новые подразумеваемые понятия образуют иерархию входящих в него понятий. Текст состоит из абзацев, которые представляют внутри некоторого раздела текста логическое выражение (композицию) из подразумеваемых понятий. Образовано новое подразумеваемое понятие более высокого уровня. Оно поименовано термином, являющимся наименованием раздела. Процесс такого анализа текста завершается после рассмотрения всех разделов (или разделов более высокого ранга). В результате процесса такого разбора получается понятие, сопровождаемое названием всего текста. Имя текста задано явно (название статьи, книги или БЗ), а термин можно считать полностью определенным всей иерархией понятий или композицией понятий текста. К примеру, весь текст об информатике определяет это понятие, обозначенное словом «информатика». В предыдущем разделе определено понятие «информатика смысла».


Смысл текста определяется свойствами и значениями составляющих его понятий. Если текст состоит из одного абзаца, то он имеет смысл этого абзаца (значения его подразумеваемого имени). То же можно сказать о разделах текста или обо всем тексте, состоящем из разделов. Таким образом, смысл текста - это сущность определяемого им понятия вместе со всеми его характеристиками и термином. Иерархия понятий образует иерархию смысла текста, которая может быть полезной для подробного анализа смысла текста. Заметим, что некоторые определения новых подразумеваемых понятий могут оказаться рекурсивными (например, построено определение смысла информатики). В аналогичных случаях может быть обнаружено противоречие, которое состоит в саморекурсии, не имеющей «выхода». Лучше всего проиллюстрировать эту ситуацию на математическом примере: «слово есть слово с приписанной к нему буквой» (определение без выхода). К этому определению необходимо добавить еще фразу: «слово может состоять из одной буквы».


Пора подвести общие итоги. Итак, каждый текст имеет смысл, который получается в процессе его осмысления (а алгоритмически - вычисления смысла). Причем считается, что весь текст состоит из определенных в тексте или в библиотеке терминов понятий (в лексиконе) и лексем различного типа. Вводные слова и термины еще предстоит изучать, хотя выше были высказаны предварительные соображения на этот счет. Представление эмоциональных тонкостей или принципа умолчания также подлежит исследованию. В чем состоит осмысление текста? Общее значение всего текста должно быть истиной, если не изучается ложное царство, что является уделом отдельного исследователя. Каждого интересует главным образом достижение истины. Значение истины выражает тот смысл, который можно получить в процессе поиска истинного значения. Например, чтение описания СеГ русского языка может составлять истину, если понятен процесс получения истины любого текста, удовлетворяющего правилам грамматики. В результате осмысления текста получается элементарное знание: <название текста, истина>.


2.7.2. Рекурсивность алгоритма вычисления смысла. Процесс осмысления текста приводит к формированию его смысла по правилам СеГ. Она предлагает следующий алгоритм или последовательность действий. Текст состоит из разделов, каждый из которых можно и нужно рассматривать как самостоятельный текст, поименованный некоторым термином. Такой рекурсивный подход к разбору всего текста закономерен. Каждый раз в конечном счете получается элементарное знание: <название раздела, истина>.


Смысл раздела является результатом получения его значения. Поскольку процесс членения всего текста рекурсивен, понятие раздела понимается широко. Под разделом можно понимать том, главу, параграф или некоторого сорта подраздел. Наконец, весь текст, состоящий из разделов, приводит к результату, который интерпретируется как совместные факты по каждому разделу. Конечный результат будет иметь вид:


<название текста, истина> =

<название раздела 1, истина> и

<название раздела 2, истина> и

......................................................

<название раздела К, истина>.


Заметим, что утверждение об истинности текста раздела не означает в действительности его истинность. Во-первых, в силу того, что приведенная запись является результатом логического вывода, а он не обязательно должен соответствовать действительности. Каковы знания, таков и результат. Во-вторых, и это главное, вместо некоторых пар <название раздела К, истина> может стоять и такой результат <не название раздела К, истина>, тогда ответом будет пара <название раздела К, ложь>.


Наконец, процесс членения всего текста завершается рассмотрением последовательности абзацев данного раздела из самого низкого уровня дробления. Совокупность абзацев также интерпретируется как совместные (если в качестве связки используется «и»), альтернативные (если в качестве связки используется «или») или смешанные (если в качестве связки используется «и» и «или») сложные факты или простое знание. Сложные совместные факты выражаются по схеме:


<название раздела М, истина> =

<условное имя абзаца 1, значение абзаца> @

<условное имя абзаца 2, значение абзаца> @

.......................................................................

<условное имя абзаца Н, значение абзаца>.


@ обозначает одну из допустимых операций соединения абзацев (логическая операция). Для некоторых пар <условное имя абзаца А, значение абзаца> верно замечание, высказанное для пар <название раздела Р, истина>. Заметим, что связка @ здесь использована условно. Вместо нее может стоять любая связка, все зависит от структуры текста, состоящего из абзацев. Если абзацы перечислены альтернативно, то связкой будет «или». Тогда вопрос о смысле фрагмента текста будет разрешен в результате логического вывода, который приведет к истине, если хотя бы один из абзацев имеет значение истины, или ко лжи в противном случае.


Значение абзаца (или набора абзацев), как законченной мысли, также должно обладать логическим значением истина или ложь. Оно может быть и ложным, тогда могут обнаружиться противоречия, которые необходимо устранить. Смысл абзаца складывается из результатов процесса получения значения предложений (лучше сказать фраз), составляющих абзац. Оно может быть ложным, но для исключения возможности противоречия абзац должен быть альтернативой для других абзацев, например в перечнях абзацев. Для других связок значение сложного знания вычисляется по известным правилам логики.


Каждое входящее в абзац предложение состоит из терминов, которые имеют значение, определяющее смысл понятия, обозначенного этим термином. Термин может и не иметь значения вначале работы Интеллсист. После работы он может определиться, доопределиться или получить новое значение. Среди терминов предложения могут быть терманды и термации. Процесс получения смысла предложения в простых случаях сводится к применению термаций к термандам. В результате процесса будет найдено значение некоторых или всех терминов. Для пользователя результатом работы Интеллсист является фраза, содержащая запись альтернатив (в соответствии с запросом может быть и одного) простых фактов, состоящих из совокупностей совместных элементарных фактов. А каждый элементарный факт ставит в соответствии искомым терминам их окончательные значения, которые могут быть лексемами, выражающими истинный смысл понятия, высказываниями, если какие-либо входящие в них термины не определены, или по заказу пользователя программами (смысл, выраженный алгоритмическими знаниями), если исходным терминам не сообщены начальные значения. Смысл результата логического вывода из запроса по БЗ может состоять из следующего: совокупность альтернатив совместных фактов, представленных фразой из перечня (разделенных точкой с запятой) списка (разделенных запятой) представленных элементарными новыми знаниями (фактами) и завершаемых точкой; сообщение о полученной программе; список правил, которые применялись в процессе логического вывода разрешения запроса. Альтернативы таких результатов логического вывода образуют общий смысл запроса и БЗ (если в этом имеется необходимость).


Общий смысл текста знаний в БЗ выявляется в процессе ее ввода и отладки. Едва ли он представляет интерес, поскольку ввод знаний является самостоятельной емкой частью процесса ИП на основе знаний [Красилов97], и смысл знания изучен ранее. Для знаниеведа информация о смысле текста знаний важна в особенности в процессе его отладки. Выявление противоречий всего или части текста будет тем эффективнее, чем более полный смысл текста доступен знаниеведу или пользователю, создающему новую БЗ.


2.7.3. Универсальная грамматика и ее применение. Грамматику, которая должна явиться буфером между двумя различными ЕЯ, мы называем универсальной, она определяется полностью ФЯ Лейбниц, если не учитывать стандартную часть лексиконов. Он скрыт от пользователя и является внутренним языком Интеллсист для представления знаний, а используют его явно только знаниеведы и системные программисты. В разделе кратко рассматриваются применения универсальной грамматики.


СеГ разработана для построения инструментария ИП, которая обеспечивает создание Интеллсист, работающей на основе знаний и обеспечивающей пользователя ВМ решением его задач по исходному заданию, написанному на ЯПП. В основе нового инструментария лежат два понятия: лексикон и ИЛ [Красилов94б]. О лексиконе сказано выше. ИЛ является развитием классической логики, она скрыта от пользователя ИП. Формализм ИЛ автоматически учитывается при анализе фраз и предложений ЯПП. Можно сказать: «Мы и не подразумевали, что говорим с помощью средств ИЛ для передачи смысла», а смысл сказанного формируем по СеГ.


СеГ используется [Красилов96] и для формирования ответов на вопросы, которые осмысливаются с помощью Интеллсист для подбора ответа по найденному в вопросе смыслу. Вопросно-ответные системы работают на основе терминологического словаря (лексикона), проект которого может составляться автоматически по всем хранилищам текстовой информации до работы алгоритмов построения ответов на пользовательские вопросы. По правилам СиГ аналогичные системы используют морфологический анализ для анализа текстов и поиска ответов по ключевым словам. Конечно, ключевые слова отражают небольшую часть смысла текстов в особенности тогда, когда ключевое слово является обозначением понятия с единственным смыслом. В противном случае система находит большое число ответов, среди которых имеется необходимый ответ. Сокращение числа ответов важно для ускорения процесса поиска информации.


Недавно выяснилось еще одно применение СеГ для построения распознавателей текстов. Имеющиеся рубрики (или разделы) информации характеризуются образцами текстов. Новый текст системой распознавания должен относиться к рубрике, к образцам которой данный текст «ближе» всего. Известны алгоритмы распознавания образов, которые характеризуются анализом ряда признаков предметов главным образом числового свойства. Тексты существенно отличаются от числовой информации, поэтому подход к его распознаванию отличается от известных алгоритмов принципиально. Смысл представленных по правилам СиГ текстов сложно представить в числовом виде. СеГ дает правила для вычисления смысла текстов, который (смысл) обеспечивает сравнение нового текста с образцами. Можно представить алгоритм кластеризации текстов по смыслу или формирование рубрик для информационной службы.


Перспективное применение СеГ можно усмотреть в системах перевода с одного ЕЯ на другой ЕЯ, ориентируясь на смысл текстов. Здесь главную роль играет язык Лейбниц. На его основе можно построить СеГ для пары ЕЯ, перевод между которыми необходимо осуществить. Универсальная грамматика является буфером или средством стыковки между двумя грамматиками и не зависит по существу от ЕЯ (так как лексемы универсальны). Здесь учитывается тонкость - конструкции в различных ЕЯ дают одинаковый смысл, но имеют различные формы.


ИЛ не относится к грамматике. Использование ИЛ по сути своей состоит в применении ее для решения логических уравнений, которыми внутренне представляются исходные знания и запросы. Решение логических уравнений реализовано путем логического вывода альтернатив новых совместных фактов. Так формируется новое знание из конкретных или пояснительных фактов.


Отношение универсальной грамматики к ЯПП можно представить так. Исходное представление знаний реализуется на ЯПП. Транслятор ЯПП переводит запись на ФЯ Лейбниц, неформальный фрагмент которого приведен выше. По записи на ФЯ МЛВ и МАВ находят ответ. Так реализуется краткий путь: задание (проблемы, запроса или вопроса) - окончательный ответ (лексема, формула или программа).


2.7.4. Универсальный язык и проблемы СеГ. Универсальная грамматика (СеГ описан как ФЯ Лейбниц) определяет универсальный язык. Знание СеГ не необходимо для пользователя, желающего решать свои задачи и проблемы с помощью ВМ. Формализм языка Лейбниц не сложен, но его знание совершенно не обязательно. Использование языка осуществляется через работу пользователя по меню инструментария Интеллсист, в котором полностью «спрятан» формализм. Пользователь может применять технические и логические средства ИП, не прибегая к помощи программиста. Передача точного смысла текстов в первую очередь необходима при вводе знаний в Интеллсист, а возможно и при общении между людьми. Подробное описание СеГ дается в руководствах по ИП и представляет самостоятельный интерес.


Уместно еще раз обратить внимание на главные проблемы СеГ, которые еще недостаточно четко разрешены из-за малой практической проверки алгоритмов решения. Данный ниже перечень проблем указывает на это обстоятельство, он еще незавершен, но интересен. Далее (разд. 4.7) некоторые проблемы будут рассмотрены чуть подробнее.


Первая проблема связана с передачей смысла интонацией. Интонация передает дополнительные знания. К примеру, фраза «Николай пошел в кино или в театр и на базар» можно толковать различно. Скобки показывают на особенности интонации при произношении этой фразы: «Николай пошел в кино или (в театр и на базар)» или «Николай пошел (в кино или в театр) и на базар». Результаты осмысления будут различными. После подключения микрофона к ВМ проблема будет разрешена с помощью алгоритмов идентификации интонации. При передаче в память ВМ текстов Интеллсист будет задавать вопросы пользователю для разъяснения фразы с позиции понимания интонации.


Вторая проблема аналогична предыдущей проблеме, она порождена использованием ударения в слове. Эта проблема рассматривается в разд.4.7.3.


Третья проблема связана с умолчанием контекста использования термина. В обычном письме или речи многое считается известным. К примеру, в любой фразе данного абзаца почти не один термин не определен. Однако читающий абзац может понять весь смысл текста. Проблема контекста для Интеллсист разрешается пока просто: для каждого термина контекстом является весь текст знания (помещаемого в БЗ) и текст запроса, вопроса или задания. Решение проблемы надо искать в увеличении возможности ВМ по памяти и быстродействию и в разработки алгоритмов анализа контекста. Некоторые соображения можно найти в разд. 4.7.2.


Четвертая проблема связана с максимальным использованием СиГ при определении смысла текстов. Например, некоторые местоимения являются ссылками на упомянутый ранее по анализируемому тексту термин. Оно чаще всего так и используется, как в этой фразе используется местоимение «Оно». Имеется набор других примеров использования рода, числа, падежа и частей речи, по которому возникают проблемы передачи знаний ВМ, но их удельный вес весьма мал.


Пятая проблема, которая упомянута в пункте 3, является вполне разрешимой, она связана с квалификацией первой буквы предложения. Либо первое слово - собственное имя, тогда первая буква понимается как заглавная буква имени, либо первое слово не является собственным именем, тогда первая буква переводится в другой регистр букв.


Шестая проблема связана с написанием нерегулярных аффиксов (в особенности изменяющиеся суффиксы). Слова «замок», «замочек» и «замка» в СеГ являются различными терминами, хотя они обозначают одно и то же понятие. Словарь терминов значительно шире в СеГ по сравнению со словарем в СиГ, что создает богатство выразительных средств и методов для представления знаний. Замок может взаимодействовать с замочком или с замками. С другой стороны, анализ текстов ЕЯ для разработки лексикона чуть затруднителен. Аналогичная трудность возникает при формировании ответов на запросы по правилам СиГ (или при реализации алгоритмов перевода с одного ЕЯ на другой).


Сделан первый шаг в формировании СеГ, который подкреплен разработками Интеллсист, ряда программ анализа текстов и частных алгоритмов. Предстоит достаточно подробное описание СеГ (вместе с интерпретацией словаря стандартных терминов в СиГ) и более широкое внедрение ее возможностей.


1   ...   7   8   9   10   11   12   13   14   ...   33

Похожие:

В семи томах том Информатика смысла Машинная лингвистика iconСобрание сочинений в семи томах 3 «Собрание сочинений в семи томах»: Время; 2008
Собрание сочинений М. М. Зощенко — самое полное издание прозы одного из крупнейших писателей-новаторов XX века. В него входят практически...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Излагаемые методы частично модифицированы по сравнению с их оригинальным изложением для их ориентирования и усиления при использовании...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Определяются логические лексемы, фундаментальные операции, правила преобразования логических уравнений, а также металогика для обоснования...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Словарь поможет пользователям Интеллсист и разработчикам машинных систем разнообразного назначения в написании отчетов, руководств...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Основы информатики (Введение в информатику)
Вм на основе своих общих и профессиональных знаний без привлечения программистов для решения задач, для разрешения вопросов или проблем...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Представление знаний (Структуры данных)
Приводимые примеры служат фрагментами прототипов записей знаний и запросов, предназначенных для создателей заданий и запросов к базе...
В семи томах том Информатика смысла Машинная лингвистика iconРавительство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том V уфа гилем 2010
Российская академия наук Уфимский научный центр ■ Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconЬство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том VI москва восточная литература 2011
Российская академия наук Уфимский научный центр Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Интеллектуальные системы (Системы решения проблем)
Интеллсист, их структуры и технологии работы с инструментарием составляют центральную часть тома. Оценка возможностей Интеллсист...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика и вычислительная техника” и специальностей 220100 “Вычислительные машины, комплексы, системы и сети” и 021800 “Теоретическая и прикладная лингвистика” Ульяновск 2003
Методические указания к выполнению лабораторных работ по программированию для студентов направления 552800 “Информатика и вычислительная...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница