В семи томах том Информатика смысла Машинная лингвистика




НазваниеВ семи томах том Информатика смысла Машинная лингвистика
страница8/33
Дата29.11.2012
Размер4.61 Mb.
ТипДокументы
1   ...   4   5   6   7   8   9   10   11   ...   33

2.1.4. Источники проблемы смысла. Источники проблемы смысла находятся в следующем. До сих пор понятие смысла в большинстве случаев находилось вне грамматики ЕЯ. Попытки поиска смысла высказываний из применяемых правил СиГ приводили к небольшому успеху [Хомский96]. Почти единственным способом вычисления смысла на основе СиГ является построения разнообразных графов связей слов или словосочетаний. Поэтому существующие грамматики ЕЯ называются синтаксическими. Конечно, грамотно составленный текст точнее передает смысл высказывания. Наша главная задача состоит в построении Интеллсист, понимающей ЕЯ. Для решения задачи необходимо иметь четкое представление о способах передачи для Интеллсист смысла текстов. Есть убежденность в том, что (как уже говорилось) синтаксическая грамматика не может полностью обеспечить нас средствами передачи смысла высказываний. Рассматривая тексты можно найти ошибки только благодаря тому, что понимаем смысл текста. Без понимания текста весьма сложно найти ошибки, в особенности логические. Иногда в бессмысленном тексте можно обнаружить ошибку. Например, перед «что» должна стоять запятая. Но что же это значит? Смысл вопроса понятен, хотя перед словом «что» нет запятой. Для определения смысла высказывания необходим новый подход к построению грамматики ЕЯ. Имеющуюся грамматику будем квалифицировать как синтаксическую, а предлагаемую грамматику будем называть семантической.


Итак, фундаментальная проблема информатики смысла заключена в поиске способа понимания смысла любого текста, построенного по правилам СиГ. На тексты ЕЯ будут накладываться некоторые ограничения. Проблемы смысла текстов на ЕЯ решались и решаются различными методами. Сошлемся лишь на исторические публикации [Бектаев74, Бидер76, Богодист74, Рубашкин89, Сильдмяэ80 и Фреге77, а также Хомский96]. Что роднит все современные исследования смысла текстов? Главная методическая характеристика понимания смысла авторами сводится к применению СиГ для определения смысла. Но ведь она дает правила образования фраз и ее частей (слов). Действительно, определенная комбинация слов (понимаемый термин или граф связи) позволяет построить картину смысла. Такой методике можно возразить. Во-первых, та же комбинация слов в другом контексте или в другой области знаний имеет почти или совсем другой смысл, во-вторых, последовательность комбинаций слов теряет первоначальный смысл, и она не определяет смысл всего текста. Необходим другой подход для определения смысла текстов. С имеющимися представлениями о смысле тексты знаний нельзя передать для Интеллсист.


Что является основополагающим в методе разрешения проблем информатики относительно смысла текста? Будем исходить из положения, что каждый текст является средством передачи известного или нового знания. Второе положение состоит в том, что каждый текст имеет одну из двух ипостасей: он является истинным или ложным высказыванием (и третьего не дано) или он является командой для выполнения. (И третьего не дано.) В связи с этим понимание структуры знания лежит в основе построения информатики смысла. Зерном структуры знания является элементарное знание, которое обычно квалифицируется как факт. Например, «ему 17 лет» - факт, который отражает характеристику некоторого существа. Производными от фактов являются утверждения о фактах или правила построения новых фактов. Утверждения и правила сыграют главную роль в методе понимания смысла текста. Из таких положений и зерен строится всякое понимания смысла знания, передаваемого текстом.


Следующий шаг в изучении структуры знания состоит в анализе простого знания, построенного из фактов. Простое знание обычно представляет собой композицию элементарного знания и отношений между фактами - утверждения о фактах. Простое знание имеет смысл, поскольку каждый факт имеет смысл и результаты отношений также имеет смысл, вполне определенный по правилам СеГ. Простое знание - это часть текста, которая здесь именуется абзацем. Абзац может состоять из одного предложения, поэтому простое знание можно передать одним предложением. К примеру, «ему 17 лет, а ей 16 лет».


Особое положение в представлении знания имеют тексты, содержащие команды. Любой текст из команд также может пониматься как структура из элементарного знания - отдельно взятая команда и из простого знания - последовательность команд. Необходимо иметь в виду, что выполненная команда порождает истину, а невыполненная - ложь (и третьего не дано). С командными языками редко имеют дело (исключая программистов, руководителей или военнослужащих). Для языка профессиональной прозы нет существенных различий в указанных двух ипостасях. Смесь двух ипостасей допускается в диалоге людей и в диалоге человек-ВМ.


Сложное знание (или знание вообще) представляется последовательностью простых знаний (абзацев или череды команд). Каждый полный текст - это сложное знание, являющееся истинным или ложным. Конечно, истинное знание по традиции считается полезным, а ложное знание требует пересмотра исходных фактов или отношений фактов для исправления полученной ситуации (квалификации или отладки знания). Не исключается из рассмотрения сложное ложное знание, которым практически не занимаются. Но теоретическое значение ложного знания велико. Если изучение ложного знания представляет интерес, то все факты и отношения фактов, имеющих истинное значение, необходимо снабдить отрицанием для того, чтобы Интеллсист могла переработать такое знание и вывести новые ложные факты. В основном Интеллсист исследует только истинное знание, поскольку в нее заложены соответствующие алгоритмы.


Знание, полученное человеком или Интеллсист из элементарного, простого или сложного знания, представляет смысл того или иного высказывания, получаемого по правилам СеГ. Таково самое общее определение смысла. Это определение скорее является человеческим, а не машинным. Нам необходимо понимание, которое пригодно для переработки знания на ВМ. Для этого необходимо разрешить проблему смысла, которая именуется как проблема формализации знания (или смысла). Вот тут каждый может сталкиваться с основной проблемой информатики смысла. К этому надо добавить, что не до конца ясны понятия интеллект, интеллектуальный или интеллектуализация. Может быть поведение, подобное поведению человека, называют интеллектуальным? Может быть интеллектуальность - это предотвращение экспоненциального роста времени поиска необходимых сведений? Можно сомневаться в том, что создание модели мозга приведет нас к пониманию интеллекта. Модель мозга - это основной объект моделирования, медицины и психологии. На наш взгляд к пониманию этих понятий приведет анализ этапов формализации знания. Кратко рассматриваемая ниже последовательность этапов лежит в основе ИП. Именно эти этапы легли в основу создания средств и ИИС и собственно Интеллсист.


2.1.5. Процесс формализации знаний. Итак, подведем также предварительные (так как необходимы еще обоснования) итоги рассмотрения процесса формализации знания путем перечисления опорных действий над знаниями. Именно на основе СеГ строятся алгоритмы понимания (осмысления со стороны ВМ) текстов. Семь обобщающих пункта итожат рассмотрение проблемы формализации с позиций освоения знаний для Интеллсист или технологии ИП. Процесс формализации изложен по шагам во введении к тому 4. Имеются отличия двух описаний процесса, которые состоят (здесь) в обобщенном описании процесса и в конкретном описании процедуры формализации (в томе 4). Повторы некоторых операций формализации здесь и там должны способствовать только запоминанию на основе правил сопоставления.


1. Процесс формализации начинается (первый этап) с построения словаря из слов, лексикона из терминов и других словарей. При неточном определении понятия величины или операции в лексиконе (соответственно предметной и проблемной областей знания) реализуется неточная формализация этого понятия. При постепенном доопределении понятия в процессе разрешения запроса автоматически осуществляется постепенная автоматическая формализация этих понятий величины или операции. Центральным местом всякой формализации является проблема определения понятия. Каждое понятие необходимо выделить и составить его характеристики или выявить его атрибуты (например, термин, определение, значение и др.). Каждому понятию сопоставляется структура и конкретные характеристики, им предписывается присущий им смысл - значение понятия. В этом состоит первый этап формализации. Почти все авторы уделяют внимание этому этапу формализации [Гришин82, Дюбуа82, Прад90, Клещев82, Кондрашина78, Минский87, Минский79, Осуга89, Предстинт80, Рубашкин80 и Ыйм80]. Наиболее сложной частью определений понятий является выбор или формирование структуры каждого понятия. По структуре понятия значительно проще решается задача выбора конкретных характеристик. Совокупность понятий классифицируется на понятия предметной области и понятия проблемной области. В предметной области рассматриваются терманды и множества их значений, в проблемной области - термации и множества их значений.


2. Второй этап формализации состоит в построении отношений понятий и формирование нового (возможно подразумеваемого) понятия, являющегося производным от исходных понятий. Композиция понятий может быть сколь угодно сложной, что зависит от сложности решаемых задач, разрешаемых вопросов или проблем. Композиции понятий выражаются фразами естественного (или искусственного, что не исключается) языка и содержательно представляют знания, несущие смысл, который передается друг другу или для Интеллсист. Отношения понятий - это факты, утверждения о фактах или правила формирования новых фактов. Проблема представления знаний или отношений считается решенной, если выбран ЯПП вместе с лексиконом. Отношения «складываются» в БЗ, которая служит основой разрешения всех запросов.


3. Третий этап является скорее техническим и состоит из ввода знаний для Интеллсист. При этом должна осуществляться формальная отладка знаний на точность использования СеГ. Здесь важным действием является процедура построения ответов на вопросы Интеллсист, связанными с частичным определением понятия. При этом должна осуществляться отладка знаний по восьми номинациям, свойственным всем системам обработки текстовой информации. Здесь главным элементом отладки является концептуальная отладка, реже используемая в программных системах.


4. Четвертый этап состоит в установлении правильности знаний. Этот процесс называется отладкой знания (или экологической проверкой чистоты знания). Знание, как в целом, так и в отдельных частях должно удовлетворять требованиям непротиворечивости, возможно независимости и полноты для построения окончательных ответов на запросы в контексте исследуемого знания. Для пользователя знаниями этот этап самый плодотворный. Дело в том, что любое знание, предоставленное пользователю для разрешения запросов, не содержит конкретного знания, используемого для решения его задач. Интеллсист должна автоматически определять фундаментальные свойства используемого знания. Процесс формализации продолжается при анализе вводимых знания или запроса в память Интеллсист, а также при грамматическом анализе их. При вводе неполного (или частично определенного) знания реализуется частичная формализация, а пополнение БЗ может привести к более точной формализации знания. Итак, этап состоит в установлении правильности знаний. Для пользователя знаниями этот этап самый плодотворный. Дело в том, что любое знание, предоставленное пользователю, не содержит конкретного знания, используемого для решения его задач. Интеллсист должна автоматически определять фундаментальные свойства используемого знания.


5. Пятый этап является логическим и состоит из автоматического построения ответов на запросы к знаниям для получения новых фактов, которые будут использованы при принятии жизненно важных решений. Логический вывод может оборваться из-за ошибок. Тогда участие человека необходимо. Запросы могут быть анкетными, шаблонными или произвольными. Интеллсист разрешает только такие запросы или композиции таких запросов. Этого практически достаточно для решения любых заданий, задач, вопросов или проблем. Основа пятого этапа - составление и отладка запроса.


6. Процесс формализации завершается (шестой этап) получением нового знания в результате выполнения пяти предыдущих этапов. Некоторые этапы могут опускаться, если использованы анкеты или шаблоны. При логическом выводе разрешения запроса получается новое знание, которое не содержалось в базе. Новое знание доопределяет и окончательно формализует исследуемые понятия, уточняемые в этом процессе.


7 Седьмой этап является организационным и состоит в построении технологии использования результатов из логического вывода ответа на запросы. Сюда можно отнести проблемы принятия решений человеком и документирование. Надо добавить, что авторов знаний, инструментария и Интеллсист всегда интересует критика достижений в области ИП. Седьмой этап необходим при статистических исследованиях, он состоит в собирании общих или статистических данных об использовании количественных атрибутов интеллектуальной деятельности.


Авторов знаний, инструментария и Интеллсист всегда интересует критика достижений в области ИП. Седьмой этап необходим систематическим исследованиям, он состоит в собирании общих или статистических данных об использовании атрибутов интеллектуальной деятельности. По этим атрибутам можно определить сложность запроса и объемы словарей.


В заключении отметим, что здесь по существу затронута проблема знания о знании, которая ставит вопросы о представлении форм образования самого знания. Проблема в равной мере относится и к командным языкам. Считаем, что главная проблема выражения связи языка и смысла поднята и указан путь ее разрешения. Остается техническая проблема формализации смысла текстов ЕЯ.


2.2. Знаки и лексемы


Каждый ЕЯ использует для передачи знаний набор знаков. Русский язык использует два регистра букв кириллицы и (теперь довольно часто) два регистра букв латинского алфавита, набор знаков пунктуации, скобок и арабские цифры. Кроме этого, используются специальные знаки, которые вводятся в рассмотрение по мере необходимости. В текстах различных наук вводят специальные знаки. Надо помнить, что наша задача ставится так: обеспечить ввод знаний в память ВМ (или Интеллсист). Такое ограничение может быть снято при массовом внедрении средств автоматического сканирования текстов и распознавании знаков с высокой надежностью. Ограничение алфавита знаков вызвано возможностями ввода текстов с помощью клавиатуры. Знаков клавиатуры достаточно для представления всех знаков любой науки. Ручная замена отсутствующих на клавиатуре знаков на имена этих знаков разрешает, хотя и неэффективно, проблему представления любых знаков. Например, знак  заменяется словом sqrt, знак  - словами integr или интеграл, буквы , , , , ,  и т.п. - словами альфа, бета, каппа, дельта, эпсилон, гамма и т.п. Такие знаки и буквы изучаются даже в средней школе, но клавиатура ВМ их не содержит. Набор и ввод таких знаков возможен по отдельным таблицам символов. Поскольку их кодировка совпадает с кодировкой символов клавиатуры, то Интеллсист различить их не в состоянии.


Терминальный алфавит СиГ русского языка, (как и любого другого языка) связан с алфавитом (ТАСиГ), включающим два регистра кириллицы, цифры и знаки препинания. Терминальный алфавит СеГ (ТАСеГ) расширен знаками, которые имеются на клавиатуре ВМ (см. Приложение 1). Расширение вызвано необходимостью формулировки языка для общения в системе человек-ВМ. Например, в грамматике русского языка не рассматриваются буквы латинского алфавита, знаки +, *, #, ^, & и др. Массовое обучение русскому языку не предусматривает изучение таких знаков, хотя это и трудно объяснить. В школьных курсах имеется химия, физика и математика, в которых используется расширенный алфавит. ТАСиГ меньше ТАСеГ по числу символов. Если в некоторой области знания терминальный алфавит недостаточен, то он может пополняться другими знаками, обозначенными словами или комбинацией знаков и слов.


Клавиатура ВМ включает знаки стандарта ASCII (см. Приложение 1). Из стандарта следует, что СеГ включает два регистра букв двух алфавитов - русского и латинского. Оба алфавита существенны и никоим образом не перекрываются (как в ФЯ, например в Паскале). В алфавите символов имеются арабские цифры, дополненные буквами шестнадцатеричной системы счисления. Кроме знаков препинания СиГ используются знаки операций и др. Однако, следует сделать такие замечания:

1. Графически неразличимые буквы двух алфавитов могут привести к ошибкам и изменению смысла написанного и введенных в память сообщений. Обычно сноровка пользователя или подсказка Интеллсист приводит к обнаружению таких ошибок.

2. Некоторые знаки клавиатуры могут набираться и набираются цифрами, представляющими коды этих знаков, поэтому ими не пользуются для передачи знания в Интеллсист, они имеют почти полный смысл и используются в отчетах по работе.

3. Тексты можно набирать в любых известных алфавитах. Алфавит может быть подготовлен пользователем.


Под лексемами понимаются слова, числа, строки в кавычках, знаки препинания и другие графические знаки. Из простых лексем в СеГ строятся сложные лексемы. Круг лексем СиГ ограничен словами и строками (прямая речь и условные наименования), сложные лексемы не строятся. К простым лексемам в СеГ относятся:

слова для обозначения величин, имен, возможностей, операций,

числа (расширенные числительные по разрядам), определяемые в СеГ,

символы и строки,

одна ссылка - пусто,

константы для обозначения «нулей» и «единиц» (ложь и истина для логических высказываний, null для нулевого множества, unit для единичного множества, nil для нулевой ссылки или цепочки символов и void для нулевого действия).

Лексемы имеют значение, поскольку они сами являются представлениями значений.


Однородные лексемы, составленные из одного и того же алфавита символов, группируются в набор, который называется типом или множеством допустимых лексем для данного понятия. Сложные лексемы группируются из простых лексем, к ним относятся:

строки - последовательности символов в кавычках,

массивы - списки лексем одинаковой природы (одного и того же типа),

записи - списки лексем любой природы (любого типа),

таблицы - записи из столбцов и строчек,

комплексные числа - пары двух чисел,

даты - записи из чисел и точек или чисел и слова,

время - записи из чисел и точек (или слов).

Записи, таблицы, даты, время и др. употребляются часто для передачи значений некоторых фактов. Их учет обязателен в текстах, вводимых в Интеллсист. Они могут изображаться в широком диапазоне комбинаций символов и слов. Сложные лексемы также группируются в наборы, также называемые составными типами.


Если ТАСеГ является строительным материалом для лексем, то лексемы являются строительным материалом для терминов и значений понятий. По своей сущности лексемы редко используются в качестве строительного материала для терминов. Они скорее предназначены для представления значений понятий, которые имеют смысл, выражаемый (текущими) значениями. Лексемы только внешне представляют смысл понятия, а внутреннее представление отражается в памяти Интеллсист кодами, в памяти человека - совокупным динамическим состоянием групп клеток мозга. Одна, две или несколько простых или сложных лексем могут обозначать термин или значение. В каждой области знания определяются свои термины и используются все или некоторые лексемы. Например, H2O в химии или ашдвао в литературе, F(X) в математике и физике, «Белый Дом» в политике, «1 января 2001 года» во многих текстах истории как термин.


Можно возразить приведенным примерам, используя такое обстоятельство, что такие термины относятся к специальным наукам. Литературный язык или язык поэзии почти не использует такие термины. Однако эти языки должны передавать смысл и, следовательно, должны иметь средства для понимания их текстов. В соответствии с СеГ термины выделять необходимо, а изображение значений важно для представления фактов. Построение словаря терминов можно осуществить и для литературных текстов. Задача формирования словаря для литературы является сложной по емкости. Но если возникла необходимость в исследовании смысла литературных текстов на ВМ, такую задачу необходимо решать. Задачи автоматического осмысления литературных текстов возникают редко, поэтому и поставлена проблема построения ЯПП.


Лексемы в СеГ определяются формально для точного их понимания ВМ. Формализм для построения лексем весьма прост, он фиксирует широко известные обозначения с вариацией форм. Например, правильная запись даты «30 января 1997» года может быть заменена записями 30.01.97, или 30.01.1997, или «тридцатое января одна тысяча девятьсот девяносто седьмого года». Такими же свойствами обладают и записи времени.


Числа имеют привычный вид, исключение составляют представления очень больших или очень малых чисел. Логические значения - это по большей части два слова: ложь и истина. Строки - это произвольные последовательности символов, заключенная между кавычками. В СеГ рассматриваются агрегаты, которые представляются списками простых лексем, заключенными между скобок.


Лексемы представляют собой имена значений (собственные имена - как расширение понятия собственных имен в СиГ) и служат для внешнего отражения внутреннего смысла некоторого понятия. Каждая лексема обладает сложной структурой, включающей атомарные термины (чаще всего выражаемые символами или словами), и подразделяется на операнды и операции. Высказанное правило понимания лексем является чисто условным, как иллюстрация СеГ. Лексемы используются для построения записей фактов и для вывода новых фактов из Интеллсист в качестве результатов логического вывода. Порядок рассмотрения лексем определяется перечнем типов данных.


Лексемами для логических значений являются два слова: ложь и истина. Для этих лексем имеются соответствующие синонимы: false и true. Пользователем могут вводиться новые синонимы, например, типа «нет» и «да». Логические лексемы выражают диалектическую меру правильности высказываний, отсутствие или наличие фактов и др.


Лексемы истинности составляются из модальных слов, выражающих меру истинности или меру близости ко лжи или истине. В качестве примера приведем перечислимое (ложь, возможно, истина). Первое слово перечисления (в общем случае - термин) всегда имеет смысл лжи, последнее - истины, независимо от того каким словом (или термином) они обозначены. Близость ко лжи или истине выражается расстоянием других модальных слов от первого или последнего слов. Они используются для арифметических вычислений.


Лексемы чисел достаточно полно описаны в томе 4, к ним относятся:

короткие целые (синоним shortint),

целые (синоним integer),

длинные целые (синоним longint),

байтовые (синоним byte),

словные (синоним word),

целые с шагом (пример: 0(2)24),

целые в диапазоне (пример: -10..10),

короткие вещественные (синоним single),

вещественных (синоним real),

длинные вещественные (синоним double),

расширенные вещественные (синоним extended),

фиксированные вещественные (синоним fixed),

плавающие вещественные (синоним float).

Числовые лексемы используются в арифметике чисел с применением тригонометрических, экспоненциальных и других функций. Эти лексемы применяются также в алгебре и теории множеств. Символьные лексемы - это тексты из любых символов, заключенные в кавычки, а сами кавычки в таких текстах представляются сдвоенными кавычками. Числовые лексемы могут представляться в системе счисления с основанием от двух до шестнадцати. Конечно, десятичная система счисления использует последовательности цифр, а остальные записи чисел должны сопровождаться указанием основания системы счисления.


Помимо простых лексем можно использовать и структурные лексемы. Структурные лексемы комбинируются из простых лексем, они подразделяются на регулярные и составные. Регулярные структуры состоятся из простых однотипных лексем (строки из символов, векторы и матрицы), составные структуры состоят, вообще говоря, из разнотипных данных.


К регулярным структурным лексемам относятся массивы (синоним array), для которых задаются индексы и тип значения компоненты массива. Такие лексемы являются значениями структурных величин. К регулярным структурным лексемам относятся строки (синоним string), которые образует строку из индексированных символов. Индекс символа изменяется от 1 до некоторого целого числа меньшего 256. Строки предназначены для передачи информации произвольной структуры, являющейся значением особого сорта. Смысл многих объектов могут передаваться строками.


К структурным составным лексемам относится запись (синоним record), которая состоит из полей самых разнообразных типов лексем. Имя поля - это новый термин для понятия, являющегося атрибутом общего понятия - записи. Тип поля может определяться произвольно. Записи используются главным образом для передачи знания о сложных объектах (животное, строение и др.). Частным случаем записей является таблица (синоним table), которая определяется как запись, состоящая из колонок и строчек и обрабатываемая некоторой СУБД. К частному случаю записи относится дата (синоним date), которая состоит из полей дня (до 31 дня), месяца (12 названий) и года (от 1900 до 2100). Смысл даты очевиден. Также к частному случаю относится время (синоним time), которое является записью из полей: часы (от 0 до 24), минуты (от 0 до 60), секунды (от 0 до 60) и доли секунд (от 0 с шагом 0.02 до 1). Смысл времени также очевиден. Особым частным случаем структурных лексем являются комплексные числа (синоним compl), которые представляются в форме записи из двух полей Re - вещественная часть и Im - мнимая часть комплексного числа.


Формы представления дат (лексемы даты) отсутствуют в СиГ, в СеГ они введены и имеют привычный для пользователя вид. Например, даты 01 января 1996 года, 01.01.1996, 01/01/96 или 01.01.96 являются одинаковыми. Опасно использовать часть записи года, поскольку не указан век для данной даты. Интеллсист способна использовать часть года, например по алгоритму: если год меньше 50, то перед номером года приписывается 20 (2032), если год больше или равен 50, то перед номером года приписывается 19 (1932). Безусловно, этот алгоритм может привести к неверному пониманию года.


Формы представления времени (лексемы времени) также отсутствуют в СиГ, поэтому в СеГ она вводится привычным методом. Например, время 23 часа 25 минуты 45.2 секунды = 23.25.45.2. Нужно иметь в виду, что Интеллсист воспринимает дискрет (разницу между двумя соседними моментами времени), равный 0.01 секунды. Более точное время необходимо выбирать из внутренних часов ВМ.


Комплексные числа в математике представляются суммой действительной и мнимой частей. Эта форма применима и в СеГ как частный случай записи. Но кроме этого можно использовать форму, которая использует скобки для указания пары чисел - действительной и мнимой частей. Например, [2.7, 3.5] = 2.7 + 3.5 i.


Особый сорт лексем, который мало распространен в обычной жизни, а скорее является объектом фундаментальных наук, - это множество (синонимы набор или set). Множество - это собрание объектов одинакового типа, которые называются элементами множества. Множества бывают конечными (состоящими из конечного числа элементов), абстрактными (состоящими из неопределенных элементов) или бесконечными (счетными или континуальными). Для всех множеств имеются две лексемы, именующие пустое множество (null) и универсальное множество (unit), состоящее их всех мыслимых элементов. Лексемы, представляющие конечное множество, состоят из конечного списка лексем, заключенным в фигурные скобки. Элементами конечного множества являются лексемы одного и того же типа, формулы со значениями одинаковых типов и др., словом лексемы любого, но одного и того же типа. Лексемы, представляющие счетное множество с количеством элементов омега (синоним omega), состоят также из конечного списка лексем, но в отличие от конечного множества оно может расширяться по составу элементов. Лексемы, представляющие континуальное множество с количеством элементов алеф (синоним alef), также состоят из конечного списка лексем, но в отличие от конечного множества оно может расширяться по составу элементов. Лексемы абстрактного множества не существую, кроме двух - пустого и универсального множеств. В процессе разрешения запросов абстрактное множество может приобрести конкретную характеристику: стать конечным, счетным или континуальным.


Лексемы под именем последовательности бывают двух сортов: символьные и понятийные. Файловые лексемы (синоним file) задаются строками, которые имеют смысл, заложенный в информацию о файле. Элемент файла - это лексема типа, определенного описанием файла. Специальный тип файловых лексем называется текстовой лексемой (синоним text).


Существует только одна особая ссылочная (синоним ref) лексема пусто (синоним nil), другие ссылочные лексемы совпадают с целыми лексемами. Программные лексемы (синоним program) определяются в результате выполнения (истина) или невыполнения программы (ложь). Аналогично, процедурная лексема определяет (вообще говоря) пустое значение. В ЯПП процедурную лексему будем снабжать смыслом логической величины: она принимает значение ложь, если не выполнилась, иначе принимает значение истина.


Функциональная лексема, как программная и процедурная лексемы, задается утверждениями или фразами. Такие лексемы могут показаться неожиданными. Надо принять на веру этот факт или вспомнить о приемах в программировании, которые связаны с пониманием подпрограмм как данные, с которыми можно обращаться также как с числами. Процедурный тип определяет выполнение заданной программы с или без параметров. Функциональный тип определяет значение некоторого типа.


После вступительного пояснения базовых понятий СеГ, можно перейти к определению грамматики. Определение грамматики построено в математической лингвистике. Оно строится по шаблону в форме четверки, атрибутами которой являются:


<терминальный алфавит, нетерминальный алфавит,

правила построения текстов, нетерминальный символ>.


Терминальный алфавит составляется из графических знаков конечной численности. В СиГ такой алфавит включает буквы, цифры и знаки препинания. В СеГ алфавит составляется из графических знаков, которые имеются на клавиатуре устройства ввода текстов. Нетерминальный «алфавит» составляется из терминов грамматических категорий или грамматических понятий (также конечной численности). Как уже упоминалось, число таких понятий в СиГ более 250, в СеГ - несколько десятков (некоторые уже рассмотрены). Правила построения текстов даются описательно, они составляют инструкцию о записи правильных слов и фраз. Из числа терминов грамматических категорий выделяется один символ, который именует ЕЯ. Здесь рассматривается имя «русский язык». Точные определения всех конструкций ЯПП, включая лексемы, даны в ФЯ Лейбниц.

1   ...   4   5   6   7   8   9   10   11   ...   33

Похожие:

В семи томах том Информатика смысла Машинная лингвистика iconСобрание сочинений в семи томах 3 «Собрание сочинений в семи томах»: Время; 2008
Собрание сочинений М. М. Зощенко — самое полное издание прозы одного из крупнейших писателей-новаторов XX века. В него входят практически...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Излагаемые методы частично модифицированы по сравнению с их оригинальным изложением для их ориентирования и усиления при использовании...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Определяются логические лексемы, фундаментальные операции, правила преобразования логических уравнений, а также металогика для обоснования...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Словарь поможет пользователям Интеллсист и разработчикам машинных систем разнообразного назначения в написании отчетов, руководств...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Основы информатики (Введение в информатику)
Вм на основе своих общих и профессиональных знаний без привлечения программистов для решения задач, для разрешения вопросов или проблем...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Представление знаний (Структуры данных)
Приводимые примеры служат фрагментами прототипов записей знаний и запросов, предназначенных для создателей заданий и запросов к базе...
В семи томах том Информатика смысла Машинная лингвистика iconРавительство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том V уфа гилем 2010
Российская академия наук Уфимский научный центр ■ Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconЬство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том VI москва восточная литература 2011
Российская академия наук Уфимский научный центр Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Интеллектуальные системы (Системы решения проблем)
Интеллсист, их структуры и технологии работы с инструментарием составляют центральную часть тома. Оценка возможностей Интеллсист...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика и вычислительная техника” и специальностей 220100 “Вычислительные машины, комплексы, системы и сети” и 021800 “Теоретическая и прикладная лингвистика” Ульяновск 2003
Методические указания к выполнению лабораторных работ по программированию для студентов направления 552800 “Информатика и вычислительная...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница