В семи томах том Информатика смысла Машинная лингвистика




НазваниеВ семи томах том Информатика смысла Машинная лингвистика
страница9/33
Дата29.11.2012
Размер4.61 Mb.
ТипДокументы
1   ...   5   6   7   8   9   10   11   12   ...   33

2.3. Слова, имена и термины


Связь с предыдущим разделом весьма тесная. Слова, имена и составленные из них термины используются не только для формирования лексем, они выражают количественную сторону фактов, обозначают понятия и передают конкретный смысл фраз. В предыдущем разделе рассмотрены только контуры лексем, здесь им будет уделено место для более полной расшифровки смысла, который несут лексемы.


Особое место в текстах занимают лексемы-слова. В СиГ слова состоят только из букв, в СеГ слова могут состоять из букв и цифр (см. H2O) и отделяются друг от друга пробелами. Слова должны начинаться с буквы и продолжаться буквой или цифрой. Еще одна особенность записи слов состоит в том, что прописные и строчные (или большие и малые) буквы не могут отождествляться. Слова-термины «Термин», «термин» и «теРмин» могут иметь различный смысл, если только они не являются синонимами друг друга. Таким образом, в СеГ осуществляется обобщение понятия слова по сравнению с СиГ. Все слова СиГ используются в СеГ, но не все слова СеГ могут быть поняты в СиГ. Слова (лучше всего сказать термины) входят в текст знаний (или запросов) не менее, чем дважды: первое вхождение определяющее, второе - использующее. В определяющее вхождение слово входит как объект, состоящий из двух частей (конец слова может быть пустым):


слово = база слова;

слово = база слова , конец слова.


База слова определяется специалистом (знаниеведом, лингвистом данной специальности или квалифицированным пользователем) в данной области, а не грамматикой ЕЯ. Конец слова может быть пустым, совпадать с окончанием в смысле грамматики ЕЯ, содержать суффиксы и окончания или часть окончания. Конец слова должен сохраняться в словаре из слов, чтобы правильно формировать слова для печати на экране или бумаге. Проблема использования фиксированного конца слова возникает и в случае выдачи осмысленных текстов (например, вопросов системы для пользователя), в которые включается данное слово. Обратный перевод (трансляция) ФЯ на ЯПП требует знания ЕЯ и его грамматики. Требуемый конец слова должен восстанавливаться по всему контексту использования слова, выдаваемого на печать. Такие грамматические категории как суффикс, корень, префикс или окончание в СеГ отсутствуют. Их наличие или отсутствие в слове дает возможность построения новых терминов или синонимов имеющихся терминов.


Буквы служат для построения слов. Последовательность букв без пробелов называется словом, оно не несет никакого смысла за исключением специальных случаев, о которых будет сказано ниже. Можно привести пример исключения - это применение собственных имен. СеГ расширяет понятие слова в следующем определении: словом называется последовательность букв и цифр без пробелов, начинающаяся буквой и выделяемая пробелами или знаками, отличными от букв и цифр. Например, записи: слово, константа, величина являются словами в СеГ русского языка.


Имена понятий в СеГ образуются из любых слов и знаков в форме произвольной последовательностей, которые могут состоять и из одного слова или одного знака. В этом можно усмотреть главное отличие СеГ по сравнению с СиГ.


Уже отмечены особые сорта лексем, которые отсутствуют в СиГ. В связи с этим остановимся чуть подробнее на таких лексемах. Цифры (иногда изображаемые словами) предназначены для формирования чисел, которые в общем смысле являются «словами». В СиГ имеются числительные, представленные последовательностями слов. Тексты русского языка содержат числа, состоящие из последовательностей цифр или комбинаций таких чисел. Числа выражают смысл некоторых величин. Например, 1996 может выражать номер года. Числа используются более всего в математике, они образуются из цифр и знаков точки, плюса, минуса и латинских букв e или E. Определим понятие числа. Последовательности цифр без пробелов представляют целые числа. Две последовательности цифр (или два целых числа), разделенных точкой (без пробелов), представляют числа - рациональные дроби, вещественные числа или числа с фиксированной запятой (представленной точкой). Целое число или рациональная дробь вместе с порядком числа (без пробелов) представляют вещественные числа или числа с плавающей запятой (представленной точкой). Порядок числа записывается латинской буквой e (или E) и целым числом со знаком + (плюс), - (минус) или без знака. Все числа выделяются пробелами или знаками, отличными от знаков, используемых при построении чисел. Например, 7, 32, 100 - целые числа, 2e+2 (200), 33E-10, 2.7e0 - вещественные числа. Числа имеют смысл, соответствующий его значению. Они используются для представления фактов. Каждое число можно представить словами из раздела числительных. В описаниях грамматики ЕЯ не рассматриваются конструкции чисел. СеГ должна восполнить этот пробел.


Остальные знаки используются в различных ситуациях, от которых зависит смысл знака. Например, знак + обычно понимается как операция сложения, * - операция умножения, / - операция деления. Некоторые знаки предназначены для выделения утверждений (. » ; ! ?), другие для построения имени понятия. Часть знаков используются для построения собственных имен для выделения смысла фактов. Любой знак может вводиться в память Интеллсист как некоторое значение факта. Поскольку Интеллсист должна формировать новые факты, которые в представлениях используют те же знаки клавиатуры, можно строить осмысленные понятия из любых знаков. Каждый символ-знак может вводиться в память с помощью кавычек. Например, Интеллсист понимает записи «+», «d», «2» как значения для построения смысла фактов, вводимых в Интеллсист или получаемых в результате логического вывода новых фактов. Знаки, буквы и цифры в кавычках называются символами.


Сам пользователь может ввести в БЗ константы. Но некоторые константы определены заведомо. К ним относятся, в частности, нули и единицы различных типов, они приведены ниже в таблице:


Пункт

Сорт константы

Обозначение

Синоним

1

Числовой нуль

0

нуль

2

Числовая единица

1

единица

3

Логический нуль

ложь

false

4

Логическая единица

истина

true

5

Символьный нуль

«»

пусто

6

Строковый нуль

«»

пусто

7

Нуль-множество

null

пусто

8

Единица-множество

unit

единица

9

Нуль-ссылка

nil

нуль

10

Процедурный нуль

void

пусто


Конечно, вводимые пользователем константы могут быть, например, символьными - «с», истинностными - (~ложь0~, ~не определено~, ~истина1~), целыми - 27, вещественными - 2.7E+1, строковыми - «текст», датами - «23 ноября 1996», временем - «20 часов 31 минута 45.7 секунды», ссылочными - $79 и поименованными - Х (термин, отмеченный как константа).


В СеГ зафиксированы слова, которые являются ключевыми, они могут использоваться самостоятельно, в составе термина или как термин с известными свойствами. К таким словам относятся: термин, тип, синоним, программа, правило, знание, исключение, запрос, шаблон, анкета, данные, библиотека, метапонятие, отношение, язык и др. Некоторые слова скрыты в СеГ, но они могут использоваться при формировании знаний или запросов. В СеГ зафиксированы слова, которые также являются ключевыми, но они не могут использоваться самостоятельно в качестве термина. К таким словам относятся: целый, массив, запись, таблица, операция, функция, процедура, прагма и др. слова. Эти слова могут входить в состав термина, как его часть.


СиГ рассматривает термины, чаще всего составленные из слов. Но как быть школьнику, который использует записи (а + в). Учителем математики ему сообщается, как писать такие фразы. При этом не используются грамматические категории, а только некоторые интуитивные соображения о записи, например формульной фразы. В СеГ разрешается использовать в качестве термина формульную фразу (а + в). Причем используется вместе с точкой или без нее.


Некоторые слова являются именами, они записываются с заглавной буквы, и это свойство сохраняется во всем тексте. Здесь нет ничего необычного. Смысл каждого конкретного имени определяется. Понятия слова-термина и имени-термина в этом смысле идентичны. Например, Иван и человек - два термина с одинаковыми или различными характеристиками, соединенными термином «и». Термин человек может выступать как метапонятие, составленное из всех учитываемых имен. Тогда текст «человек Иван» состоит из двух различных терминов. Этим самым создается путь для обобщения имен. Именно таким образом термины соединяются в общую грамматическую категорию собственные и несобственные имена. Число грамматических категорий СиГ сокращается для СеГ.


В СеГ выделяются два класса слов:

стандартные (широко распространенные в ЕЯ для конструирования осмысливаемых фраз) слова и

профессиональные (введенные самими разработчиком или пользователем знаний) слова.

К стандартным словам относятся слова, которые входят в термины («если», «то», «когда» и др.) или являются терминами общего назначения («тип», «целый», «массив» и др.). К пользовательским словам относятся любые слова, введенные в процессе накопления БЗ или составления запроса для Интеллсист. Важную роль при использовании СеГ играют словари из слов, которые не имеют значения, но используются для построения и идентификации терминов. В связи с указанной структурой слов каждое слово должно иметь характеристику, определяющую длину основы слова. Интерфейс Интеллсист обеспечивает указание такой характеристики путем использования подчеркивания в определении нового термина: слов_о, словц_о, подчеркивани_е, длин_а.


В связи с использованием для имен заглавных букв следует сделать существенное замечание. Предложение, вводимое в базу или используемое в запросе, не должно начинаться заглавной буквой. Интеллсист не всегда точно может распознать случаи использования заглавных букв. В большинстве случаев распознавание будет удачным.


В СеГ описываются простые и сложные имена. К сложным именам относятся квантор («найти» или «какой бы ни был»), формула (дождь или снег), функция (скорость от пути), индексирование (пятый элемент массива), именование (поле А таблицы Т), отрезок (элементы массива в диапазоне от 1 до 10), преобразование (привести к целому), квалификация (понимать как целое), атрибут (размер массива). Для лингвиста такие имена могут быть неожиданными. Здесь ограничимся краткими пояснениями таких имен. Для пользователя (кроме математика) сложные имена скрыты стандартными терминами, которые описываются в полном изложении СеГ. Пользователь может применять шаблонные запросы, в которых сложные имена уже имеются, они определены и отлажены.


Имеется два вида кванторов: квантор всеобщности и квантор существования. В речи и письме они используются часто. К примеру, кванторы всеобщности используются в предложениях: «для каждого законопослушного гражданина конституция является руководством в жизни», «для дома и семьи в магазине имеется товар», кванторы существования используются в предложениях: «найти скорость, при которой спутник может выйти на орбиту», «существует хорошая жизнь в отдельных районах Земли». Первый квантор позволяет ввести в Интеллсист требование о справедливости высказываний, второй - ориентирует Интеллсист на вопрос, задачу или проблему, подлежащие разрешению с помощью Интеллсист. Квантор именует истину. Здесь использованы стандартные слова и термины: «для», «для каждого», «найти», «существует». Понятие квантора не должно пугать пользователя, но требует некоторой привычки. Чаще всего квантор возникает автоматически из слов, которые упомянуты выше.


Формула или функция (зависимость между величинами) именуют некоторое гипотетическое значение, которое может быть получено в результате его вычисления. Часто используются фразы с операциями: «сумму налога вычесть из суммы дохода». Знающий ЕЯ и не подразумевает, что кроме формул он использует и функции. Следующие фразы дают примеры функций: «скорость зависит от пути и времени», «у F имеется аргумент X». Имеются частные разновидности функций, зависящих от дискретной величины и именуемых индексированием. Например, числовые таблицы задают дискретную функцию от аргумента - целочисленной величины (номер строчки таблицы). «Из массива ведомость взять вторую строчку» - пример использования индексирования. А фраза «Из массива ведомость взять строчки от второй до седьмой» определяет в СеГ отрезок массива. Аналогично индексированию устроена дискретная функция именования, когда значение определяется в зависимости от имени. Наиболее подходящим примером являются таблицы, в которых имеются столбцы и строчки. Каждый столбец поименован, а строчки пронумерованы. Например, фраза «Из таблицы сводка взять колонку зарплата и пятую строчку» содержит имя колонки, из которой выбирается числовое данное.


В СеГ определены операции преобразования, квалификации и атрибута, которые приводят значения к требуемому типу данных или реализуют выбор некоторого свойства данного или часть его значения. «число А преобразовать к типу вещественный», «число А считать относящимися к типу целый», «использовать размер В» - это реальные примеры использования указанных операций. Конечно, сложные имена используются особенно в текстах фундаментальных наук. В литературном языке можно найти немало примеров применения сложных имен. Например, конкретный почтовый адрес является сложным именем.


Грамматику любого языка, в том числе и ФЯ, порождаемого СеГ, характеризуют фундаментальные исходные понятия. От того, какие понятия определяют СеГ, определяется ее назначение. Такими фундаментальными понятиями являются: слово, лексема, знак, термин, понятие, лексикон, абзац и др.


2.4. Понятия, классы понятий и лексиконы


В основе СеГ использована одна из фундаментальных категорий - понятие. В соответствии с нашим пониманием классификации видов знания дадим 7 определений термина понятие.


2.4.1. Понятия. Так дается определение понятия в различных словарях и книгах. Понятие - это форма мышления, отражающая существенные свойства, связи и отношения предметов, явлений или процессов. Понятие - это языковая категория (напоминающая фразеологические обороты или выражения), отражающая существенные свойства, связи и отношения единиц языка (термины) или составляющие единицы языка: слова, комбинации слов и знаков, а также текстов этого языка. Понятие - это сущность всякого понимания действительного или мыслимого, предназначенная для истинного описания реального мира. Понятие - это главный языковый элемент, определяемый обычно в терминологическом словаре как целое и неделимое. Понятие - это совокупность следующих атрибутов: термин, множество возможных значений понятия, текущее значение, дата введения термина, сорт и тип понятия, терминологическое определение понятия, характеристика контекста. Понятие - это результат познания действительности, выражаемый языковыми средствами через имя понятия и его значение, получаемое в результате познания. Понятие - это система данных выше определений.


Определение понятия, представленное в соответствии с пятым определением, включает (как указано выше) следующие атрибуты:

одну или несколько основ вводимых слов и возможно некоторое число знаков, составляющих термин,

исходные концы слов,

класс и сорт понятия,

тип значений понятия,

ссылку на значение понятия,

текущее или постоянное значение понятия,

ссылку на неформальное определение термина,

дату введения понятия.

Указанные атрибуты позволяют построить формальное определение термина. Исходное окончание предусматривается для вывода термина на экран при общении с пользователем и при отсутствии системы генерации текстов ЯПП. Класс, сорт и тип понятия рассмотрены ниже. Каждое понятие имеет значение, его представителя, полный набор значений или константное значение - все они относятся к определению понятия. Некоторые понятия определяются абстрактно, они определены интуитивно и только термином, их доопределения будет осуществляться в процессе поиска смысла текста. Некоторые понятия определены только значениями (эмоционально), для них термин в данном применении не обязателен. Неформальное определение понятия включает набор предложений ЕЯ по правилам СиГ или СеГ для передачи его смысла человеку, желающему ознакомиться со знаниями данной области. Интеллсист использует определение понятия только информационно. Оно может отсутствовать. Если определение должно использоваться в Интеллсист, то оно должно быть написано на ЯПП по правилам СеГ. Совокупность терминов, используемых в данном применении, называется лексиконом или терминологическим словарем.


Процесс описания понятия - это введение его имени и характеристик (атрибутов). Стандартные и нестандартные (из предметной или проблемной областей) понятия вводятся знаниеведом (это новое понятие для обозначения работника со знаниями) и пользователем на этапе создания БЗ и запросов. Новые понятия для переменной части лексикона вводятся пользователем в процессе формулировки запроса или ответа на вопросы Интеллсист. Объектом изучения лексикологии ЯПП являются слова, знаки и термины, составленные из слов и знаков. Они изучаются с точки зрения смыслового значения, места в лексике ЯПП, происхождения, употребления, сферы применения и характеристик.

1   ...   5   6   7   8   9   10   11   12   ...   33

Похожие:

В семи томах том Информатика смысла Машинная лингвистика iconСобрание сочинений в семи томах 3 «Собрание сочинений в семи томах»: Время; 2008
Собрание сочинений М. М. Зощенко — самое полное издание прозы одного из крупнейших писателей-новаторов XX века. В него входят практически...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Излагаемые методы частично модифицированы по сравнению с их оригинальным изложением для их ориентирования и усиления при использовании...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Определяются логические лексемы, фундаментальные операции, правила преобразования логических уравнений, а также металогика для обоснования...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика в семи томах
Словарь поможет пользователям Интеллсист и разработчикам машинных систем разнообразного назначения в написании отчетов, руководств...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Основы информатики (Введение в информатику)
Вм на основе своих общих и профессиональных знаний без привлечения программистов для решения задач, для разрешения вопросов или проблем...
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Представление знаний (Структуры данных)
Приводимые примеры служат фрагментами прототипов записей знаний и запросов, предназначенных для создателей заданий и запросов к базе...
В семи томах том Информатика смысла Машинная лингвистика iconРавительство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том V уфа гилем 2010
Российская академия наук Уфимский научный центр ■ Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconЬство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том VI москва восточная литература 2011
Российская академия наук Уфимский научный центр Институт истории, языка и литературы
В семи томах том Информатика смысла Машинная лингвистика iconВ семи томах том Интеллектуальные системы (Системы решения проблем)
Интеллсист, их структуры и технологии работы с инструментарием составляют центральную часть тома. Оценка возможностей Интеллсист...
В семи томах том Информатика смысла Машинная лингвистика iconИнформатика и вычислительная техника” и специальностей 220100 “Вычислительные машины, комплексы, системы и сети” и 021800 “Теоретическая и прикладная лингвистика” Ульяновск 2003
Методические указания к выполнению лабораторных работ по программированию для студентов направления 552800 “Информатика и вычислительная...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница