Информатика в семи томах




НазваниеИнформатика в семи томах
страница5/44
Дата30.08.2012
Размер6.34 Mb.
ТипДокументы
1   2   3   4   5   6   7   8   9   ...   44
Глава 4. Представления понятий


Главные вопросы этого тома имеют отношение к представлению сведений в памяти ВМ. Здесь касаемся только представлений тех объектов, которые рассматриваются в концептуальной информатике. Термин представляется в соответствии с правилами лингвистики для понятий (по СиГ и СеГ). При этом учитываются и свойства средств написания терминов, символики и технических средств и методов хранения термина или его атрибутов. Понятия или его определения (лексемы и термины) имеют средства для представления в современной информатике. Современная концептуальная информатика выработала определенные методы представления указанных объектов. Кратко рассматриваются некоторые методы представления имен, понятий и определений понятий.


Очевидно, имеется два вида представлений – внешнее (для пользователя) и внутреннее (в памяти ВМ) представление. Первое связано с восприятием информации человеком, второе - с возможностью обработки информации на машине. К первому предъявляются требования - ясности и четкости восприятия человеком, ко второму - возможности обеспечения эффективного использования памяти и обеспечения быстродействия алгоритмов обработки сведений и знаний. Кратко рассмотрим эти виды представлений. Рассмотрение никоим образом не претендует на полноту и обеспечивает лишь очерчивание круга тем.


Внешнее и внутреннее представления сопровождаются словарями, с помощью которых осуществляется создание, анализ или распознавание и синтез или точное конструирование текстов. Словари играют фундаментальную роль в информатике. Они также должны иметь два способа представлений: внешнее для человека и внутреннее для эффективной работы Интеллсист.


4.1. Некоторые соображения о внешних представлениях


Одна из проблем концептуальной информатики состоит в разработке методов представления знаний всех видов. (Пока временно абстрагируемся от графического и предметного видов.) Эта проблема продвинута во многом в программировании, на него и нужно в большей части ориентироваться. Как уже было сказано, имя (это обозначение понятия, которое имеется во всех языках представления данных, программ и текстов) предназначено для человека, как главная составная и элементарная часть знаний, которая имеет известную форму представления последовательностью символов (букв, цифр или еще каких-либо символов или знаков). Внешнее и внутреннее представления имени можно считать известными вещами. Внешние имена обычно представляются в таблицах имен (таблица идентификаторов, слов или терминов), внутреннее представление - это некоторая байтовая структура.


Похожая на проблему представления имен разрешается проблема представления терминов. Термин является именем понятия, но термин существенно расширяет понятия имени. Имеются некоторые проблемы внутреннего представления многословных терминов (словосочетаний или последовательности слов и знаков), поскольку понятие термина по-новому толкуется в информатике. В каждом представлении термина необходимо указать на связи между различными терминами. При этом необходимо учитывать, что в различные термины могут входить одинаковые имена (слова или знаки).


Представление словарей или лексиконов характеризуется проблемами относительно их внутреннего представления. Словари для многословных терминов (лексиконы) имеют особенности, связанные с указаниями ссылок от одного имени к другому имени с учетом факта совпадения некоторых имен в составе многословных терминов. Словарь терминов в информатике, приведенный в конце книги является иллюстрацией его внешнего представления. Понятие имеет внешнее представление в самых разнообразных видах и формах. Это подробнее рассматривается в главе 5. Внутреннее представление - это представленные каким-либо методом данные в различных видах и формах, программы на самых различных языках, БД и БЗ и др. кодированные сообщения.


Определения понятий имеют известное для человека внешнее представление в форме суждений, а соответствующее ему внутреннее представление состоит из логических формул, представление которых складывается из представлений составных частей определения - терминов.


Для представления смысла не существует известных специальных средств. Здесь проблемы вытекают из того факта, что смысл термина, понятия или его определения должен учитываться при выборе методов кодирования информации об этих объектах. Например, для эффективного учета смысла понятия обычно используют семантические сети или фреймы, а также логические формулы некоторых языков внутреннего представления выражений и их составных частей. Известные способы представления сетей и фреймов укладываются в структуры языка Лейбниц. Для Интеллсист смысл представляется лексемами или структурами из лексем.


При выборе методов внешних и внутренних представлений необходимо учитывать еще и следующие факторы:

  • сохранение установившихся традиций для представлений, что обеспечивает преемственность в информатике по программам и данным, сохранность программного обеспечения и его применимость к новым данным (именам, терминам, словарям и лексиконам);

  • использование преимуществ единообразия, одинаковости синтаксических правил в представлениях для обеспечения экономии операций ввода, хранения, обработки и вывода имеющихся или новых данных рассматриваемого сорта;

  • применение методов сокращения представлений или введения заменителей (синонимов), принятых в данной области знания, для обеспечения эффективности использования памяти и быстродействия программ;

  • максимальное использование в текстах фиксированных, понятных или общеупотребительных слов для обозначения имен и терминов для обеспечения плотной упаковки информации, связанной с этим зарезервированными словами;

  • принятие во внимание более сложных методов сокращения представлений, методы должны базироваться на ортогональности и независимости понятий, на недопущении тавтологических определений типа «данное понятие есть данное понятие»;

  • учет ближайшего или далекого контекста в представлениях данных и программ их обработки для обеспечения точности передачи в Интеллсист понятий, их определений и смысла;

  • максимальный учет имеющихся ФЯ, а также ЕЯ, или методов представления данных и программ обработки имен, терминов, словарей и лексиконов для обеспечения эффективности труда программиста и пользователя различными системами.


Ограничимся указанными требованиями к внешнему (да и, пожалуй, частично к внутреннему) представлению указанных объектов. Концептуальная информатика выработала массу разнообразных методов и приемов для реализации представлений. В особенности внешние представления рассматриваются при описании грамматики ФЯ. Она точно определяет все внешние представления понятий вместе с описанием их смысла.


4.2. Внутренние представления


Многолетняя практика применения ВМ выработала множество приемов, способов и методов формирования внутреннего представления данных, программ и знаний. Упаковка чисел, массивов, записей, списков и стеков, формул и программ известна в самых разнообразных языках программирования и представления данных. В конечном счете, стандартизация представлений привела технические и программные средства к формам, которые именуются теперь байтовыми представлениями. Байт - это место для кода одного внешнего символа. Если необходимо представление числа, то используется один или несколько байтов, если необходимо представление двоичной информации, то используется один байт (при кодировании двоичных векторов длины не более восьми) или несколько байтов (при кодировании двоичных векторов длины более восьми). Массивы, таблицы и записи для внутреннего представления используют композицию из представлений их элементов.


Для структурного данного (массива, записи, списка, стека и др.) используется понятие паспорта данных, который содержит все значения атрибутов этого данного. Структура паспорта известна, но обратим внимание на одну особенность представления паспортов. Паспорт содержит следующие атрибуты:

  1. Внешнее имя с атрибутами (дата, состав термина, ссылки на определение).

  2. Размерность объекта и его структурность.

  3. Размер по каждому измерению в каких-либо единицах.

  4. Размер элемента в битах.

  5. Свойства представлений (упаковка, система кодов).

  6. Адрес расположения значения.

  7. Состояния данного (загрузка, начальное присваивание, возможность доступа, даты последнего вызова и формирования, число обращений и др.).

Атрибутами внешнего имени являются все имена, которые относятся к внешней спецификации объекта.


Существенное отличие имеют представления графической и предметной информации. Иногда используется символьное представление, с помощью которого можно автоматически генерировать изображения на экране. Графическая информация кодируется чаще всего двоичным вектором. Если вместе с кодом представления точки экрана необходимо передавать окраску этой точки, то используется байтовая организация памяти ВМ.


Специальные и проблемно-ориентированные ВМ могут использовать другие кодировки для обеспечения выполнения требований по надежности, быстродействия, эффективности и защищенности информации. Использование несовместимых со стандартами универсальных форматов представлений может вызвать затруднения при создании инструментария для программирования проблемно-ориентированных ВМ.


Словари представляются двумя методами: древовидно для быстрого поиска и таблично (коллекция) для создания внешних представлений при печати результатов. В первом методе используется граф «и-или» с подходящей интерпретацией операций «и» и «или». Кроме словарей в Интеллсист представляются таблицы для наборов однотипных лексем.


4.3. Словари из символов и слов


Издревле принято изобретать символы для обозначения предметов, явлений или процессов. Предметная символика постепенно была заменена алфавитом или набором унифицированных символов, которые используются для быстрого составления текстов и просто имен самих предметов. Каждая народность составляла свой алфавит, возможно иногда ориентируясь на известные алфавиты. Такие алфавиты в информатике называют таблицами символов или словарями символов.


Словари из символов бывают различными у разных народов или государств. В информатике используется чаще всего клавиатура с клавишами из символов стандарта ASCII. Он включает кроме цифр и общепринятых знаков два регистра букв латинского алфавита и два регистра букв национального алфавита. В отдельных науках или отраслях знаний используются и другие словари из символов. Флажковый алфавит моряков, азбука Брайля для слепых, дорожные знаки - только три примера из огромного числа алфавитов. Информатике под силу использование таких и других алфавитов с помощью одного алфавита ASCII. Для использования символов не из этого алфавита составляются последовательности символов алфавита ASCII, которые обозначают требуемые символы другого алфавита. В Интеллсист находятся несколько словарей из символов, которые могут вызываться для составления последовательностей из символов при передаче системе знаний.


Из символов алфавита составляются последовательности, которые называются словами. В информатике не имеет значения, из каких символов составлено слово. В слово может входить буква, цифра или знак, отличный от буквы или цифры. Слова обычно выделяются в последовательности символов проблемами или знаками, не входящими в слова. Например, А+В может быть словом, а может быть последовательностью слов А, +, В (слова из букв А и В разделены знаком + и пробелами). Слово или термин «по-видимому» формально является формулой «по минус видимому». Этот термин может использоваться в запросах для решения задач.


В информатике принято считать словами последовательности букв и цифр, начинающиеся буквой. Только такие слова воспринимаются в Интеллсист в качестве слов. Слова в некоторых обобщениях могут состоять из других знаков в любом порядке в последовательности. Интеллсист рассматривает только те слова, которые более всего совпадают со словами, используемыми в различных ЯПП. Слова в информатике обозначаются с использованием средств, которые шире средств ЕЯ общения людей. Слова ЕЯ расширены в результате разрешения запросов пользователей самых разных специальностей. Таковы правила СиГ для различных ЯПП, они позволяют строить слова по строгим правилам.


Последовательность слов в ЕЯ образуют словосочетания или термины. Для ЯПП правила образования терминов расширены. В силу СеГ термином может быть слово, знак или конечная последовательность из знаков и слов, даже состоящая только из одного или нескольких знаков или только из слов. Здесь опять сталкиваемся с запросами пользователей различных специальностей. Состав терминов, построенных по правилам СеГ, намного шире состава терминов, построенных по правилам СиГ. Интеллсист должна обеспечить написание и разрешение запросов пользователей различных специальностей и специализаций. Интеллсист в решении логических уравнений ориентируется на словари из слов. Сообщаемые через БЗ или запросы определения терминов включают слова, которые должны быть учтены на всех этапах обработки знаний и запросов. В связи с этим слова собираются в словари независимо от того являются ли они терминами или частями терминов. Словарь необходим для идентификации терминов и построения подсказок


В СеГ каждый текст состоит из последовательности терминов. Термины по текстам могут определяться автоматически, если размеры текста велики. Например, автоматически можно построить терминологический словарь для текста, состоящего из 1000 файлов и более. Такой метод составления словаря подчиняется законом теории вероятности. Каждая область знания имеет свой словарь, который не подчиняется случайным факторам. В связи с этим возникает проблема составления стандартных терминологических словарей в каждой области знания.


В настоящее время созданы терминологические словари по многим областям знаний. Они предназначены для человека и содержат термин и его определение. В Интеллсист, кроме «определения для человека» необходимо для каждого термина построить его характеристики в соответствии с требованиями к системе. Конечно, можно решать и такую задачу: Интеллсист автоматически составляет словарь и снабжает каждый термин характеристикой «абстрактный». В процессе логического вывода каждый термин будет доопределяться более точными свойствами и характеристиками. Этот процесс приведет к появлению большого числа вопросов пользователю или значительного числа вариантов ответов. Описанная ситуация реальна и может использоваться для изучения текстов знания.


Терминологический словарь Интеллсист существенно отличается от известных словарей. Отличие строится на составе терминов. Чаще всего в известных словарях термин формируется из одного слова в расчете на широкое использование термина. Конкретная область знаний использует эти термины только в составе других терминов (как часть). Поэтому словарь для Интеллсист должен создаваться автономно либо по записи знаний, либо знаниеведом. Второе существенное отличие состоит в том, что каждый термин не снабжен характеристиками, которые должен формировать специалист по меню системы.


Конечно, при создании терминологического словаря для Интеллсист определения терминов пригодятся в полном объеме или частично, поскольку определения нужны для пользователя в качестве справки. Всякий раз, когда возникает вопрос или противоречия в знаниях пользователь может нажать над термином кнопку F1 и прочитать на экране данное определение. Иногда термин не снабжается определением, так как сам термин (комбинация слов и знаков) самоопределяется по своему имени. Характеристики каждого термина также по меню можно прочитать и удостовериться в его правильности или глубже понять смысл термина.


Интеллсист позволяет отпечатать терминологический словарь при создании твердой копии либо вместе с характеристиками, либо без них. Автоматическое создание словарей в процессе их модификаций полезно для подготовки издания словарей, хотя словарь в Интеллсист может оказаться полезнее, так как доступ к термину более оперативен и имеется возможность сопоставления терминов или их характеристик.


4.4. Терминологический словарь


Поскольку термин является средством обозначения понятия с заданным изначально смыслом, важным для работы Интеллсист является терминологический словарь (лексикон). Сегодня имеется значительное число терминологических словарей для применения человеком в различных областях знания. Они все составлены по принципу соответствия слова или обобщенные словосочетания текстовому определения смысла термина. Все они могут использоваться для построения машинных словарей. По определению термина можно составить его характеристики так, чтобы с помощью инструментария Интеллсист можно было бы составить лексикон. Однако степень формализации понятия в его определении весьма мала. Поэтому применение существующих терминологических словарей предполагает значительную работу по формализации характеристик понятий.


Главным отличием терминологических словарей для человека и Интеллсист является различие в составе словарей. Хотя словари для человека ориентируются на язык специальности, тем не менее, они зачастую не содержат профессиональные термины. Например, редкими являются словари, содержащие термины «H2O» или «258-12-41». В лексиконе химика или телефониста такие или аналогичные термины появляются и используются. Итак, первое отличие у двух видов словарей состоит в различии наборов терминов.


Второе отличие состоит в том, что лексикон должен содержать полные характеристики понятия, в то время как словарь для человека содержит только описательные определения термина, которые также могут помещаться в лексикон. К характеристикам термина относятся ссылки, дата, значения, тип, вид, сорт и паспорт для структурных величин.


В приложении приведен терминологический словарь по информатике, который ориентирован на человека и используется в справочной подсистеме Интеллсист для пояснения терминов, помещенных в Индекс. По нему можно обнаружить различия словарей для человека и Интеллсист. В инструментарии Интеллсист имеются средства для печати формируемого в лексиконе терминологического словаря, который может составить черновой набросок словаря для человека. С этих позиций Интеллсист является накопителем словарей и для человека.


4.5. Представление знания


О представлении знаний говорилось достаточно. Тем не менее, еще несколько фраз могут прояснить формы внешнего и внутреннего представлений знаний. Правила внешнего представления формально описаны в грамматике ЯПП. Правила внутреннего представления косвенно содержатся в описании ФЯ Лейбниц. В связи с этим уделим большее внимание внутреннему представлению для того, чтобы точнее понять различия СУБД и СУБЗ.


Все утверждения (выражения или формулы), которые используются для записи знаний или запросов, в памяти Интеллсист представляются двоичным деревом. Каждое двоичное дерево состоит из веточек (вершина-операция и две ссылки на две другие веточки), которые хранятся в массиве. Связь веточек в деревья осуществляет информация о верхушках всех автономных деревьев, которые группируется в кортежи предрешений и решений задания. Это главная часть кода БЗ, содержащего сведения об утверждениях. Другая часть БЗ - лексикон - имеет свои форматы представлений. Кроме этого имеется 25 массивов информации о свойствах и значениях понятий словаря.


Термины лексикона также представляется двоичным деревом или графом «и-или». «и» соответствует операции соединения частей термина в единую конструкцию, а «или» - операции альтернативного или вариантного выбора частей термина. Элементарная конструкция, соответствующая вершине и двум ссылкам на другие вершины, является веточкой лексикона. Содержательная часть веточки включает номер слова, лексемы или знака (из термина) и ссылку на характеристику понятия.


Кроме этого к лексикону примыкают словарь из слов и набор таблиц с лексемами. Словарь из слов также представляется графом «и-или» с содержимым в веточке - номером слова. Представление в таблицах является общепринятым в программировании.


Знания в памяти Интеллсист представляются также исходными и закодированными текстами БЗ и запросов. Сюда относятся анкеты и шаблоны как заготовки запросов. Имеются еще файлы, в которых хранятся промежуточные представления БЗ в кодах, вырабатываемых программами сохранения и восстановления БЗ.


Заключительные замечания. Некоторые представления знаний или их частей подробно рассматриваются в томе 4. Так или иначе, все сведения хранятся в файлах, которые могут помещаться в библиотеку.


4.6. Представления программ и смысла алгоритмов


Источниками программ являются разработки программистов или самой Интеллсист после синтеза программ. Отторгаемые от разработчиков программы или подпрограммы образуют библиотеку. Программы обычно представляются в кодах или на языках программирования различных уровней и назначения. Исходными данными для построения программ являются либо технические задания (для программистов), либо результат работы Интеллсист - решение логического уравнения.


Почти каждая программа включает вызовы подпрограмм. Можно условно считать, что любой элемент программы (элементарная программная конструкция) является вызовом подпрограммы. Эту структуру программы можно легко распространить на любую запись ФЯ программирования. Не обязательно вызов подпрограммы имеет конструкцию из наименования подпрограммы и параметров, перечисленных в скобках. Оператор перехода перейти к M можно считать вызовом подпрограммы поиска метки M и на продолжение выбора команд по месту с этой меткой. Эта интерпретация операторов программы напоминает программируемый микропроцессор [Браун77, Брусницов79, Фридмен86].


Конечный смысл алгоритма выражается тем, что он выполнился или нет. Условимся считать, что подпрограмма (реализация алгоритма) имеет значение истина, если она выполнилась, и ложь в противном случае. До выполнения подпрограммы о значении ее ничего сказать нельзя. Алгоритм - это ветвящийся граф из подпрограмм, следовательно, смысл алгоритма зависит от значений многих условий ветвления и многих выполняемых вызовов подпрограмм.


Возникают вопросы следующего содержания. Откуда берутся цикла в СП? Они генерируются по кванторам «для» и «найти». Откуда берутся условные ветвления в СП? Они происходят и генерируются по всем итоговым фактам и альтернативам совместных фактов. Откуда берутся исходные данные для счета по СП? Они заготавливаются заранее самим пользователем в файле или в БД. СП последовательно выбирает их и вводит для счета. Вот краткие ответы на вопросы. Подробности для основного пользователя не нужны. Программист может почерпнуть дополнительные сведения из руководства по СП, которое автоматически формируется после синтеза программы.


Итак, программы представляются, в конечном счете, последовательностями вызовов подпрограмм, а смысл алгоритма определяется по результатам выполнения подпрограмм с учетом выполнения условий ветвления управления в программе или алгоритме.


4.7. О словарях баз знаний


Каждый термин состоит из последовательности слов и знаков. В связи с таким толкованием термина имеет смысл говорить о словарях знаков и слов, на которые ссылаются веточки БЗ, лексикон и некоторые таблицы.


Среди словарей имеются стандартные словари. Начальные или встроенные знания опираются на стандартные слова или знаки (вообще встроенные термины), для которых имеются стандартные словари и таблицы. Они используются при генерации Интеллсист. По большей части стандартные словари составляются вручную. После ввода их при инициализации программ Интеллсист работают подпрограммы, которые автоматически переводят ручные словари и таблицы в стандартное представление машинных словарей и таблиц.


Все словари при работе Интеллсист пополняются автоматически. Можно говорить о пополнении из БЗ, запроса, шаблона, ответов на вопросы системы и т.п. Важно отметить, что все словари обладают свойством интегральности. По мере ввода знаний появляются новые объекты для помещения их в словари. Интегральное свойство словарей влечет за собой работы по сохранению их промежуточных состояний, по восстановлению в требуемый момент времени, по «замусориванию» словарей «шумовыми словами» с необходимой чисткой и по контролю над расходом памяти ВМ.


Словари могут пополняться подразумеваемыми и скрытыми от пользователя терминами, которые формируются системой в процессе логического вывода или синтеза программы. Эти термины выражаются словом из букв и цифр, они едва ли представляют интерес для пользователя, поскольку имеют какие-то промежуточные или рабочие величины, смысл которых не важен. Конечно, можно, в конце концов, добраться до их значений и использовать для отладки знаний. Но процедура анализа скрытого термина так же сложна, как и анализ содержимого регистров процессора ВМ.


Поскольку вся совокупность словарей не представляет интереса в данный момент или «исторически», здесь не приводится их перечень. Однако можно сделать подборку словарей по всему тексту Информатики, так как они обязательно упоминаются в местах, где рассказывается о работе с ними. Основными словарями являются словари из слов и терминологические словари. Доступ к словарям реализуется в инструментарии через раздел «Сервис».


1   2   3   4   5   6   7   8   9   ...   44

Похожие:

Информатика в семи томах iconСобрание сочинений в семи томах 3 «Собрание сочинений в семи томах»: Время; 2008
Собрание сочинений М. М. Зощенко — самое полное издание прозы одного из крупнейших писателей-новаторов XX века. В него входят практически...
Информатика в семи томах iconИнформатика в семи томах
Излагаемые методы частично модифицированы по сравнению с их оригинальным изложением для их ориентирования и усиления при использовании...
Информатика в семи томах iconИнформатика в семи томах
Определяются логические лексемы, фундаментальные операции, правила преобразования логических уравнений, а также металогика для обоснования...
Информатика в семи томах iconВ семи томах том Информатика смысла Машинная лингвистика
Семантическая и распознающая грамматики связаны между собой как алгоритм и средства его реализации. Основой для контроля правильности...
Информатика в семи томах iconВ семи томах том Основы информатики (Введение в информатику)
Вм на основе своих общих и профессиональных знаний без привлечения программистов для решения задач, для разрешения вопросов или проблем...
Информатика в семи томах iconВ семи томах том Представление знаний (Структуры данных)
Приводимые примеры служат фрагментами прототипов записей знаний и запросов, предназначенных для создателей заданий и запросов к базе...
Информатика в семи томах iconРавительство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том V уфа гилем 2010
Российская академия наук Уфимский научный центр ■ Институт истории, языка и литературы
Информатика в семи томах iconЬство республики башкортостан академия наук республики башкортостан история башкирского народа в семи томах том VI москва восточная литература 2011
Российская академия наук Уфимский научный центр Институт истории, языка и литературы
Информатика в семи томах iconВ семи томах том Интеллектуальные системы (Системы решения проблем)
Интеллсист, их структуры и технологии работы с инструментарием составляют центральную часть тома. Оценка возможностей Интеллсист...
Информатика в семи томах iconСтихотворения М. И. Цветаевой печатаются в основном по двум изданиям
Стихотворений (главным образом ранних, относящихся к 10-м годам) печатается по изданию: М. Цветаева. Неизданное: Стихи. Театр. Проза....
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница