Оглавление 4




Скачать 391.07 Kb.
НазваниеОглавление 4
страница9/9
Дата18.04.2013
Размер391.07 Kb.
ТипДокументы
1   2   3   4   5   6   7   8   9

Выводы по главе 3


Описанные в данной главе результаты вычислительных экспериментов показали, что при адаптации задачи аппроксимации климатических спектров к архитектуре графических акселераторов наиболее удачным является подход, реализующий распараллеливание по данным. При этом нельзя забывать, что подход, реализующий распараллеливание целевой функции в пределах блока потоков, также обладает сравнительно высокой (хотя и меньшей) производительностью, но при этом существенно меньшими требованиями по количеству входных данных.

На примере параллельной реализации алгоритма аппроксимации спектров с распараллеливанием по данным показано, что получаемая производительность существенно зависит от выбора конфигурации вычислительного ядра при его запуске. Способ выбора оптимальной конфигурации для данной задачи и задач с аналогичным способом распараллеливания на основе предложенной модели производительности также описан в данной главе.

Результаты вычислительных экспериментов над предложенной в главе 2 адаптацией алгоритма SIFT к архитектуре графических акселераторов показали, что данная реализация не учитывала ряд особенностей исследуемой архитектуры, из-за чего получаемая производительность оказалась достаточно низкой. В данной главе был предложен улучшенный вариант адаптации исследуемого алгоритма к архитектуре графических акселераторов, который позволяет ускорить поиск ключевых точек на изображении в 8-9 раз по сравнению реализацией на традиционной архитектуре.

Исходя из приведенных результатов исследования и опыта, накопленного в процессе адаптации различных задач к архитектуре графических акселераторов, можно предложить несколько рекомендаций в дополнение к общим рекомендациям из классической монографии Фостера [26], посвященной проектированию параллельных приложений:

  1. При разработке адаптации вычислительного алгоритма к архитектуре графических акселераторов вычислительное ядро следует проектировать таким образом, чтобы увеличение объема обрабатываемых данных приводило бы к пропорциональному увеличению конфигурации ядра. Во-первых, при таком подходе улучшается масштабируемость задачи: задачи с большим количеством данных будут тем же способом решаться на более мощных графических акселераторах. Во-вторых, такой подход упрощает выбор оптимальной конфигурации вычислительного ядра, такая конфигурация при помощи модели производительности предложенной выше. К сожалению, такой подход не всегда возможен – например, если стоит задача обработки массивов данных фиксированного размера. В таком случае при данном подходе оптимальная, согласно модели производительности, конфигурация ядра может быть попросту недостижима – не хватит входных данных.

  2. После разбиения задачи на подзадачи, каждая из которых решается в отдельном потоке, необходимо провести анализ доступа потоков к обрабатываемым данным – в большинстве случаев эти данные не помещаются в кэшируемые разделы памяти. В случае, когда потоки загружают большое количество данных из памяти, необходимо распределить эти данные между потоками так, чтобы потоки из одного блока осуществляли доступ соседним участкам памяти – в этом случае можно сильно улучшить производительность ядра использованием когерентных запросов к памяти и разделяемой памяти в качестве кэша.

  3. Следует следить за количеством ресурсов (разделяемой памяти и регистров), используемых ядром. Зачастую эффект от применения полезной на первый взгляд модификации вычислительного ядра (ликвидирующей расходящиеся ветви или некогерентные запросы к памяти) может нивелироваться за счет уменьшения загруженности акселератора вследствие увеличения требуемых ядром количества ресурсов.

Использование данных рекомендаций в некоторых случаях может помочь избежать заведомо неверных решений при адаптации вычислительных алгоритмов на GPU-архитектуру, а в некоторых – улучшить работу уже написанных вычислительных ядер.

Заключение


    В результате выполнения данной работы были предложены и реализованы три варианта адаптации алгоритма параметрической аппроксимации спектров климатического волнения методом случайного поиска и способы адаптации всех этапов алгоритма поиска ключевых точек SIFT к архитектуре графических акселераторов.

Результаты вычислительных экспериментов на задаче аппроксимации климатических спектрах морского волнения показывают, что адаптация алгоритма параметрической оптимизации к архитектуре GPU позволяет получить ускорение более 30 раз по сравнению с реализацией без использования GPU. Учитывая, что стоимость простейшей кластерной системы на основе стандартных комплектующих, обеспечивающих такое же ускорение, примерно в 30 раз превышает стоимость рассматриваемого GPU-устройства, это подтверждает целесообразность применения GPU-устройств при решении вычислительных задач подобного класса.

Результаты вычислительных экспериментов на задаче поиска ключевых точек алгоритмом SIFT показали, что адаптация этого алгоритма к GPU-архитектуре, учитывающая особенности данной архитектуры, позволяет получить ускорение в 8-9 раз по сравнению с реализацией без GPU, что позволяет обрабатывать изображения небольших разрешений в режиме реального времени.

Предложенная в разделе 3.3 модель производительности упрощает выбор оптимальной конфигурации ядра при использовании ядер, для которых при изменении конфигурации пропорционально изменяется количество входных данных.


ИСТОЧНИКИ





  1. Максфилд К. Проектирование на ПЛИС. Курс молодого бойца. – М.: Додэка XXI, 2007.

  2. Вальпа О.Д. Разработка устройств на основе цифровых сигнальных процессоров фирмы Analog Devices с использованием Visual DSP++. – М.: Горячая линия-Телеком, 2007.

  3. Hasle G., Lie K.-A., Quak E. Geometric Modelling, Numerical Simulation, and Optimization: Applied Mathematics at SINTEF – Springer, 2007.

  4. General-Purpose Computation Using Graphics Hardware: [http://gpgpu.org/]

  5. Purcell T.J., Donner C., Commarano M., Jensen H.W., Hanrahan P. Photon mapping on programmable graphic hardware // Proceeding of the ACM SIGGRAPH/EUROGRAPHICS Conference on Graphics Hardware – Eurographics Association, 2003. – pp. 41-50.

  6. Göddeke M., Strzodka R., Turek S. Accelerating Double Precision FEM Simulations with GPUs // Proceeding of ASIM 2005 – 18th Symposium on Simulation Technique, 2005. – pp. 139-144.

  7. Hagen T.R., Henriksen M.O., Hjelmervik J.M., Lie K.-A. Using the graphic processor as a high-performance computational engine for solving system of hyperbolic conservation low // Geometric Modelling, Numerical Simulation, and Optimization: Applied Mathematics at SINTEF – Springer, 2007, pp. 211-264.

  8. Hagen T.R., Hjelmervik J.M., Lie K.-A., Natvig J.R., Henriksen M.O. Visual simulation of shallow-water waves // Simulation Practice and Theory. Special Issue on Programmable Graphics Hardware, 13(9), 2005. – pp. 716-726.

  9. Hagen T.R., Lie K.-A., Natvig J.R. Solving the Euler equation on graphical processing units // Computational Science – ICCS 2006: 6th International Conference, Reading, UK, May 28-31, 2006, Proceedings, Part IV, volume 3994 of Lecture Notes in Computational Science (LNCS) – Springer Verlag, 2006. – pp. 220-227.

  10. OpenGL – The Industry Standard for High Performance Graphics: [http://www.opengl.org/]

  11. Microsoft’s DirectX site: [http://www.microsoft.com/directx]

  12. Fernando R., Kilgard M.J. The Cg Tutorial: The Definitive Guide to Programmable Real-Time Graphics – Adisson-Wesley Longman Publishing Co., 2003.

  13. GPUBench: How much does your GPU bench: [http://graphics.stanford.edu/projects/gpubench/]

  14. Rost R.J. OpenGL Shading Language – Adisson-Wesley Longman Publishing Co., 2004.

  15. NVIDIA CUDA Compute Unified Device Architecture Programming Guide. Ver 2.1. – NVIDIA Corporation, 2008.

  16. Адинец А.В., Сахарных Н.А. О программировании вычислений общего назначения на графических процессорах // Научный сервис в сети Интернет: многоядерный компьютерный мир. 15 лет РФФИ: Труды Всероссийской научной конференции (24-29 сентября 2007 г., г. Новороссийск) – М.: Издательство МГУ, 2007. – с. 249-256

  17. OpenCL – The open standard for parallel programming of heterogeneous systems: [http://www.khronos.org/opencl/]

  18. Растригин Л.А. Адаптация сложных систем – Рига: Зинатне, 1981. 375 с.

  19.  Lowe D. G. Object recognition from local scale-invariant features. // International Conference on Computer Vision, Corfu, Greece, 1999, pp. 1150-1157.

  20. Lowe D. G. Distinctive image features from scale-invariant keypoints. // International Journal of Computer Vision, 60, 2, 2004, pp. 91-110.

  21. Ковальчук С.В., Вишняков. С.М. Особенности адаптации параллельных алгоритмов к архитектуре графических акселераторов // Научно-технический вестник СПбГУ ИТМО. Выпуск 54. Технологии высокопроизводительных вычислений и компьютерного моделирования. –СПб.: СПбГУ ИТМО, 2008. – С. 92-99. (по перечню ВАК)

  22. Ковальчук С.В., Вишняков  С.М., Бухановский А.В. Особенности адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов // Параллельные вычислительные технологии (ПаВТ'2008): Труды международной научной конференции (Санкт-Петербург, 28 января - 1 февраля 2008 г.). – Челябинск: Изд-во ЮУрГУ, 2008. – С. 340-346.

  23.  Boukhanovsky A.V., Lopatoukhin L.J., Guedes Soares C. Spectral wave climate of the North Sea – Applied Ocean Research, 2007.

  24. Ковальчук С.В. Сравнительный анализ технологий параметризации нелинейной функции случайных аргументов в задаче статистического описания спектрального волнового климата // Материалы IV Всероссийской межвузовской конференции молодых ученых, 2007.

  25.  Bauer J., Sunderhauf N., Protzel P. Comparing Several Implementations of Two Recently Published Feature Detectors. // In Proc. of the International Conference on Intelligent and Autonomous Systems, IAV, Toulouse, France, 2007.

  26.  Foster I. Designing and Building Parallel Programs. – Addison-Wesley, 1995.

  27. Hess. R. A C implementation of a SIFT image feature detector: [http://web.engr.oregonstate.edu/~hess/index.html]

  28. OpenCV: [http://opencv.willowgarage.com/wiki/]

  29. Intel Integrated Performance Primitives: [http://software.intel.com/en-us/intel-ipp/]

  30. CUDA Visual Profiler: [http://www.nvidia.com/object/cuda_get.html]
1   2   3   4   5   6   7   8   9

Похожие:

Оглавление 4 iconЮжно-Уральский государственный университет
После того, как документ готов, здесь следует вставить оглавление (меню "Вставка", команда "Оглавление и указатели…").]
Оглавление 4 iconОглавление оглавление 1 введение 2 постановка задачи 3 анализ методов решения задачи 3
Всемирная тенденция к объединению компьютеров в сети обусловлена рядом важных причин, таких
Оглавление 4 iconОглавление оглавление 2 введение 3
Так, в западной экономической системе сфера услуг играет главенствующую роль, а в промышленности на первый план выходят наукоемкие...
Оглавление 4 iconПрограмма начального общего образования сош с. Перекопное 2011 г. Оглавление. Муниципальное общеобразовательное учреждение 1 Оглавление. 2 Раздел 1 Пояснительная записка. 6 Закон РФ «Об Образовании»
«средняя общеобразовательная школа с. Перекопное ершовского района саратовской области»
Оглавление 4 iconОглавление оглавление 1
В двадцать первом веке объемы учебного материала, высокие требования к современному ученику и учителю подталкивают педагога к поиску...
Оглавление 4 iconОбщие Требования, предъявляемые к учебной литературе Общие требования
Федеральному государственному образовательному стандарту. Оглавление учебника должно соответствовать всему перечню разделов учебной...
Оглавление 4 iconИсследовательская работа 2010 год. Оглавление Сотовый телефон в нашей жизни. 1 Оглавление 2 Глава 1 Теоретическая часть «Сотовый телефон в нашей жизни»
«Осторожно! Высокое напряжение», и находится там продолжительное время. В результате, организм человека работает уже не в тех оптимальных...
Оглавление 4 icon3 оглавление

Оглавление 4 iconРуководство по Mysql оглавление

Оглавление 4 icon2011 201 оглавление
Лекция 3
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib.znate.ru 2014
обратиться к администрации
Библиотека
Главная страница