что такое sas в автомобиле
В чём понт SAS?
В чём смысл параллельного существования и развития отдельного стандарта SAS когда SATA развивается и черпает вдохновение из того же SCSI и почему SAS/SCSI-винчи имеют другие ёмкости (причём загадочной кратности) и, обычно, более высокие обороты (в то время как на ограничение пропускной способности при существовании SATA 3 это вроде как не свалить)? В каких случаях кроме брутального high-load, хостинга множества виртуалок и многопотокового видеовещания действительно имеет смысл ставить SAS и почему?
Извините если глупый вопрос. Заранее спасибо. Интересно.
Ох, сигейта нет на вас ;). Я видел отличную презентацию про отличия SAS и SATA у Игоря Макарова из Seagate. По стараюсь кратко и по существу.
Ответов несколько и с разных сторон.
1. С точки зрения протоколов, SAS — это протокол, направленный на максимальную гибкость, надежность, функциональность. Я бы сравнил SAS с технологией ECC для памяти. SAS — это с ECC, SATA — без. Примером могут служить следующие уникальные фичи (по сравнению с SATA).
— 2 полнодуплексных порта на устройствах SAS в отличие от одного полудуплексного у SATA. Это дает возможность строить отказоустойчивые много дисковые топологии в системах хранения данных.
— end-to-end data protection T.10. — набор алгоритмов SAS, позволяющий с помощью чексумм быть уверенным в том, что данные, подготовленные на запись без искажений записаны на устройство. И прочитаны и переданы на хост без ошибок. Эта уникальная функция позволяет избавиться от так называемых silent errors, то есть когда на диск пишутся ошибочные данные, но никто об этом не знает. Ошибки могут появиться на любом уровне. Чаще всего в буферах в оперативной памяти при приеме-передаче. Silent errors — бич SATA. Некоторые компании утверждают что на диске SATA объемом боле 500 ГБ вероятность повреждения данных хотя бы в одном секторе близка к единице.
— про мультипасинг говорили в предыдущих ответах.
— зонинг T.10 — позволяет разбить домен SAS на зоны (типа VLAN, если такая аналогия ближе).
— и многое-многое другое. Я привел только самые общеизвестные фичи. Кому интересно — читайте спецификации SAS/SATA
2. Не все SAS диски одинаковы. Есть несколько категорий SAS и SATA.
— т.н. Enterprise SAS — обычно 10K или 15K оборотов в минуту. Объемы до 1 ТБ. Используются для СУБД и критичных к скорости приложений.
— Nearline SAS — обычно 7.2K, объемы от 1 ТБ. Механика таких устройств похожа на Enterprise SATA. Но все равно два порта и другие прелести SAS. Используются в enterprise, где нужны большие объемы.
— Enterprise SATA, иногда RAID edition SATA — почти то же самое что и NL SAS, только однопортовый SATA. Чуть дешевле NL SAS. Объемы от 1 TB
— Desktop SATA — то что ставится в PC. Самые дешевые и самые низкокачественные диски.
Первые три категории можно ставить в массивы на контроллерах от LSI и Adaptec. Последний — нельзя категорически. Проблем не оберетесь потом. И не потому, что у нас картельный сговор, а потому, что диски проектируются под разные задачи. То есть 8×5 или 24×7, например. Есть также такое понятие как максимальная допустимая задержка, после которой контроллер считает диск умершим. Для десктопных дисков она в разы больше. Это значит, что под нагрузкой рабочие Desktop SATA будут «вываливаться» из массива.
Короче, ориентируйтесь на конкретные линейки под конкретные задачи. Лучше всего смотреть на сайтах производителей. Есть например специальные мало шумящие и мало греющиеся винты для домашней электроники.
Те же подходы и к SSD, но область еще на сформировавшаяся, поэтому много тонкостей. Здесь мы ориентируемся по параметрам. Хотя все, что сказано в п., справедливо и для SSD.
SAS против SATA: нужно ли персональной корове серверное седло?
Сегодня мы решили поговорить о жестких дисках с интерфейсом SAS, и не случайно. Новый виток интереса к SAS винчестерам возник примерно год назад с выходом материнских плат Asus на чипсете X58. Их отличительной особенностью являлся интегрированный SAS-контроллер, тогда как раньше для использования жестких дисков такого типа необходимо было покупать отдельный контроллер, который стоил не меньше, чем материнская плата. И потихоньку довольно дорогие SAS диски со скоростью вращения шпинделя 15000 оборотов в минуту стали перебираться в топовые «игровые» персоналки. Мы имели возможность оценить первые пробные конфигурации с RAID массивом из двух SAS Seagate Cheetah 15K.6 от крупных московских дистрибьюторов, и сразу возникли сомнения в целесообразности установки этих серверных «винтов» в десктопный компьютер, хоть и самый дорогой.
450 Gb SAS Seagate Cheetah 15K.6 Шум, вибрации и нагрев от SAS’ов были заметны сразу. В ходе тестов диски нагревались так, что трудно было держать руку. Но, возможно, эти минусы оправданы производительностью? Ведь в свое время SATA-диски со скоростью вращения шпинделя 10000 rpm прочно заняли место в топовых настольных системах. Что ж, попробуем ответить на этот вопрос на практике.
В сегодняшнем тесте мы протестируем жесткие диски 450 Gb SAS Seagate Cheetah 15K.6 ST3450856SS, как одиночный, так и в RAID0 и сравним их показатели с результатами аналогичного массива из SATA’шных Seagate Barracuda 7200.12. Это позволит нам выяснить, дают ли какое-то преимущество жесткие диски со скоростью вращения шпинделя 15000 оборотов/мин или нет.
На стороне Barracuda 7200.12 больший объем, вдвое большая угловая плотность записи данных, малое в сравнении с тестируемыми в этом материале SAS-дисками энергопотребление, а также вдвое больший объем буфера. Производители не спешат ставить на серверные жесткие диски большое количества кэш-памяти – объясняется это тем, что хранение большого количества информации в буферной памяти снижает надежность, ради которой и проектируются эти HDD.
Серверный Seagate Cheetah в свою очередь имеет неоспоримое преимущество в виде вдвое большей скорости вращения и значительно сниженным благодаря этому временам доступа на чтение и запись.
При тестировании одиночных дисков использовалась файловая система NTFS с размером кластера по умолчанию. Под раздел на диске выделялось все доступное пространство. Для жестких дисков, объединенных в RAID0, размер кластера был выбран равным 16КБ. Под RAID0 из двух Seagate Cheetah было выделено максимально возможное дисковое пространство, то есть RAID0 из двух дисков был создан на объеме, равном общему объему дисков. Размер массива из Seagate Barracuda был равен размеру одного диска. RAID0 из дисков с SAS-интерфейсом был собран на встроенном контроллере Marvell 88SE6320. SATA-диски тестировались подключенными к ICH10R.
Все тесты были проведены по три раза, на графиках изображены средние значения полученных данных
HAB
«IO Delay» характеризует время доступа к жесткому диску, показывает скорость реакции диска (время, за которое контроллер выдаёт запрос и обрабатывает его) и системы (задержка в канале передачи данных плюс задержка в драйвере плюс задержка из-за скорости самого процессора) и быстродействие интерфейса. Чем этот параметр меньше, тем лучше.
Тест закончился за явным преимуществом серверного диска, скорость его реакции практически в два раза выше, чем у конкурента по данной статье. Также стоит отметить, что время доступа к массиву из двух SAS-дисков уменьшается по сравнению с одиночным диском в отличие от аналогичного времени для SATA-дисков. Не возьмусь утверждать, что такое действительно возможно и не является ошибкой тестовой программы, но сама тенденция не может не радовать и вселяет надежду, что Seagate Cheetah сможет порадовать хорошей скоростью.
«Access» отвечает за среднее время доступа, показывает, как долго будет лететь головка по поверхности пластины, пока не найдёт нужные данные. Этот параметр очень сильно влияет на отклик системы – чем он меньше, тем лучше.
Надежды оправдываются – преимущество во времени доступа, которое на субъективное ощущение скорости жесткого диска влияет сильнее, чем скорость чтения, достигает 2,5 раз. Оба диска получают преимущество во времени доступа при объединении в RAID0, но надо учесть, что у Seagate Barracuda это связано с тем, что доступный объем дискового пространства массива равен лишь половине максимально возможного объема дисков.
«Linear read» показывает скорость чтения последовательно расположенных данных при разном размере блоков. Чем эта скорость выше, тем, естественно, лучше.
SAS-диск быстрее при любом размере блока данных. Его максимальная скорость превышает 160 МБ/с против 125 МБ/с у Seagate Barracuda, который тем не менее является по данному показателю одним из самых быстрых дисков со скоростью вращения 7200 об/мин. Также обращает на себя внимание преимущество в работе SAS-контроллера: если RAID0 из Barracuda проигрывает одиночному при работе с блоками данных, меньших чем размер кластера, то у массива из Cheetah такого не наблюдается – уверенное ускорение работы по сравнению с одиночным диском.
Everest, HD Tune, HD Tach.
Время доступа жестких дисков и массивов из них также было измерено в других популярных программах.
Everest
HD Tune
HD Tach
Нет ничего удивительного, что и в них диск со скоростью вращения 15000 об/мин вырывается далеко вперед – 6 мс против 15 мс. Интересно, что мнение различных программ на то, быстрее ли отклик у RAID0 массива из SAS-дисков, чем у одиночного диска, разделилось пополам. HD Tach в этом вопросе солидарен HAB и отмечает некоторый прирост, а результаты тестирования HD Tune и Everest, напротив, показывают ухудшение на 0.6-0.8 мс времени доступа к диску.
Также в данных трех программах были измерены линейные скорости чтения жестких дисков.
Everest
HD Tune
HD Tach
*На графике с результатами в программе HD Tach отсутствует значение Burst Speed для массива из SAS-дисков, так как программа стабильно выдавала числа, больше 3500MB/s, что явно не может соответствовать действительности.
Seagate Cheetah показывает просто отличные результаты для механического диска – даже в конце скорость линейного чтения не падает ниже 100 МБ/с, а в случае RAID0-массива – ниже 200 МБ/с. В случае одиночного диска средняя скорость чтения на 30-50% выше, чем у одного из самых быстрых представителей 7200 об/мин дисков. В случае объединения дисков в RAID0 ситуация на графиках для SAS-дисков не такая выигрышная. Особенностью работы данного SAS-контроллера является очень ровный график линейного чтения при работе жестких дисков в массиве RAID0 – различия между скоростями в начале и в конце диска совсем невелики по сравнению с соответствующим графиком для обычных жестких дисков. Отсюда и кажущийся парадоксальным проигрыш серверных дисков по линейным скоростям чтениям.
PCMark04
Далее сравним работу жестких дисков в пакетах PCMark. Из PCMark04 интересен лишь один тест – «File Copying», который уникален, то есть встречается только в этой версии PCMark. В этом тесте оценивается скорость копирования набора файлов внутри одного раздела жесткого диска.
PCMark04
Результаты данного теста (притом хорошо повторяемые в различных операционных системах) говорят о его непригодности для тестирования SAS-дисков. Просто не может диск с такой скоростью вращения и столь малым временем отклика так сильно проигрывать обычному жесткому диску, пусть даже и одному из самых быстрых. Ускорения работы данного теста при использовании RAID0 из серверных дисков также не наблюдалось.
PCMark05
В тестовый пакет 2005 года входят следующие подтесты: «Windows XP Startup», отображающий скорость накопителя во время загрузки операционной системы; «Application Loading», демонстрирующий производительность дисковой системы при последовательном открытии и закрытии шести популярных приложений; «General Usage», отображающий скорость жестких дисков при работе ряда часто встречающихся приложений; «File Write», оценивающий скорость создания файлов; «Virus Scan», в котором измеряется производительность жесткого диска во время проверки файлов в системе на вирусы.
PCMark05 — чтение
Полное фиаско Seagate Cheetah? Нет, скорее это провал теста от Futuremark. Как бы мне ни нравились графические бенчмарки этой компании, но для тестирования некоторых жестких дисков ее творения не подходят совершенно. Из 10 тестов SAS-диски одержали победу только в двух: загрузке операционной системы Windows XP и загрузке приложений в режиме массива RAID0. Итоговый результат пакета HDD Test Suite образца 2005 года представлен на следующей диаграмме:
PCMark05 — итоговый балл
PCMark Vantage
Самый новый тест общей производительности системы от компании Futuremark включает в себя целых 8 тестов производительности жесткого диска.
В подтесте «Windows Defender» жесткий диск работает под многопоточной нагрузкой, одним из потоков которой является сканирование файлов. В «Gaming» эмулируется поведение накопителя под нагрузкой, характерной для компьютерных игр. В подтесте «Windows Photo Gallery» оценивается работа накопителя при загрузке изображений из галереи фотографий. В «Windows Vista Startup» эмулируется поведение накопителя при загрузке операционной системы Windows Vista. В «Windows Movie Maker» оценивается производительность под нагрузкой, характерной для редактирования видеоматериалов. В подтесте «Windows Media Center» жесткий диск тестируется в режиме, характерном для работы в «Media Center». В «Windows Media Player» эмулируется добавление файлов в «Windows Media Player». В «Application Loading» демонстрируется скорость диска при загрузке нескольких популярных приложений.
PCMark Vantage — чтение
Судя по результатам, в работе теста PCMark за годы между версиями 2005 и Vantage поменялось немногое. SATA-диски и поодиночке, и в массиве смотрятся увереннее. Можно это, конечно, попытаться объяснить большим количеством кэш-памяти или более эффективной прошивкой у Seagate 7200.12, но такой перевес явно не отражает истинное соотношение между этими дисками. Одиночный Cheeatah выигрывает у Barracuda в игровом подтесте, загрузке операционной системы Windows Vista. RAID0-массив из серверных жестких дисков, в свою очередь, выигрывает при сканировании файлов антивирусом, при добавлении изображений в галерею фотографий и в загрузке ОС Vista.
PCMark Vantage — итоговый балл
И комментировать не хочется. По результатам PCMark Vantage RAID0 из двух 15000 об/мин жестких дисков работает на уровне одиночного Seagate Barracuda…
Iometer-2006.07.27
Iometer – это сложный полностью синтетический тест, способный имитировать работу жёсткого диска в различных режимах работы, например, в качестве файлового сервера или рабочей станции. Intel IOMeter предоставляет полную свободу выбора конфигурирования данного тестового приложения. В ходе тестирования IOMeter был настроен в соответствии с рекомендациями Intel и методикой, разработанной сайтом Storagereview.com.
Intel IOMeter работает с так называемыми «рабочими» (workers). Для однопроцессорных конфигураций Intel рекомендует создавать по одному такому worker’у. Каждый worker тестирует «цель» или «цели» (target), которые представляют собой либо неразделенный (unpartitioned) физический диск, либо один или несколько разделов (partition) на диске. Для каждого рабочего (workers) присваиваются так называемые правила работы, «модель доступа» (access pattern), которая представляет собой совокупность параметров, в соответствии с которыми выполняется доступ рабочего (workers) к его цели (target).
Настройки теста IOMetr
После прогона теста Iometer создает файл с большим количеством различных чисел: среднее число запросов, выполненных за секунду, среднее время выполнения операции, максимальное время выполнения операции, общее количество считанных и записанных байт, а также загрузку процессора в процентах. Для того чтобы не загромождать статью на диаграммах будут приведены по три числа для каждой конфигурации дисковой подсистемы, являющиеся рейтингами в моделях доступа File Server, Workstation и Database, соответственно. Рейтинг рассчитывается как среднее арифметическое от Total I/Os Per Second для всех значений числа одновременных запросов ввода/вывода в процентах от соответствующего результата жесткого диска 7200.11 ST31500341AS объемом 1500ГБ, сравнение с котором в тесте Iometer будет вестись и в последующих обзорах.
Iometer File Server
После удручающих результатов в PCMark предложим дискам сыграть на «домашнем» для серверного Seagate Cheetah поле, то есть как раз в области серсерных задач :).
Результаты сценария File Server
Напомню, что 100 соответствует скорость работы Seagate Barracuda предыдущего поколения 7200.11, новый 7200.12, как мы видим, немного быстрее его. Но эта прибавка в скорости меркнет по сравнению с ускорением, получаемым от работы SAS-диска. 130% разницы для одиночных дисков, двойное преимущество Cheetah над RAID0 из 7200об/мин дисков. Если же и этой скорости кому-то не хватает, то второй SAS позволяет увеличить ее еще на 40%. В-общем какой из этих дисков ставить в файловом сервер, такой проблемы попросту не существует – весь вопрос заключается в том, сколько штук брать.
Результаты сценария Workstation
По результатам ясно, что и в рабочей станции не стоит экономить на дисковой подсистеме. Очень впечатляюще смотрятся 15000 об/мин. диски. Разве что масштабируемость RAID0 в данном случае похуже – всего 20%, но это не так важно – обычные диски все равно далеко позади. Кстати, в данном паттерне Seagate 7200.12 по скорости оказался практически равен своему предшественнику, в других тестах обычно у него было преимущество побольше.
Результаты сценария Database
Базам данных также нравятся высокооборотистые жесткие диски – мы опять видим их преимущество в более чем два раза. И правда, любят SAS-диски высокие нагрузки, они проявили себя отлично во всех моделях доступа в тесте Iometer.
Вывод
Напрашивается вывод, что использование SAS-дисков в настольных системах неоправданно. Высокая цена, жесткие требования по охлаждению и неадекватные показатели многих популярных тестовых пакетов заставляют задуматься о том, что при всех минусах пользователь не получит заметных (за исключением отдельных специфических задач) преимуществ в производительности. Так что круче – не всегда лучше. А использование некоторыми производителями готовых систем SAS-дисков в своих конфигурациях больше напоминает маркетинговую уловку для привлечения состоятельных покупателей.
Хочу все знать. Язык SAS
История возникновения
Для начала в сотый раз обратимся к рейтингу ресурса TIOBE, дабы отыскать в нём нашего сегодняшнего героя. SAS располагается на “предлидирующем” 21 месте, что, согласитесь, для data-языка великолепный результат. Так что давайте познакомимся с ним поближе.
Естественно, для того, чтобы эффективно обрабатывать большие потоки информации потребовался не только качественный программный продукт, но и соответствующий язык. И им стал SAS. Изначально это был довольно примитивный набор шаблонных запросов для группировки данных, но со временем SAS стал полноценным и достаточно популярным языком программирования.
Разумеется, вскоре началась судебная тяжба, которая в итоге создала интересный прецедент для всего IT-сообщества: WPS выиграл суд, доказав, что авторское право не нарушается, если используется синтаксис и функциональность языка, но не используются исходные коды. Таким образом, язык SAS отчасти избежал участи MATLAB, сорвав ярлык “вещи в себе”.
Краткая справка
Впрочем, оставим дела компании и обратимся непосредственно к языку. Чтобы вы визуально представляли его внешний вид, вот небольшой отрывок кода, содержащий вывод на экран таблицу данных:
PROC PRINT DATA = models NOOBS;
WHERE Type = «Mountain»;
FORMAT Price DOLLAR6.;
TITLE «Current Models of Mountain Bicycles»;
RUN;
Основным конкурентом SAS является язык R, причём стоит признать, что последний имеет солидное преимущество. Во-первых, он был создан позднее, соответственно избежал многих проблем роста. Во-вторых, и это наверное главный фактор, он бесплатный, в то время как SAS требует дорогое программное обеспечение. Впрочем, давайте взглянем на преимущества и недостатки SAS в сравнении с главным конкурентом.
Простой синтаксис, быстрое обучение “с нуля”;
Отладка кода проходит значительно проще, чем на R;
Интеграция с БД (Oracle/Teradata);
Удобный формат выходных данных (особенно таблиц);
Мощная поддержка со стороны компании SAS;
Многолетний успешный опыт эксплуатации компаниями разной величины, с разными задачами и разным объёмом входных данных. В частности, России SAS используют ОАО “РЖД”, МТС, ЦБ РФ, а также ведущие банки, среди которых Сбербанк, Альфабанк, Тинькофф и многие другие.
Профессиональное использование языка предполагает покупку программного продукта;
Исходники многих исполняемых алгоритмов SAS не являются публичными, следовательно изучение работы языка сильно ограничено;
SAS значительно уступает в производительности R;
С точки зрения объёма кода SAS также зачастую сильно проигрывает (иногда в несколько раз).
При этом надо понимать, что далеко не во всех сферах SAS и R являются прямыми конкурентами. Взгляните на следующее изображение:
Из него отчётливо видно, что в Data Science SAS сильно проигрывает не только R, но и Python. Но вот в анализе данных, предполагающем дальнейшие прогнозы, SAS занимает лидирующую позицию.
Программный продукт
Для того, чтобы оценить степень размаха в прикладных программах, с которым придётся столкнуться желающему освоить SAS в полном объёме, можно посетить официальный раздел с перечислением пакетов заглавной IDE. Впрочем, здесь прослеживается аналогия с уже упомянутым продуктом MATLAB/Simulink, где также имеется большое количество надстроек, но по сути подавляющее большинство из них имеет строгую специализацию. Так что изначально стоит сфокусироваться лишь на 4 следующих:
Если вы вдруг сейчас подумали, что возможно стоит прикупить пару из них, то вот стоп-сигнал: SAS Enterprise Miner, к примеру, обходится крупным компаниям более чем в 100 тысяч долларов. Пакет Analytics будет значительно дешевле, около 8,5 тысяч, но разве от этого легче?
Обучение
Впрочем, это не означает, что постигнуть азы SAS невозможно. Компания активно продвигает свой продукт среди студентов, причём абсолютно бесплатно. Достаточно мощную пробную версию SAS University Edition можно скачать перейдя по ссылке.
Также на официальном сайте у вас есть возможность записаться на экспресс-курсы по изучению языка (причём на русском языке). Рекомендуемая длительность обучения в каждом разделе составляет 3 дня, требования и программу можно посмотреть прямо рядом с торжественной кнопкой записи.
В общем, было бы желание.
Работа
Откровенно говоря, получить работу конкретно SAS-специалисту в России будет очень сложно. Как правило, SAS идёт как жирный плюс. но не как основная специализация. Тем не менее, если вам удастся набраться практического опыта работы с SAS хотя бы в течение 2 лет, хотя бы базово освоить SQL, VB и прочие полезности, то вы сможете смело рассчитывать на зарплату не менее 80 тысяч рублей в месяц. Причём речь не только о столице, стоимость программного продукта SAS как бы подсказывает работодателю не экономить в поисках дешёвой рабочей силы. Но, как уже было сказано, нужную вакансию ещё придётся поискать.
Литература
Нет смысла перечислять лучшие иностранные книги по SAS, так как все они собраны в одном месте, прямо на официальном сайте компании. Особое внимание стоит уделить пошаговому самоучителю, описанию возможностей языка и IDE, а также справочнику новичка.
Что касается ресурсов на русском языке, то тут, разумеется, всё значительно сложнее, но кое-что всё же есть. Помимо официального сайта, лекции Дмитрия Звежинского помогут тем, кто пока не познал английский язык на хорошем уровне, на официальные курсы записывать не хочет, но SAS изучить отчаянно желает.
На этом краткое знакомство считаем оконченным. А вы сталкивались когда-нибудь с языком SAS? Какие впечатления?
Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.
История возникновения
Для начала в сотый раз обратимся к рейтингу ресурса TIOBE, дабы отыскать в нём нашего сегодняшнего героя. SAS располагается на “предлидирующем” 21 месте, что, согласитесь, для data-языка великолепный результат. Так что давайте познакомимся с ним поближе.
Естественно, для того, чтобы эффективно обрабатывать большие потоки информации потребовался не только качественный программный продукт, но и соответствующий язык. И им стал SAS. Изначально это был довольно примитивный набор шаблонных запросов для группировки данных, но со временем SAS стал полноценным и достаточно популярным языком программирования.
Разумеется, вскоре началась судебная тяжба, которая в итоге создала интересный прецедент для всего IT-сообщества: WPS выиграл суд, доказав, что авторское право не нарушается, если используется синтаксис и функциональность языка, но не используются исходные коды. Таким образом, язык SAS отчасти избежал участи MATLAB, сорвав ярлык “вещи в себе”.
Краткая справка
Впрочем, оставим дела компании и обратимся непосредственно к языку. Чтобы вы визуально представляли его внешний вид, вот небольшой отрывок кода, содержащий вывод на экран таблицу данных:
PROC PRINT DATA = models NOOBS;
WHERE Type = «Mountain»;
FORMAT Price DOLLAR6.;
TITLE «Current Models of Mountain Bicycles»;
RUN;
Основным конкурентом SAS является язык R, причём стоит признать, что последний имеет солидное преимущество. Во-первых, он был создан позднее, соответственно избежал многих проблем роста. Во-вторых, и это наверное главный фактор, он бесплатный, в то время как SAS требует дорогое программное обеспечение. Впрочем, давайте взглянем на преимущества и недостатки SAS в сравнении с главным конкурентом.
Простой синтаксис, быстрое обучение “с нуля”;
Отладка кода проходит значительно проще, чем на R;
Интеграция с БД (Oracle/Teradata);
Удобный формат выходных данных (особенно таблиц);
Мощная поддержка со стороны компании SAS;
Многолетний успешный опыт эксплуатации компаниями разной величины, с разными задачами и разным объёмом входных данных. В частности, России SAS используют ОАО “РЖД”, МТС, ЦБ РФ, а также ведущие банки, среди которых Сбербанк, Альфабанк, Тинькофф и многие другие.
Профессиональное использование языка предполагает покупку программного продукта;
Исходники многих исполняемых алгоритмов SAS не являются публичными, следовательно изучение работы языка сильно ограничено;
SAS значительно уступает в производительности R;
С точки зрения объёма кода SAS также зачастую сильно проигрывает (иногда в несколько раз).
При этом надо понимать, что далеко не во всех сферах SAS и R являются прямыми конкурентами. Взгляните на следующее изображение:
Из него отчётливо видно, что в Data Science SAS сильно проигрывает не только R, но и Python. Но вот в анализе данных, предполагающем дальнейшие прогнозы, SAS занимает лидирующую позицию.
Программный продукт
Для того, чтобы оценить степень размаха в прикладных программах, с которым придётся столкнуться желающему освоить SAS в полном объёме, можно посетить официальный раздел с перечислением пакетов заглавной IDE. Впрочем, здесь прослеживается аналогия с уже упомянутым продуктом MATLAB/Simulink, где также имеется большое количество надстроек, но по сути подавляющее большинство из них имеет строгую специализацию. Так что изначально стоит сфокусироваться лишь на 4 следующих:
Если вы вдруг сейчас подумали, что возможно стоит прикупить пару из них, то вот стоп-сигнал: SAS Enterprise Miner, к примеру, обходится крупным компаниям более чем в 100 тысяч долларов. Пакет Analytics будет значительно дешевле, около 8,5 тысяч, но разве от этого легче?
Обучение
Впрочем, это не означает, что постигнуть азы SAS невозможно. Компания активно продвигает свой продукт среди студентов, причём абсолютно бесплатно. Достаточно мощную пробную версию SAS University Edition можно скачать перейдя по ссылке.
Также на официальном сайте у вас есть возможность записаться на экспресс-курсы по изучению языка (причём на русском языке). Рекомендуемая длительность обучения в каждом разделе составляет 3 дня, требования и программу можно посмотреть прямо рядом с торжественной кнопкой записи.
В общем, было бы желание.
Работа
Откровенно говоря, получить работу конкретно SAS-специалисту в России будет очень сложно. Как правило, SAS идёт как жирный плюс. но не как основная специализация. Тем не менее, если вам удастся набраться практического опыта работы с SAS хотя бы в течение 2 лет, хотя бы базово освоить SQL, VB и прочие полезности, то вы сможете смело рассчитывать на зарплату не менее 80 тысяч рублей в месяц. Причём речь не только о столице, стоимость программного продукта SAS как бы подсказывает работодателю не экономить в поисках дешёвой рабочей силы. Но, как уже было сказано, нужную вакансию ещё придётся поискать.
Литература
Нет смысла перечислять лучшие иностранные книги по SAS, так как все они собраны в одном месте, прямо на официальном сайте компании. Особое внимание стоит уделить пошаговому самоучителю, описанию возможностей языка и IDE, а также справочнику новичка.
Что касается ресурсов на русском языке, то тут, разумеется, всё значительно сложнее, но кое-что всё же есть. Помимо официального сайта, лекции Дмитрия Звежинского помогут тем, кто пока не познал английский язык на хорошем уровне, на официальные курсы записывать не хочет, но SAS изучить отчаянно желает.
На этом краткое знакомство считаем оконченным. А вы сталкивались когда-нибудь с языком SAS? Какие впечатления?
Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.