САНКТ-ПЕТЕРБУРГСКИЙГОСУДАРСТВЕННЫЙУНИВЕРСИТЕТ СИСТЕМНОЕ ПРОГРАММИРОВАНИЕ Издается с 2005 года Том 7 Под редакцией А.Н.Терехова и Д.Ю.Булычева ББК 32.973-018.2 С40 Ред. коллегия:А.Н.Терехов, Д.Ю.Булычев, Д.В.Кознов,А.Н.Иванов Ответственный редактор Д.В.Кознов Печатаетсяпо постановлению Редакционно-издательского совета математико-механического факультета С.-Петербургского государственного университета Системное программирование. Том7 / под ред. С40 А.Н.Терехова,Д.Ю.Булычева.—СПб.:Изд-воС.-Петерб.ун- та, 2012.—218 с. Ежегодник представляет труды кафедры системного программиро- вания математико-механического факультета СПбГУ за 2012 год в об- ласти программной инженерии и информатики: визуального моделиро- вания,компиляторов, теорииагентов,телекоммуникационных иинфор- мационныхсистемидр. Ежегодникориентированнаспециалистов-практиков вобластипро- мышленного программирования, ученых, преподавателей, а также мо- жет быть полезен студентам вузов, специализирующихся в области ин- формационныхтехнологий ивычислительной техники. ББК 32.973-018.2 (cid:2)c Математико-механический факультет С.-Петербургского государственного университета, 2012 Предисловие Мы представляем Вашему вниманию седьмой том ежегодника «Си- стемное программирование». Ежегодник посвящён исследованиям в об- ласти программной инженерии, информационных систем и информа- тики. Первоначально он задумывался как способ публикации результа- товисследованийсотрудниковкафедрысистемногопрограммированияи НИИ информационных технологий математико-механического факуль- тетаСПбГУ.Кнастоящемувременивсборникепубликуютсятакжеста- тьи авторов из других вузов и из индустриальных компаний В частно- сти, в этом году мы запустили новую (и мы надеемся, что постоянно действующую) серию индустриальных статей—это работы А.Р.Фёдо- рова (Digital Design), С.О.Мамаевой (EMC) и частично Д.В.Луцива, Д.В.Кознова, В.С.Андреева (последний автор из компании Digital De- sign).Намкажется,чтоэтоважно,таккаксистемноепрограммирование немыслимобезиндустриальныхдостиженийинеможетпитатьсятолько университетскими разработками. Особо хочется отметить, что наше издание активно сотрудничает с молодымиавторами,предоставляявозможностидляпубликациирезуль- татов лучших дипломных работ, а также для первых публикаций аспи- рантов. Наша редакционная коллегия тратит много времени и сил на работу с молодыми авторами, обучая их навыкам написания научных статей. Наш ежегодник включён в российскую электронную библиотеку (РИНЦ). Все статьи рецензируются, в состав рецензентов входят как университетскиеучёные,такипредставителипромышленныхкомпаний. Сделаем краткийобзор данного выпуска. Первыетриработы открывают так называемую индустриальнуюсе- рию нашего ежегодника. Статья А.Р.Фёдорова «Способы кодирования информации для построения программных отказоустойчивых дисковых массивов» посвящена усовершенствованиям технологии RAID-6, пред- назначенной для организации отказоустойчивых систем хранения дан- ных.Встатье делается обзор RAID-технологий,подробноанализируют- ся существующие алгоритмы для RAID-6, описывается эксперимент по сравнениюбыстродействияреализацииRAID-6вкоммерческихсистемах Open-Eи«АВРОРА»,атакжеизлагаетсяидея«побитовогопараллелиз- ма», предложенная автором для ускорения существующих реализаций RAID-6. 4 Системное программирование. Том7. 2012 СтатьяС.О.Мамаевой«ПодходкподготовкеSSLVPN-системксер- тификации»обобщаетмноголетнийопытавторапотестированиюипод- готовке к сертификации SSL VPN-систем. Официальная сертификация такихсистемявляетсянеотъемлемойчастьюихжизненногоцикла.Сер- тификационныецентрыимеютмощныетестовыелаборатории,современ- ные методики и большое количество тестов, так что удовлетворить их требованиям можно лишь в том случае, если разработка с самого нача- ла ориентировалась на прохождение сертификации. Фактически, автор предлагаетметодразработкиSSLVPN-систем,ориентированныйнапро- хождение сертификации. Работа содержит большое количество инфор- мации по современным технологиям реализации VPN-систем, а также приёмам тестирования, сбора и систематизации информации о разраба- тываемой системе и т.д. СтатьяД.В.Луцива,Д.В.КозноваиВ.С.Андреева«Иерархический алгоритмdiffприработесосложнымидокументами»посвященаисполь- зованиюизвестногоалгоритмаdiffвофисныхзадачахработысдокумен- тами.Делаетсядетальныйобзор существующихисследованийвобласти слияния и сравнения (в том числе и «нечёткого») различных информа- ционных активов, а также рассматриваются задачи, возникающие при офиснойработесдокументами,гдеалгоритмсравненияможетбыть по- лезен. Формируются требования к такому алгоритму, выдвигается идея платформы для разработки сервисов, основанных на алгоритме сравне- ния. СтатьяД.Ю.Булычева«Компонентизацияязыковыхпроцессоровна основе расширяемых типов данных и управляемых ими преобразовате- лей»продолжаеттрадиционнуюдлянашегоизданиякомпиляторнуюте- му и посвящена компонентизации языковых процессоров на основе рас- ширяемых типов данных и преобразователей. Семантика таких преоб- разователей полностью определяется типом преобразуемых данных, и поэтому они могут быть сгенерированы автоматически. В качестве об- ластидляпримененияэтойтехникирассматриваются языковыепроцес- соры. Использование данного подхода позволяет «собирать» языковые процессорыизготовых компонент, предварительнооткомпилированных и статически типизированных. Статья Т.А.Гавриловой, И.А.Лещевой, Д.В.Кудрявцева «Исполь- зованиемоделейинженериизнанийдляподготовкиспециалистоввобла- стиинформационныхтехнологий»описываетопытавторовпоиспользо- ваниюкартпамяти(mindmaps)иконцептуальныхкарт(conceptmaps)в преподавании программирования. Обосновывается полезность этих ин- струментов, описываются элементы курсов, которые проводили авторы с использование этих средств, приводятсятиповые ошибки студентов. Предисловие 5 Следующие статьи представляют одно исследование, разбитое на две части. Статья А.В.Самочадина, Д.В.Кознова, А.В.Морозова, Э.Ф.Аллахвердиева, Е.Р.Шакировой, Э.А.Хамаевой, К.Ю.Романов- ского«Методвыявленияиранжированиявостребованностиинформации среднемотивированными пользователями Интернета» предлагает метод исследования запросов Интернет-аудитории, которая, во-первых, не яв- ляется сильномотивированной (например,Web-система и ограниченный круг её пользователей), во-вторых, не является и слабо мотивирован- ной(например,областьИнтернет-продаж,гдепользователязавлекают). В статье представлена апробация предложенного подхода на примере запросов российских туристов, путешествующих в Финляндию. Вторая статья А.В.Морозова, Д.В.Кознова, А.В.Самочадина, T.А.Лебедко- вой «Статистическое исследование проблем российских туристов при путешествиях в Финляндию»основывается на результатах предыдущей статьииописываетстатистическоеисследованиепроблемизапросоврос- сийскихтуристов в Финляндию. Наконец, две завершающих данный выпуск статьи посвящены ещё одной традиционной теме нашего издания—визуальному моделирова- нию в разработке ПО. Статья Ю.В.Литвинова «Применение DSM- платформы QReal при разработке среды программирования роботов QReal:Robots» рассказывает о визуальной среде программирования ро- ботов. Статья В.А.Полякова и Т.А.Брыксина«Подходык заданию се- мантикиинтерпретациидиаграммврамкахDSM-подхода»являетсяоб- зорной и посвященарассмотрению подходовк интерпретациии отладке визуальных моделей. Все тексты статей этого выпуска традиционно выложены в Интер- нетепоадресу:http://www.sysprog.info. Тамжеразмещенытребования, предъявляемыекстатьям,поступающимдляпубликации,иобъявления о наборе материалов для следующихвыпусков. Хочетсявыразитьблагодарностьзафинансовуюподдержкуданного выпуска ЗАО«Ланит-Терком»и личнопроф. АндреюТерехову. Д.Кознов Способы кодирования информации для построения программных отказоустойчивых дисковых массивов А.Р.Федоров [email protected] Digital Design, Санкт-Петербург В данной статье приводится обзор семейства технологий RAID и обсуждаются детали реализации RAID-6 алгорит- мовдляплатформыIntel64.Производитсясравнениесистем с открытым кодом, используемых для построения дисковых массивов. Предлагается новый способ реализации алгорит- мов RAID-6, позволяющий увеличить скорость вычислений по сравнению с существующими промышленными система- ми. Приведены фрагменты программного кода, разработан- ного в соответствии с этим способом, представлены резуль- таты измеренийбыстродействия алгоритмов. Ключевые слова: cистемы хранения данных, дисковые массивы, RAID,параллельные вычисления,SSE,AVX. Введение Многие современные промышленные программно-аппаратные си- стемы, такие как системы управления ресурсами предприятия, си- стемы оперативного анализа данных, системы управления цифро- вым контентом и др., требуют активного обмена данными между компьютерами и внешними накопителями данных. Однако извест- но,чтобыстродействиетакихнакопителей(жёсткихдисков)значи- тельно ниже, чем быстродействие оперативной памяти компьюте- ра,апроизводительностьвсейсистемы,какправило,определяется (cid:2)c А.Р.Федоров, 2012 А.Р.Федоров 7 быстродействиемсамогомедленногоеёзвена.Всвязисэтимвозни- кает задача увеличения скорости доступа к данным, хранимым на внешних устройствах. Поэтому на практике широкое распростра- нение получили подсистемы хранения данных (СХД), объединя- ющие несколько независимых дисков в единое логическое устрой- ство.ДляповышенияпроизводительностивсоставСХДвключают- сянесколькодисковыхнакопителейсвозможностьюпараллельного чтенияизаписиинформации.Внастоящеевремяактивноразвива- етсясемействотехнологийподобщимназваниемRAID(Redundant Array of Independent/Inexpencive Disks—избыточный массив неза- висимых или недорогих жёстких дисков) [1]. Эти технологии решают не только задачу повышения произво- дительностиСХД,ноисопутствующуюейзадачу—повышениена- дёжностихраненияданных:ведьотдельныедискимогутвыходить из строя при работе системы. Последняя задача решается введе- ниеминформационнойизбыточности—используютсядополнитель- ныедиски,накоторыезаписываютсяспециальнымобразомвычис- ленные контрольные суммы, позволяющие восстановитьинформа- цию в случае выходаиз строя одногоили нескольких дисковСХД. Введениеизбыточныхдисковпозволяетрешитьпроблемунадёжно- сти, но влечёт за собой необходимостьвыполнять дополнительные действия,связанныесвычислениемконтрольныхсуммприкаждом чтении/записи данных с дисков. Производительность этих вычис- лений, в свою очередь, оказывает существенное влияние на про- изводительность СХД в целом. Поэтому задача увеличения про- изводительностиRAID-вычисленийявляетсяактуальной,приэтом наиболеевостребованнойнапрактикеявляетсятехнологияRAID-6, позволяющая восстанавливатьдва вышедших из строя диска1. В этой статье приводится обзор семейства технологий RAID и обсуждаютсядеталиреализацииRAID-6алгоритмовнаплатформе Intel 64. Несмотря на то, что данная информация опубликована в открытыхисточниках[2,3],здесьонапредставленавкомпактноми 1На практике редко происходит одновременный выход из строя двух дис- ковиболее,новведениедополнительныхизбыточныхдисковможетоказаться полезнымдлярешенияпроблемычастичногоискаженияинформациинарабо- тоспособных дисках(SilentDataCorruption). Приэтомдополнительные диски ихранимыенанихконтрольныесуммыпозволяютобнаружитьместоискаже- нияиисправить его.Подробнееобэтомсм.[5]. 8 Системное программирование. Том 7. 2012 целостном виде, удобном как для целей настоящего исследования, так и для людей, которые хотят больше узнать о данном вопросе, но не имеют возможности внимательно читать первоисточники. В работе также представлен результат сравнения СХД с открытым кодом «АВРОРА», в разработке которой принимал участие автор, и системы Open-E, которая является наиболее распространённой на рынке коммерческой СХД аналогичного класса. Эта информа- ция представляет интерес в силу того, что сравнение алгоритмов, реализующих технологию RAID-6, затруднено вследствие закры- тости компаниями-производителями технических деталей. Кроме того, данные сравнения СХД «АВРОРА» и Open-E используются для обоснования эффективностиосновного результатаданной ста- тьи—нового способа организации параллельных вычислений при реализации технологии RAID-6. Этот способ основываетсяна идее «побитового параллелизма», позволяющего увеличить размер об- ласти данных, обрабатываемой параллельно при вычислении кон- трольных сумм. 1. Обзор 1.1. Семейство технологий RAID Вычислительные алгоритмы, которые используются при построе- нии RAID-массивов, появлялись постепенно и впервые были клас- сифицированы в 1993 году в работе [1]. В соответствии с этой классификацией массивом RAID-0 именуется массив независимых дисков, в котором не предпринимаются меры по защите информа- ции отутраты.Преимуществотакихмассивовпо сравнениюс оди- ночным диском состоит в возможности существенного увеличения ёмкости и производительностиза счёт организации параллельного обменаданными.ТехнологияRAID-1 подразумеваетдублирование каждогодискасистемы.Такимобразом,массивRAID-1имеетудво- енноеколичестводисковпосравнениюсRAID-0,новыходизстроя одного диска системы не влечёт за собой утрату данных, посколь- ку в массиве для каждого диска имеется его копия. Технологии RAID-2 иRAID-3не получилираспространенияна практике,имы опустим их описание. Технология RAID-4 подразумевает использование одного до- полнительного диска (стндрома), на который записывается сумма А.Р.Федоров 9 остальных дисков данных СХД: N(cid:2)−1 P = Di, (1) i=0 где N – это количество дисков с данными, а Di—содержимое i-го диска. Эта контрольная сумма обновляется при выполнении каж- дой записи данных на диски СХД2. Отметим, что при этом нет необходимости вычислять (1) заново, а достаточно прибавить к синдрому разность старого и нового значений изменяемого диска. В случае выхода из строя одного из дисков уравнение (1) может бытьрешеноотносительнопоявившегосянеизвестного,т.е.данные с утраченного диска будут восстановлены. Очевидно, что операции чтения и записи синдрома происходят чаще, чем любого другого диска данных. Этот диск становитсяса- мым загруженным элементом массива, т.е. слабым звеном с точ- ки зрения производительности (и, кстати, быстрее изнашивается). ДлярешенияэтойпроблемыбылипредложенатехнологияRAID-5, вкоторойдля хранениясиндромовиспользуютсячастиразличных дисковсистемы (рис.1)и,темсамым,загрузкадисковоперациями чтения и записи выравнивается. Рис.1. Отличиетехнологий RAID-4и RAID-5 Отметим, что технологии RAID-1—RAID-5 позволяют восста- навливатьданные в случае выхода из строя одного из дисков, но в случаеутратыдвухдисковэтитехнологииоказываютсябессильны. Конечно,вероятностьодновременноговыходаизстроядвухдисков 2Разумеется,привыполнениизаписиданныхнакакой-либодискСХДдиск P обновляется не целиком, а лишь частично, но об этом будет подробно рас- сказанодалее. 10 Системное программирование. Том 7. 2012 значительно ниже, чем одного. Но на практике, во-первых, заме- на отказавшегодиска требует времени, в течение которого данные остаются«беззащитными».Этот интервалможет оказатьсянепри- емлемо долгим в случае односменной работы системных админи- страторовили в случае расположения системы в труднодоступном месте. Во-вторых, при механической замене диска нельзя исклю- чить возможность человеческой ошибки, т.е. ошибочной замены исправного диска вместо неисправного—и мы снова имеем задачу по восстановлению двух дисков. Для решения этих проблем была предложена технология RAID-6, ориентированная на восстановле- ние двух дисков. Рассмотрим эту технологию более подробно. 1.2. Технология RAID-6 Алгоритмы вычислений, используемые при построении СХД по спецификации RAID-6, приведены в [2]. Здесь мы изложим их в форме, удобной для использования в рамках настоящего исследо- вания. С целью увеличения производительности системы данные, по- ступающиедлязаписи,обычнонакапливаютсявовнутреннемкэше системыхраненияданныхизаписываютсянадискивсоответствии с внутренней стратегиейкэширования, которая существенно влия- ет на производительностьсистемы в целом.Приэтомоперацииза- писи выполняются большими массивами, которые будем называть страйпами (Stripe).Аналогичнозаписи,призапросеначтениефи- зическисдисковпроизводитсячтениенетолькозапрошенныхдан- ных, но и всего страйпа (или нескольких страйпов), в котором эти данныерасположены.Вдальнейшемстрайпостаетсявкэшесисте- мывожиданииотносящихсякнемузапросовначтение.Дляповы- шения производительности СХД страйп записывается и читается параллельно со всех дисков системы. Для этого он разбивается на блокиодинаковогоразмера,которыебудем обозначатьD0,...Dn−1. Количество блоков N равно количеству дисков данных в массиве. Для обеспечения отказоустойчивости в дисковый массив вводятся два дополнительных диска, которые будем обозначать P и Q. И в страйп включим блоки, соответствующие массивам D0,...Dn−1, а также дискам P и Q (рис.2). Два последних блока являются син- дромами. В случае выхода из строя одного или двух дисков СХД