ebook img

Системное программирование. Том 07 PDF

218 Pages·4.289 MB·Russian
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Системное программирование. Том 07

САНКТ-ПЕТЕРБУРГСКИЙГОСУДАРСТВЕННЫЙУНИВЕРСИТЕТ СИСТЕМНОЕ ПРОГРАММИРОВАНИЕ Издается с 2005 года Том 7 Под редакцией А.Н.Терехова и Д.Ю.Булычева ББК 32.973-018.2 С40 Ред. коллегия:А.Н.Терехов, Д.Ю.Булычев, Д.В.Кознов,А.Н.Иванов Ответственный редактор Д.В.Кознов Печатаетсяпо постановлению Редакционно-издательского совета математико-механического факультета С.-Петербургского государственного университета Системное программирование. Том7 / под ред. С40 А.Н.Терехова,Д.Ю.Булычева.—СПб.:Изд-воС.-Петерб.ун- та, 2012.—218 с. Ежегодник представляет труды кафедры системного программиро- вания математико-механического факультета СПбГУ за 2012 год в об- ласти программной инженерии и информатики: визуального моделиро- вания,компиляторов, теорииагентов,телекоммуникационных иинфор- мационныхсистемидр. Ежегодникориентированнаспециалистов-практиков вобластипро- мышленного программирования, ученых, преподавателей, а также мо- жет быть полезен студентам вузов, специализирующихся в области ин- формационныхтехнологий ивычислительной техники. ББК 32.973-018.2 (cid:2)c Математико-механический факультет С.-Петербургского государственного университета, 2012 Предисловие Мы представляем Вашему вниманию седьмой том ежегодника «Си- стемное программирование». Ежегодник посвящён исследованиям в об- ласти программной инженерии, информационных систем и информа- тики. Первоначально он задумывался как способ публикации результа- товисследованийсотрудниковкафедрысистемногопрограммированияи НИИ информационных технологий математико-механического факуль- тетаСПбГУ.Кнастоящемувременивсборникепубликуютсятакжеста- тьи авторов из других вузов и из индустриальных компаний В частно- сти, в этом году мы запустили новую (и мы надеемся, что постоянно действующую) серию индустриальных статей—это работы А.Р.Фёдо- рова (Digital Design), С.О.Мамаевой (EMC) и частично Д.В.Луцива, Д.В.Кознова, В.С.Андреева (последний автор из компании Digital De- sign).Намкажется,чтоэтоважно,таккаксистемноепрограммирование немыслимобезиндустриальныхдостиженийинеможетпитатьсятолько университетскими разработками. Особо хочется отметить, что наше издание активно сотрудничает с молодымиавторами,предоставляявозможностидляпубликациирезуль- татов лучших дипломных работ, а также для первых публикаций аспи- рантов. Наша редакционная коллегия тратит много времени и сил на работу с молодыми авторами, обучая их навыкам написания научных статей. Наш ежегодник включён в российскую электронную библиотеку (РИНЦ). Все статьи рецензируются, в состав рецензентов входят как университетскиеучёные,такипредставителипромышленныхкомпаний. Сделаем краткийобзор данного выпуска. Первыетриработы открывают так называемую индустриальнуюсе- рию нашего ежегодника. Статья А.Р.Фёдорова «Способы кодирования информации для построения программных отказоустойчивых дисковых массивов» посвящена усовершенствованиям технологии RAID-6, пред- назначенной для организации отказоустойчивых систем хранения дан- ных.Встатье делается обзор RAID-технологий,подробноанализируют- ся существующие алгоритмы для RAID-6, описывается эксперимент по сравнениюбыстродействияреализацииRAID-6вкоммерческихсистемах Open-Eи«АВРОРА»,атакжеизлагаетсяидея«побитовогопараллелиз- ма», предложенная автором для ускорения существующих реализаций RAID-6. 4 Системное программирование. Том7. 2012 СтатьяС.О.Мамаевой«ПодходкподготовкеSSLVPN-системксер- тификации»обобщаетмноголетнийопытавторапотестированиюипод- готовке к сертификации SSL VPN-систем. Официальная сертификация такихсистемявляетсянеотъемлемойчастьюихжизненногоцикла.Сер- тификационныецентрыимеютмощныетестовыелаборатории,современ- ные методики и большое количество тестов, так что удовлетворить их требованиям можно лишь в том случае, если разработка с самого нача- ла ориентировалась на прохождение сертификации. Фактически, автор предлагаетметодразработкиSSLVPN-систем,ориентированныйнапро- хождение сертификации. Работа содержит большое количество инфор- мации по современным технологиям реализации VPN-систем, а также приёмам тестирования, сбора и систематизации информации о разраба- тываемой системе и т.д. СтатьяД.В.Луцива,Д.В.КозноваиВ.С.Андреева«Иерархический алгоритмdiffприработесосложнымидокументами»посвященаисполь- зованиюизвестногоалгоритмаdiffвофисныхзадачахработысдокумен- тами.Делаетсядетальныйобзор существующихисследованийвобласти слияния и сравнения (в том числе и «нечёткого») различных информа- ционных активов, а также рассматриваются задачи, возникающие при офиснойработесдокументами,гдеалгоритмсравненияможетбыть по- лезен. Формируются требования к такому алгоритму, выдвигается идея платформы для разработки сервисов, основанных на алгоритме сравне- ния. СтатьяД.Ю.Булычева«Компонентизацияязыковыхпроцессоровна основе расширяемых типов данных и управляемых ими преобразовате- лей»продолжаеттрадиционнуюдлянашегоизданиякомпиляторнуюте- му и посвящена компонентизации языковых процессоров на основе рас- ширяемых типов данных и преобразователей. Семантика таких преоб- разователей полностью определяется типом преобразуемых данных, и поэтому они могут быть сгенерированы автоматически. В качестве об- ластидляпримененияэтойтехникирассматриваются языковыепроцес- соры. Использование данного подхода позволяет «собирать» языковые процессорыизготовых компонент, предварительнооткомпилированных и статически типизированных. Статья Т.А.Гавриловой, И.А.Лещевой, Д.В.Кудрявцева «Исполь- зованиемоделейинженериизнанийдляподготовкиспециалистоввобла- стиинформационныхтехнологий»описываетопытавторовпоиспользо- ваниюкартпамяти(mindmaps)иконцептуальныхкарт(conceptmaps)в преподавании программирования. Обосновывается полезность этих ин- струментов, описываются элементы курсов, которые проводили авторы с использование этих средств, приводятсятиповые ошибки студентов. Предисловие 5 Следующие статьи представляют одно исследование, разбитое на две части. Статья А.В.Самочадина, Д.В.Кознова, А.В.Морозова, Э.Ф.Аллахвердиева, Е.Р.Шакировой, Э.А.Хамаевой, К.Ю.Романов- ского«Методвыявленияиранжированиявостребованностиинформации среднемотивированными пользователями Интернета» предлагает метод исследования запросов Интернет-аудитории, которая, во-первых, не яв- ляется сильномотивированной (например,Web-система и ограниченный круг её пользователей), во-вторых, не является и слабо мотивирован- ной(например,областьИнтернет-продаж,гдепользователязавлекают). В статье представлена апробация предложенного подхода на примере запросов российских туристов, путешествующих в Финляндию. Вторая статья А.В.Морозова, Д.В.Кознова, А.В.Самочадина, T.А.Лебедко- вой «Статистическое исследование проблем российских туристов при путешествиях в Финляндию»основывается на результатах предыдущей статьииописываетстатистическоеисследованиепроблемизапросоврос- сийскихтуристов в Финляндию. Наконец, две завершающих данный выпуск статьи посвящены ещё одной традиционной теме нашего издания—визуальному моделирова- нию в разработке ПО. Статья Ю.В.Литвинова «Применение DSM- платформы QReal при разработке среды программирования роботов QReal:Robots» рассказывает о визуальной среде программирования ро- ботов. Статья В.А.Полякова и Т.А.Брыксина«Подходык заданию се- мантикиинтерпретациидиаграммврамкахDSM-подхода»являетсяоб- зорной и посвященарассмотрению подходовк интерпретациии отладке визуальных моделей. Все тексты статей этого выпуска традиционно выложены в Интер- нетепоадресу:http://www.sysprog.info. Тамжеразмещенытребования, предъявляемыекстатьям,поступающимдляпубликации,иобъявления о наборе материалов для следующихвыпусков. Хочетсявыразитьблагодарностьзафинансовуюподдержкуданного выпуска ЗАО«Ланит-Терком»и личнопроф. АндреюТерехову. Д.Кознов Способы кодирования информации для построения программных отказоустойчивых дисковых массивов А.Р.Федоров [email protected] Digital Design, Санкт-Петербург В данной статье приводится обзор семейства технологий RAID и обсуждаются детали реализации RAID-6 алгорит- мовдляплатформыIntel64.Производитсясравнениесистем с открытым кодом, используемых для построения дисковых массивов. Предлагается новый способ реализации алгорит- мов RAID-6, позволяющий увеличить скорость вычислений по сравнению с существующими промышленными система- ми. Приведены фрагменты программного кода, разработан- ного в соответствии с этим способом, представлены резуль- таты измеренийбыстродействия алгоритмов. Ключевые слова: cистемы хранения данных, дисковые массивы, RAID,параллельные вычисления,SSE,AVX. Введение Многие современные промышленные программно-аппаратные си- стемы, такие как системы управления ресурсами предприятия, си- стемы оперативного анализа данных, системы управления цифро- вым контентом и др., требуют активного обмена данными между компьютерами и внешними накопителями данных. Однако извест- но,чтобыстродействиетакихнакопителей(жёсткихдисков)значи- тельно ниже, чем быстродействие оперативной памяти компьюте- ра,апроизводительностьвсейсистемы,какправило,определяется (cid:2)c А.Р.Федоров, 2012 А.Р.Федоров 7 быстродействиемсамогомедленногоеёзвена.Всвязисэтимвозни- кает задача увеличения скорости доступа к данным, хранимым на внешних устройствах. Поэтому на практике широкое распростра- нение получили подсистемы хранения данных (СХД), объединя- ющие несколько независимых дисков в единое логическое устрой- ство.ДляповышенияпроизводительностивсоставСХДвключают- сянесколькодисковыхнакопителейсвозможностьюпараллельного чтенияизаписиинформации.Внастоящеевремяактивноразвива- етсясемействотехнологийподобщимназваниемRAID(Redundant Array of Independent/Inexpencive Disks—избыточный массив неза- висимых или недорогих жёстких дисков) [1]. Эти технологии решают не только задачу повышения произво- дительностиСХД,ноисопутствующуюейзадачу—повышениена- дёжностихраненияданных:ведьотдельныедискимогутвыходить из строя при работе системы. Последняя задача решается введе- ниеминформационнойизбыточности—используютсядополнитель- ныедиски,накоторыезаписываютсяспециальнымобразомвычис- ленные контрольные суммы, позволяющие восстановитьинформа- цию в случае выходаиз строя одногоили нескольких дисковСХД. Введениеизбыточныхдисковпозволяетрешитьпроблемунадёжно- сти, но влечёт за собой необходимостьвыполнять дополнительные действия,связанныесвычислениемконтрольныхсуммприкаждом чтении/записи данных с дисков. Производительность этих вычис- лений, в свою очередь, оказывает существенное влияние на про- изводительность СХД в целом. Поэтому задача увеличения про- изводительностиRAID-вычисленийявляетсяактуальной,приэтом наиболеевостребованнойнапрактикеявляетсятехнологияRAID-6, позволяющая восстанавливатьдва вышедших из строя диска1. В этой статье приводится обзор семейства технологий RAID и обсуждаютсядеталиреализацииRAID-6алгоритмовнаплатформе Intel 64. Несмотря на то, что данная информация опубликована в открытыхисточниках[2,3],здесьонапредставленавкомпактноми 1На практике редко происходит одновременный выход из строя двух дис- ковиболее,новведениедополнительныхизбыточныхдисковможетоказаться полезнымдлярешенияпроблемычастичногоискаженияинформациинарабо- тоспособных дисках(SilentDataCorruption). Приэтомдополнительные диски ихранимыенанихконтрольныесуммыпозволяютобнаружитьместоискаже- нияиисправить его.Подробнееобэтомсм.[5]. 8 Системное программирование. Том 7. 2012 целостном виде, удобном как для целей настоящего исследования, так и для людей, которые хотят больше узнать о данном вопросе, но не имеют возможности внимательно читать первоисточники. В работе также представлен результат сравнения СХД с открытым кодом «АВРОРА», в разработке которой принимал участие автор, и системы Open-E, которая является наиболее распространённой на рынке коммерческой СХД аналогичного класса. Эта информа- ция представляет интерес в силу того, что сравнение алгоритмов, реализующих технологию RAID-6, затруднено вследствие закры- тости компаниями-производителями технических деталей. Кроме того, данные сравнения СХД «АВРОРА» и Open-E используются для обоснования эффективностиосновного результатаданной ста- тьи—нового способа организации параллельных вычислений при реализации технологии RAID-6. Этот способ основываетсяна идее «побитового параллелизма», позволяющего увеличить размер об- ласти данных, обрабатываемой параллельно при вычислении кон- трольных сумм. 1. Обзор 1.1. Семейство технологий RAID Вычислительные алгоритмы, которые используются при построе- нии RAID-массивов, появлялись постепенно и впервые были клас- сифицированы в 1993 году в работе [1]. В соответствии с этой классификацией массивом RAID-0 именуется массив независимых дисков, в котором не предпринимаются меры по защите информа- ции отутраты.Преимуществотакихмассивовпо сравнениюс оди- ночным диском состоит в возможности существенного увеличения ёмкости и производительностиза счёт организации параллельного обменаданными.ТехнологияRAID-1 подразумеваетдублирование каждогодискасистемы.Такимобразом,массивRAID-1имеетудво- енноеколичестводисковпосравнениюсRAID-0,новыходизстроя одного диска системы не влечёт за собой утрату данных, посколь- ку в массиве для каждого диска имеется его копия. Технологии RAID-2 иRAID-3не получилираспространенияна практике,имы опустим их описание. Технология RAID-4 подразумевает использование одного до- полнительного диска (стндрома), на который записывается сумма А.Р.Федоров 9 остальных дисков данных СХД: N(cid:2)−1 P = Di, (1) i=0 где N – это количество дисков с данными, а Di—содержимое i-го диска. Эта контрольная сумма обновляется при выполнении каж- дой записи данных на диски СХД2. Отметим, что при этом нет необходимости вычислять (1) заново, а достаточно прибавить к синдрому разность старого и нового значений изменяемого диска. В случае выхода из строя одного из дисков уравнение (1) может бытьрешеноотносительнопоявившегосянеизвестного,т.е.данные с утраченного диска будут восстановлены. Очевидно, что операции чтения и записи синдрома происходят чаще, чем любого другого диска данных. Этот диск становитсяса- мым загруженным элементом массива, т.е. слабым звеном с точ- ки зрения производительности (и, кстати, быстрее изнашивается). ДлярешенияэтойпроблемыбылипредложенатехнологияRAID-5, вкоторойдля хранениясиндромовиспользуютсячастиразличных дисковсистемы (рис.1)и,темсамым,загрузкадисковоперациями чтения и записи выравнивается. Рис.1. Отличиетехнологий RAID-4и RAID-5 Отметим, что технологии RAID-1—RAID-5 позволяют восста- навливатьданные в случае выхода из строя одного из дисков, но в случаеутратыдвухдисковэтитехнологииоказываютсябессильны. Конечно,вероятностьодновременноговыходаизстроядвухдисков 2Разумеется,привыполнениизаписиданныхнакакой-либодискСХДдиск P обновляется не целиком, а лишь частично, но об этом будет подробно рас- сказанодалее. 10 Системное программирование. Том 7. 2012 значительно ниже, чем одного. Но на практике, во-первых, заме- на отказавшегодиска требует времени, в течение которого данные остаются«беззащитными».Этот интервалможет оказатьсянепри- емлемо долгим в случае односменной работы системных админи- страторовили в случае расположения системы в труднодоступном месте. Во-вторых, при механической замене диска нельзя исклю- чить возможность человеческой ошибки, т.е. ошибочной замены исправного диска вместо неисправного—и мы снова имеем задачу по восстановлению двух дисков. Для решения этих проблем была предложена технология RAID-6, ориентированная на восстановле- ние двух дисков. Рассмотрим эту технологию более подробно. 1.2. Технология RAID-6 Алгоритмы вычислений, используемые при построении СХД по спецификации RAID-6, приведены в [2]. Здесь мы изложим их в форме, удобной для использования в рамках настоящего исследо- вания. С целью увеличения производительности системы данные, по- ступающиедлязаписи,обычнонакапливаютсявовнутреннемкэше системыхраненияданныхизаписываютсянадискивсоответствии с внутренней стратегиейкэширования, которая существенно влия- ет на производительностьсистемы в целом.Приэтомоперацииза- писи выполняются большими массивами, которые будем называть страйпами (Stripe).Аналогичнозаписи,призапросеначтениефи- зическисдисковпроизводитсячтениенетолькозапрошенныхдан- ных, но и всего страйпа (или нескольких страйпов), в котором эти данныерасположены.Вдальнейшемстрайпостаетсявкэшесисте- мывожиданииотносящихсякнемузапросовначтение.Дляповы- шения производительности СХД страйп записывается и читается параллельно со всех дисков системы. Для этого он разбивается на блокиодинаковогоразмера,которыебудем обозначатьD0,...Dn−1. Количество блоков N равно количеству дисков данных в массиве. Для обеспечения отказоустойчивости в дисковый массив вводятся два дополнительных диска, которые будем обозначать P и Q. И в страйп включим блоки, соответствующие массивам D0,...Dn−1, а также дискам P и Q (рис.2). Два последних блока являются син- дромами. В случае выхода из строя одного или двух дисков СХД

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.