Jean-Michel Muller Nicolas Brisebarre Florent de Dinechin Claude-Pierre Jeannerod Vincent Lefe`vre Guillaume Melquiond Nathalie Revol Damien Stehle´ Serge Torres Handbook of Floating-Point Arithmetic Birkha¨user Boston (cid:129) Basel (cid:129) Berlin Jean-MichelMuller NicolasBrisebarre FlorentdeDinechin CNRS,LaboratoireLIP CNRS,LaboratoireLIP ENSL,LaboratoireLIP E´coleNormale E´coleNormale E´coleNormale Supe´rieuredeLyon Supe´rieuredeLyon Supe´rieuredeLyon 46,alle´ed’Italie 46,alle´ed’Italie 46,alle´ed’Italie 69364LyonCedex07 69364LyonCedex07 69364LyonCedex07 France France France jean-michel.muller@ nicolas.brisebarre@ florent.de.dinechin@ ens-lyon.fr ens-lyon.fr ens-lyon.fr Claude-PierreJeannerod VincentLefe`vre GuillaumeMelquiond INRIA,LaboratoireLIP INRIA,LaboratoireLIP INRIASaclay–ˆIle-de- E´coleNormale E´coleNormale France Supe´rieuredeLyon Supe´rieuredeLyon ParcOrsayUniversite´ 46,alle´ed’Italie 46,alle´ed’Italie 4,rueJacquesMonod 69364LyonCedex07 69364LyonCedex07 91893OrsayCedex France France France claude-pierre.jeannerod@ [email protected] guillaume.melquiond@ ens-lyon.fr inria.fr NathalieRevol DamienStehle´ SergeTorres INRIA,LaboratoireLIP CNRS,MacquarieUniversity, ENSL,LaboratoireLIP E´coleNormale andUniversityofSydney E´coleNormale Supe´rieuredeLyon SchoolofMathematics Supe´rieuredeLyon 46,alle´ed’Italie andStatistics 46,alle´ed’Italie 69364LyonCedex07 UniversityofSydney 69364LyonCedex07 France SydneyNSW2006 France [email protected] Australia [email protected] [email protected] ISBN978-0-8176-4704-9 e-ISBN978-0-8176-4705-6 DOI10.1007/978-0-8176-4705-6 LibraryofCongressControlNumber:2009939668 MathematicsSubjectClassification(2000):65Y99,68N30 ACMSubjectClassification:G.1.0,G.4 (cid:2)c Birkha¨userBoston,apartofSpringerScience+BusinessMedia,LLC2010 Allrightsreserved.Thisworkmaynotbetranslatedorcopiedinwholeorinpartwithoutthewrittenpermissionof thepublisher(Birkha¨userBoston,c/oSpringerScience+BusinessMedia,LLC,233SpringStreet,NewYork,NY 10013,USA),exceptforbriefexcerpts inconnection withreviews orscholarly analysis.Useinconnection with anyformofinformationstorageandretrieval,electronicadaptation,computersoftware,orbysimilarordissimilar methodologynowknownorhereafterdevelopedisforbidden. Theuseinthispublicationoftradenames,trademarks,servicemarks,andsimilarterms,eveniftheyarenotidentified assuch,isnottobetakenasanexpressionofopinionastowhetherornottheyaresubjecttoproprietaryrights. Printedonacid-freepaper Birkha¨userBostonispartofSpringerScience+BusinessMedia(www.birkhauser.com) Contents Preface xv ListofFigures xvii ListofTables xxi I Introduction,BasicDefinitions,andStandards 1 1 Introduction 3 1.1 SomeHistory . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 DesirableProperties. . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3 SomeStrangeBehaviors . . . . . . . . . . . . . . . . . . . . . . 7 1.3.1 Somefamousbugs . . . . . . . . . . . . . . . . . . . . . 7 1.3.2 Difficultproblems . . . . . . . . . . . . . . . . . . . . . 8 2 DefinitionsandBasicNotions 13 2.1 Floating-PointNumbers . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Rounding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2.1 Roundingmodes . . . . . . . . . . . . . . . . . . . . . . 20 2.2.2 Usefulproperties . . . . . . . . . . . . . . . . . . . . . . 22 2.2.3 Relativeerrorduetorounding . . . . . . . . . . . . . . 23 2.3 Exceptions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.4 Lost or Preserved Properties of the Arithmetic on the Real Numbers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5 NoteontheChoiceoftheRadix . . . . . . . . . . . . . . . . . . 29 2.5.1 Representationerrors. . . . . . . . . . . . . . . . . . . . 29 2.5.2 Acaseforradix10 . . . . . . . . . . . . . . . . . . . . . 30 2.6 ToolsforManipulatingFloating-PointErrors . . . . . . . . . . 32 2.6.1 Theulpfunction . . . . . . . . . . . . . . . . . . . . . . 32 2.6.2 Errorsinulpsandrelativeerrors . . . . . . . . . . . . . 37 2.6.3 Anexample:iteratedproducts . . . . . . . . . . . . . . 37 2.6.4 Unitroundoff . . . . . . . . . . . . . . . . . . . . . . . . 39 2.7 NoteonRadixConversion . . . . . . . . . . . . . . . . . . . . . 40 v vi Contents 2.7.1 Conditionsontheformats . . . . . . . . . . . . . . . . . 40 2.7.2 Conversionalgorithms . . . . . . . . . . . . . . . . . . . 43 2.8 TheFusedMultiply-Add(FMA)Instruction . . . . . . . . . . . 51 2.9 IntervalArithmetic . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.9.1 Intervalswithfloating-pointbounds . . . . . . . . . . . 52 2.9.2 Optimizedrounding . . . . . . . . . . . . . . . . . . . . 52 3 Floating-PointFormatsandEnvironment 55 3.1 TheIEEE754-1985Standard . . . . . . . . . . . . . . . . . . . . 56 3.1.1 FormatsspecifiedbyIEEE754-1985 . . . . . . . . . . . 56 3.1.2 Little-endian,big-endian . . . . . . . . . . . . . . . . . . 60 3.1.3 RoundingmodesspecifiedbyIEEE754-1985 . . . . . . 61 3.1.4 OperationsspecifiedbyIEEE754-1985 . . . . . . . . . . 62 3.1.5 ExceptionsspecifiedbyIEEE754-1985 . . . . . . . . . . 66 3.1.6 Specialvalues . . . . . . . . . . . . . . . . . . . . . . . . 69 3.2 TheIEEE854-1987Standard . . . . . . . . . . . . . . . . . . . . 70 3.2.1 Constraintsinternaltoaformat . . . . . . . . . . . . . . 70 3.2.2 Variousformatsandtheconstraintsbetweenthem . . . 71 3.2.3 Conversions between floating-point numbers and decimalstrings . . . . . . . . . . . . . . . . . . . . . . . 72 3.2.4 Rounding . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.5 Operations . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.6 Comparisons . . . . . . . . . . . . . . . . . . . . . . . . 74 3.2.7 Exceptions . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.3 TheNeedforaRevision . . . . . . . . . . . . . . . . . . . . . . 74 3.3.1 Atypicalproblem:“doublerounding” . . . . . . . . . 75 3.3.2 Variousambiguities . . . . . . . . . . . . . . . . . . . . 77 3.4 TheNewIEEE754-2008Standard . . . . . . . . . . . . . . . . . 79 3.4.1 Formatsspecifiedbytherevisedstandard . . . . . . . . 80 3.4.2 Binaryinterchangeformatencodings . . . . . . . . . . 81 3.4.3 Decimalinterchangeformatencodings . . . . . . . . . 82 3.4.4 Largerformats . . . . . . . . . . . . . . . . . . . . . . . 92 3.4.5 Extendedandextendableprecisions . . . . . . . . . . . 92 3.4.6 Attributes . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.4.7 Operationsspecifiedbythestandard . . . . . . . . . . 97 3.4.8 Comparisons . . . . . . . . . . . . . . . . . . . . . . . . 99 3.4.9 Conversions . . . . . . . . . . . . . . . . . . . . . . . . . 99 3.4.10 Defaultexceptionhandling . . . . . . . . . . . . . . . . 100 3.4.11 Recommendedtranscendentalfunctions . . . . . . . . 103 3.5 Floating-PointHardwareinCurrentProcessors . . . . . . . . . 104 3.5.1 Thecommonhardwaredenominator . . . . . . . . . . 104 3.5.2 Fusedmultiply-add . . . . . . . . . . . . . . . . . . . . 104 3.5.3 Extendedprecision . . . . . . . . . . . . . . . . . . . . . 104 3.5.4 Roundingandprecisioncontrol. . . . . . . . . . . . . . 105 Contents vii 3.5.5 SIMDinstructions . . . . . . . . . . . . . . . . . . . . . 106 3.5.6 Floating-pointonx86processors:SSE2versusx87 . . . 106 3.5.7 Decimalarithmetic . . . . . . . . . . . . . . . . . . . . . 107 3.6 Floating-PointHardwareinRecentGraphicsProcessingUnits 108 3.7 RelationswithProgrammingLanguages . . . . . . . . . . . . . 109 3.7.1 TheLanguageIndependentArithmetic(LIA)standard 109 3.7.2 Programminglanguages . . . . . . . . . . . . . . . . . . 110 3.8 CheckingtheEnvironment . . . . . . . . . . . . . . . . . . . . . 110 3.8.1 MACHAR . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.8.2 Paranoia . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.8.3 UCBTest . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 3.8.4 TestFloat . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 3.8.5 IeeeCC754 . . . . . . . . . . . . . . . . . . . . . . . . . . 116 3.8.6 Miscellaneous . . . . . . . . . . . . . . . . . . . . . . . . 116 II CleverlyUsingFloating-PointArithmetic 117 4 BasicPropertiesandAlgorithms 119 4.1 TestingtheComputationalEnvironment . . . . . . . . . . . . . 119 4.1.1 Computingtheradix . . . . . . . . . . . . . . . . . . . . 119 4.1.2 Computingtheprecision. . . . . . . . . . . . . . . . . . 121 4.2 ExactOperations . . . . . . . . . . . . . . . . . . . . . . . . . . 122 4.2.1 Exactaddition . . . . . . . . . . . . . . . . . . . . . . . . 122 4.2.2 Exactmultiplicationsanddivisions . . . . . . . . . . . 124 4.3 AccurateComputationsofSumsofTwoNumbers . . . . . . . 125 4.3.1 TheFast2Sumalgorithm . . . . . . . . . . . . . . . . . . 126 4.3.2 The2Sumalgorithm . . . . . . . . . . . . . . . . . . . . 129 4.3.3 Ifwedonotuseroundingtonearest . . . . . . . . . . . 131 4.4 ComputationofProducts . . . . . . . . . . . . . . . . . . . . . 132 4.4.1 Veltkampsplitting . . . . . . . . . . . . . . . . . . . . . 132 4.4.2 Dekker’smultiplicationalgorithm . . . . . . . . . . . . 135 4.5 Complexnumbers . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.5.1 Variouserrorbounds . . . . . . . . . . . . . . . . . . . . 140 4.5.2 Errorboundforcomplexmultiplication . . . . . . . . . 141 4.5.3 Complexdivision . . . . . . . . . . . . . . . . . . . . . . 144 4.5.4 Complexsquareroot . . . . . . . . . . . . . . . . . . . . 149 5 TheFusedMultiply-AddInstruction 151 5.1 The2MultFMAAlgorithm . . . . . . . . . . . . . . . . . . . . . 152 5.2 ComputationofResidualsofDivisionandSquareRoot . . . . 153 5.3 Newton–Raphson-BasedDivisionwithanFMA . . . . . . . . 155 5.3.1 VariantsoftheNewton–Raphsoniteration . . . . . . . 155 viii Contents 5.3.2 Using the Newton–Raphson iteration for correctly roundeddivision . . . . . . . . . . . . . . . . . . . . . . 160 5.4 Newton–Raphson-BasedSquareRootwithanFMA . . . . . . 167 5.4.1 Thebasiciterations . . . . . . . . . . . . . . . . . . . . . 167 5.4.2 Using the Newton–Raphson iteration for correctly roundedsquareroots . . . . . . . . . . . . . . . . . . . . 168 5.5 MultiplicationbyanArbitrary-PrecisionConstant . . . . . . . 171 5.5.1 Checking for a given constant C if Algorithm 5.2 will alwayswork . . . . . . . . . . . . . . . . . . . . . . . . . 172 5.6 EvaluationoftheErrorofanFMA . . . . . . . . . . . . . . . . 175 5.7 EvaluationofIntegerPowers . . . . . . . . . . . . . . . . . . . 177 6 Enhanced Floating-Point Sums, Dot Products, and Polynomial Values 181 6.1 Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 6.1.1 Floating-pointarithmeticmodels . . . . . . . . . . . . . 183 6.1.2 Notationforerroranalysisandclassicalerrorestimates 184 6.1.3 Propertiesforderivingrunningerrorbounds . . . . . . 187 6.2 ComputingValidatedRunningErrorBounds . . . . . . . . . . 188 6.3 ComputingSumsMoreAccurately . . . . . . . . . . . . . . . . 190 6.3.1 Reorderingtheoperands,andabitmore . . . . . . . . 190 6.3.2 Compensatedsums . . . . . . . . . . . . . . . . . . . . . 192 6.3.3 Implementinga“longaccumulator” . . . . . . . . . . . 199 6.3.4 Onthesumofthreefloating-pointnumbers . . . . . . 199 6.4 CompensatedDotProducts . . . . . . . . . . . . . . . . . . . . 201 6.5 CompensatedPolynomialEvaluation . . . . . . . . . . . . . . 203 7 LanguagesandCompilers 205 7.1 APlaywithManyActors . . . . . . . . . . . . . . . . . . . . . 205 7.1.1 Floating-pointevaluationinprogramminglanguages . 206 7.1.2 Processors,compilers,andoperatingsystems . . . . . . 208 7.1.3 Inthehandsoftheprogrammer . . . . . . . . . . . . . 209 7.2 FloatingPointintheCLanguage . . . . . . . . . . . . . . . . . 209 7.2.1 StandardC99headersandIEEE754-1985support . . . 209 7.2.2 Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 7.2.3 Expressionevaluation . . . . . . . . . . . . . . . . . . . 213 7.2.4 Codetransformations . . . . . . . . . . . . . . . . . . . 216 7.2.5 Enablingunsafeoptimizations . . . . . . . . . . . . . . 217 7.2.6 Summary:afewhorrorstories . . . . . . . . . . . . . . 218 7.3 Floating-PointArithmeticintheC++Language . . . . . . . . . 220 7.3.1 Semantics . . . . . . . . . . . . . . . . . . . . . . . . . . 220 7.3.2 Numericlimits . . . . . . . . . . . . . . . . . . . . . . . 221 7.3.3 Overloadedfunctions . . . . . . . . . . . . . . . . . . . 222 7.4 FORTRANFloatingPointinaNutshell . . . . . . . . . . . . . 223 Contents ix 7.4.1 Philosophy. . . . . . . . . . . . . . . . . . . . . . . . . . 223 7.4.2 IEEE754supportinFORTRAN . . . . . . . . . . . . . . 226 7.5 JavaFloatingPointinaNutshell . . . . . . . . . . . . . . . . . 227 7.5.1 Philosophy. . . . . . . . . . . . . . . . . . . . . . . . . . 227 7.5.2 Typesandclasses . . . . . . . . . . . . . . . . . . . . . . 228 7.5.3 Infinities,NaNs,andsignedzeros . . . . . . . . . . . . 230 7.5.4 Missingfeatures. . . . . . . . . . . . . . . . . . . . . . . 231 7.5.5 Reproducibility . . . . . . . . . . . . . . . . . . . . . . . 232 7.5.6 TheBigDecimalpackage . . . . . . . . . . . . . . . . . . 233 7.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 III ImplementingFloating-PointOperators 237 8 AlgorithmsfortheFiveBasicOperations 239 8.1 OverviewofBasicOperationImplementation . . . . . . . . . . 239 8.2 ImplementingIEEE754-2008Rounding . . . . . . . . . . . . . 241 8.2.1 Rounding a nonzero finite value with unbounded exponentrange . . . . . . . . . . . . . . . . . . . . . . . 241 8.2.2 Overflow . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 8.2.3 Underflowandsubnormalresults . . . . . . . . . . . . 244 8.2.4 Theinexactexception . . . . . . . . . . . . . . . . . . . 245 8.2.5 Roundingforactualoperations . . . . . . . . . . . . . . 245 8.3 Floating-PointAdditionandSubtraction . . . . . . . . . . . . . 246 8.3.1 Decimaladdition . . . . . . . . . . . . . . . . . . . . . . 249 8.3.2 Decimaladditionusingbinaryencoding . . . . . . . . 250 8.3.3 Subnormalinputsandoutputsinbinaryaddition . . . 251 8.4 Floating-PointMultiplication . . . . . . . . . . . . . . . . . . . 251 8.4.1 Normalcase . . . . . . . . . . . . . . . . . . . . . . . . . 252 8.4.2 Handlingsubnormalnumbersinbinarymultiplication 252 8.4.3 Decimalspecifics . . . . . . . . . . . . . . . . . . . . . . 253 8.5 Floating-PointFusedMultiply-Add . . . . . . . . . . . . . . . 254 8.5.1 Caseanalysisfornormalinputs . . . . . . . . . . . . . . 254 8.5.2 Handlingsubnormalinputs . . . . . . . . . . . . . . . . 258 8.5.3 Handlingdecimalcohorts . . . . . . . . . . . . . . . . . 259 8.5.4 OverviewofabinaryFMAimplementation . . . . . . . 259 8.6 Floating-PointDivision . . . . . . . . . . . . . . . . . . . . . . . 262 8.6.1 Overviewandspecialcases . . . . . . . . . . . . . . . . 262 8.6.2 Computingthesignificandquotient . . . . . . . . . . . 263 8.6.3 Managingsubnormalnumbers . . . . . . . . . . . . . . 264 8.6.4 Theinexactexception . . . . . . . . . . . . . . . . . . . 265 8.6.5 Decimalspecifics . . . . . . . . . . . . . . . . . . . . . . 265 8.7 Floating-PointSquareRoot. . . . . . . . . . . . . . . . . . . . . 265 8.7.1 Overviewandspecialcases . . . . . . . . . . . . . . . . 265 x Contents 8.7.2 Computingthesignificandsquareroot . . . . . . . . . 266 8.7.3 Managingsubnormalnumbers . . . . . . . . . . . . . . 267 8.7.4 Theinexactexception . . . . . . . . . . . . . . . . . . . 267 8.7.5 Decimalspecifics . . . . . . . . . . . . . . . . . . . . . . 267 9 HardwareImplementationofFloating-PointArithmetic 269 9.1 IntroductionandContext . . . . . . . . . . . . . . . . . . . . . 269 9.1.1 Processorinternalformats . . . . . . . . . . . . . . . . . 269 9.1.2 Hardwarehandlingofsubnormalnumbers . . . . . . . 270 9.1.3 Full-customVLSIversusreconfigurablecircuits . . . . 271 9.1.4 Hardwaredecimalarithmetic . . . . . . . . . . . . . . . 272 9.1.5 Pipelining . . . . . . . . . . . . . . . . . . . . . . . . . . 273 9.2 ThePrimitivesandTheirCost . . . . . . . . . . . . . . . . . . . 274 9.2.1 Integeradders . . . . . . . . . . . . . . . . . . . . . . . . 274 9.2.2 Digit-by-integermultiplicationinhardware. . . . . . . 280 9.2.3 Usingnonstandardrepresentationsofnumbers . . . . 280 9.2.4 Binaryintegermultiplication . . . . . . . . . . . . . . . 281 9.2.5 Decimalintegermultiplication . . . . . . . . . . . . . . 283 9.2.6 Shifters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 9.2.7 Leading-zerocounters . . . . . . . . . . . . . . . . . . . 284 9.2.8 Tables and table-based methods for fixed-point functionapproximation . . . . . . . . . . . . . . . . . . 286 9.3 BinaryFloating-PointAddition . . . . . . . . . . . . . . . . . . 288 9.3.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . 288 9.3.2 Afirstdual-patharchitecture . . . . . . . . . . . . . . . 289 9.3.3 Leading-zeroanticipation . . . . . . . . . . . . . . . . . 291 9.3.4 Probingfurtheronfloating-pointadders . . . . . . . . 295 9.4 BinaryFloating-PointMultiplication . . . . . . . . . . . . . . . 296 9.4.1 Basicarchitecture . . . . . . . . . . . . . . . . . . . . . . 296 9.4.2 FPGAimplementation . . . . . . . . . . . . . . . . . . . 296 9.4.3 VLSIimplementationoptimizedfordelay . . . . . . . . 298 9.4.4 Managingsubnormals . . . . . . . . . . . . . . . . . . . 301 9.5 BinaryFusedMultiply-Add . . . . . . . . . . . . . . . . . . . . 302 9.5.1 Classicarchitecture . . . . . . . . . . . . . . . . . . . . . 303 9.5.2 Toprobefurther . . . . . . . . . . . . . . . . . . . . . . . 305 9.6 Division . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 9.6.1 Digit-recurrencedivision . . . . . . . . . . . . . . . . . 306 9.6.2 Decimaldivision . . . . . . . . . . . . . . . . . . . . . . 309 9.7 Conclusion:BeyondtheFPU . . . . . . . . . . . . . . . . . . . 309 9.7.1 Optimizationincontextofstandardoperators . . . . . 310 9.7.2 Operationwithaconstantoperand . . . . . . . . . . . . 311 9.7.3 Blockfloatingpoint . . . . . . . . . . . . . . . . . . . . . 313 9.7.4 Specificarchitecturesforaccumulation . . . . . . . . . 313 9.7.5 Coarser-grainoperators . . . . . . . . . . . . . . . . . . 317
Description: