Fundamentals of Linear Algebra and Optimization Jean Gallier and Jocelyn Quaintance Department of Computer and Information Science University of Pennsylvania Philadelphia, PA 19104, USA e-mail: [email protected] c Jean Gallier (cid:13) March 14, 2017 2 N. BOURBAKI FASCICULE VI ELEMENTS ' DE MATHEMATIQUE PREMIERE PARTIE LIVRE II ALGEBRE CHAPITRE 2 ALGEBJlE LINEAIRE J!:DITION, REFONDUE HERMANN 115, BOULEVARD SAINT-GERMAIN, PARIS VI Figure 1: Cover page from Bourbaki, Fascicule VI, Livre II, Alg`ebre, 1962 ..........6. 3 156 ALGEBRE LINEAIRE § "i' a) u est bijectif; .et deux espaces fJector b) u est injectif; 0 -+ Hom(E", C c) u est surjectif; a 0 -+ Hom(H, F' d) u est inflersible droite; e) U est iMersible a gauche; .sont exactes et scindees f) u est de rang n. Cela resulte de C€ direct (n° 3, prop. 4) et Si E est un espace vectoriel de dimension infinie, il y a des endo- morphismes injectifs (resp. surjectifs) de E qui ne sont pas bijec- COROLLAIRE. - p tifs (e xerc. 9). 0 Soient K, K' deux corps, cr : K -+ K' un isomorphisme de K d' espaces fJectoriels sur sur K', E un K-espace vectoriel, E' un K'-espace vectoriel, la suite u : E -+ E' une application semi-lineaire relative a cr ( § 1, no 13) ; on appelle encore rang de u la dimension du sous-espace u(E) de- E'. C'est aussi le rang de u considere comme application Iineaire- est exacte et scindee. de E dans cr*(E'), car toute base de u(E) est aussi une base de- cr*( u(E) ). On en deduit en PI riel M de E, l'homomor le sous-espace de E* ort 5. Dual d'un espace vectoriel. THEOREME 4. - La dimension du dual E* d'un espace 'recto- THEOREME 6. - 1 a riel E est au moins egale la dimension de E. Pour que E* soit l' application canonique .I de dimension finie, il faut et ·il suffit que E le soit, et on a alors- pour qu' elle so it bijectiCJI dimE* = dim E. finie. Si K est Ie corps des scalaires de E, E est isomorphe a_ -La premiere asser a un espace et par suite E* est isomorphe ( § 2, no 6,. finie cE est bijective, son prop. 10). Comme est un sous-espace de on a dimE = Supposons E de dimem Card( I) dimE* (n° 2, cor. 4 du th. 3); en outre, si I est fini, ser que E = Kr->, ou on a = (cf. exerc. 34)). E* = Soit l famille correspondante 1 CoROLLAIRE. - Pour espace flectoriel E, les relations· le sous-espace vectoriel E = I 0I et E* = 10! sont equifJalentes. la somme directe F' = traine F' =1= E *. II exist THEOREME 5. - Etant donnees deux suites exactes d'espaces: F' (n° 3, prop. 8), et co1 flectoriels (sur un meme corps K) .et d' applications lineaires . de meme de son dual (c< 0 -+ E' -+ E -+ E" -+ 0 H" de H' dans E** (§ 2, 0 -+ F' -+ F -+ F" -+ 0 est contenu dans l'imag Figure 2: Page 156 from Bourbaki, Fascicule VI, Livre II, Alg`ebre, 1962 4 Contents 1 Vector Spaces, Bases, Linear Maps 11 1.1 Motivations: Linear Combinations, Linear Independence, Rank . . . . . . . 11 1.2 Vector Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Linear Independence, Subspaces . . . . . . . . . . . . . . . . . . . . . . . . 27 1.4 Bases of a Vector Space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.5 Linear Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2 Matrices and Linear Maps 45 2.1 Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.2 Haar Basis Vectors and a Glimpse at Wavelets . . . . . . . . . . . . . . . . 61 2.3 The Effect of a Change of Bases on Matrices . . . . . . . . . . . . . . . . . 78 2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3 Direct Sums, Affine Maps, The Dual Space, Duality 83 3.1 Direct Products, Sums, and Direct Sums . . . . . . . . . . . . . . . . . . . . 83 3.2 Affine Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.3 The Dual Space E and Linear Forms . . . . . . . . . . . . . . . . . . . . . 100 ∗ 3.4 Hyperplanes and Linear Forms . . . . . . . . . . . . . . . . . . . . . . . . . 118 3.5 Transpose of a Linear Map and of a Matrix . . . . . . . . . . . . . . . . . . 119 3.6 The Four Fundamental Subspaces . . . . . . . . . . . . . . . . . . . . . . . 126 3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4 Gaussian Elimination, LU, Cholesky, Echelon Form 131 4.1 Motivating Example: Curve Interpolation . . . . . . . . . . . . . . . . . . . 131 4.2 Gaussian Elimination and LU-Factorization . . . . . . . . . . . . . . . . . . 135 4.3 Gaussian Elimination of Tridiagonal Matrices . . . . . . . . . . . . . . . . . 161 4.4 SPD Matrices and the Cholesky Decomposition . . . . . . . . . . . . . . . . 164 4.5 Reduced Row Echelon Form . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 4.6 Transvections and Dilatations . . . . . . . . . . . . . . . . . . . . . . . . . . 186 4.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 5 Determinants 193 5.1 Permutations, Signature of a Permutation . . . . . . . . . . . . . . . . . . . 193 5 6 CONTENTS 5.2 Alternating Multilinear Maps . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.3 Definition of a Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5.4 Inverse Matrices and Determinants . . . . . . . . . . . . . . . . . . . . . . . 208 5.5 Systems of Linear Equations and Determinants . . . . . . . . . . . . . . . . 211 5.6 Determinant of a Linear Map . . . . . . . . . . . . . . . . . . . . . . . . . . 212 5.7 The Cayley–Hamilton Theorem . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.8 Permanents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 5.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 5.10 Further Readings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 6 Vector Norms and Matrix Norms 223 6.1 Normed Vector Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 6.2 Matrix Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 6.3 Condition Numbers of Matrices . . . . . . . . . . . . . . . . . . . . . . . . . 242 6.4 An Application of Norms: Inconsistent Linear Systems . . . . . . . . . . . . 251 6.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 7 Eigenvectors and Eigenvalues 255 7.1 Eigenvectors and Eigenvalues of a Linear Map . . . . . . . . . . . . . . . . . 255 7.2 Reduction to Upper Triangular Form . . . . . . . . . . . . . . . . . . . . . . 262 7.3 Location of Eigenvalues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 7.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8 Iterative Methods for Solving Linear Systems 271 8.1 Convergence of Sequences of Vectors and Matrices . . . . . . . . . . . . . . 271 8.2 Convergence of Iterative Methods . . . . . . . . . . . . . . . . . . . . . . . . 274 8.3 Methods of Jacobi, Gauss-Seidel, and Relaxation . . . . . . . . . . . . . . . 276 8.4 Convergence of the Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 8.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288 9 Euclidean Spaces 289 9.1 Inner Products, Euclidean Spaces . . . . . . . . . . . . . . . . . . . . . . . . 289 9.2 Orthogonality, Duality, Adjoint of a Linear Map . . . . . . . . . . . . . . . 297 9.3 Linear Isometries (Orthogonal Transformations) . . . . . . . . . . . . . . . . 309 9.4 The Orthogonal Group, Orthogonal Matrices . . . . . . . . . . . . . . . . . 312 9.5 QR-Decomposition for Invertible Matrices . . . . . . . . . . . . . . . . . . . 314 9.6 Some Applications of Euclidean Geometry . . . . . . . . . . . . . . . . . . . 318 9.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 10 QR-Decomposition for Arbitrary Matrices 321 10.1 Orthogonal Reflections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 10.2 QR-Decomposition Using Householder Matrices . . . . . . . . . . . . . . . . 325 10.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 CONTENTS 7 11 Hermitian Spaces 331 11.1 Hermitian Spaces, Pre-Hilbert Spaces . . . . . . . . . . . . . . . . . . . . . 331 11.2 Orthogonality, Duality, Adjoint of a Linear Map . . . . . . . . . . . . . . . 340 11.3 Linear Isometries (Also Called Unitary Transformations) . . . . . . . . . . . 345 11.4 The Unitary Group, Unitary Matrices . . . . . . . . . . . . . . . . . . . . . 347 11.5 Orthogonal Projections and Involutions . . . . . . . . . . . . . . . . . . . . 350 11.6 Dual Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 11.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 12 Spectral Theorems 359 12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 12.2 Normal Linear Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 12.3 Self-Adjoint and Other Special Linear Maps . . . . . . . . . . . . . . . . . . 368 12.4 Normal and Other Special Matrices . . . . . . . . . . . . . . . . . . . . . . . 375 12.5 Conditioning of Eigenvalue Problems . . . . . . . . . . . . . . . . . . . . . . 378 12.6 Rayleigh Ratios and the Courant-Fischer Theorem . . . . . . . . . . . . . . 381 12.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 13 Introduction to The Finite Elements Method 391 13.1 A One-Dimensional Problem: Bending of a Beam . . . . . . . . . . . . . . . 391 13.2 A Two-Dimensional Problem: An Elastic Membrane . . . . . . . . . . . . . 402 13.3 Time-Dependent Boundary Problems . . . . . . . . . . . . . . . . . . . . . . 405 14 Singular Value Decomposition and Polar Form 413 14.1 Singular Value Decomposition for Square Matrices . . . . . . . . . . . . . . 413 14.2 Singular Value Decomposition for Rectangular Matrices . . . . . . . . . . . 421 14.3 Ky Fan Norms and Schatten Norms . . . . . . . . . . . . . . . . . . . . . . 424 14.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425 15 Applications of SVD and Pseudo-Inverses 427 15.1 Least Squares Problems and the Pseudo-Inverse . . . . . . . . . . . . . . . . 427 15.2 Properties of the Pseudo-Inverse . . . . . . . . . . . . . . . . . . . . . . . . 432 15.3 Data Compression and SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 15.4 Principal Components Analysis (PCA) . . . . . . . . . . . . . . . . . . . . . 438 15.5 Best Affine Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 15.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448 16 Annihilating Polynomials; Primary Decomposition 451 16.1 Annihilating Polynomials and the Minimal Polynomial . . . . . . . . . . . . 451 16.2 Minimal Polynomials of Diagonalizable Linear Maps . . . . . . . . . . . . . 457 16.3 The Primary Decomposition Theorem . . . . . . . . . . . . . . . . . . . . . 463 16.4 Nilpotent Linear Maps and Jordan Form . . . . . . . . . . . . . . . . . . . . 469 8 CONTENTS 17 Topology 475 17.1 Metric Spaces and Normed Vector Spaces . . . . . . . . . . . . . . . . . . . 475 17.2 Topological Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 17.3 Continuous Functions, Limits . . . . . . . . . . . . . . . . . . . . . . . . . . 490 17.4 Continuous Linear and Multilinear Maps . . . . . . . . . . . . . . . . . . . . 497 17.5 The Contraction Mapping Theorem . . . . . . . . . . . . . . . . . . . . . . 502 17.6 Futher Readings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 17.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 18 Differential Calculus 505 18.1 Directional Derivatives, Total Derivatives . . . . . . . . . . . . . . . . . . . 505 18.2 Jacobian Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 18.3 The Implicit and The Inverse Function Theorems . . . . . . . . . . . . . . . 526 18.4 Second-Order and Higher-Order Derivatives . . . . . . . . . . . . . . . . . . 531 18.5 Taylor’s Formula, Fa`a di Bruno’s Formula . . . . . . . . . . . . . . . . . . . 536 18.6 Futher Readings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 18.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 19 Quadratic Optimization Problems 543 19.1 Quadratic Optimization: The Positive Definite Case . . . . . . . . . . . . . 543 19.2 Quadratic Optimization: The General Case . . . . . . . . . . . . . . . . . . 551 19.3 Maximizing a Quadratic Function on the Unit Sphere . . . . . . . . . . . . 555 19.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560 20 Schur Complements and Applications 563 20.1 Schur Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563 20.2 SPD Matrices and Schur Complements . . . . . . . . . . . . . . . . . . . . . 565 20.3 SP Semidefinite Matrices and Schur Complements . . . . . . . . . . . . . . 567 21 Convex Sets, Cones, -Polyhedra 569 H 21.1 What is Linear Programming? . . . . . . . . . . . . . . . . . . . . . . . . . 569 21.2 Affine Subsets, Convex Sets, Hyperplanes, Half-Spaces . . . . . . . . . . . . 571 21.3 Cones, Polyhedral Cones, and -Polyhedra . . . . . . . . . . . . . . . . . . 574 H 22 Linear Programs 581 22.1 Linear Programs, Feasible Solutions, Optimal Solutions . . . . . . . . . . . 581 22.2 Basic Feasible Solutions and Vertices . . . . . . . . . . . . . . . . . . . . . . 587 23 The Simplex Algorithm 595 23.1 The Idea Behind the Simplex Algorithm . . . . . . . . . . . . . . . . . . . . 595 23.2 The Simplex Algorithm in General . . . . . . . . . . . . . . . . . . . . . . . 604 23.3 How Perform a Pivoting Step Efficiently . . . . . . . . . . . . . . . . . . . . 611 23.4 The Simplex Algorithm Using Tableaux . . . . . . . . . . . . . . . . . . . . 614 CONTENTS 9 23.5 Computational Efficiency of the Simplex Method . . . . . . . . . . . . . . . 624 24 Linear Programming and Duality 627 24.1 Variants of the Farkas Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . 627 24.2 The Duality Theorem in Linear Programming . . . . . . . . . . . . . . . . . 632 24.3 Complementary Slackness Conditions . . . . . . . . . . . . . . . . . . . . . 641 24.4 Duality for Linear Programs in Standard Form . . . . . . . . . . . . . . . . 642 24.5 The Dual Simplex Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 645 24.6 The Primal-Dual Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . 651 25 Extrema of Real-Valued Functions 663 25.1 Local Extrema and Lagrange Multipliers . . . . . . . . . . . . . . . . . . . . 663 25.2 Using Second Derivatives to Find Extrema . . . . . . . . . . . . . . . . . . . 673 25.3 Using Convexity to Find Extrema . . . . . . . . . . . . . . . . . . . . . . . 676 25.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686 26 Newton’s Method and Its Generalizations 687 26.1 Newton’s Method for Real Functions of a Real Argument . . . . . . . . . . 687 26.2 Generalizations of Newton’s Method . . . . . . . . . . . . . . . . . . . . . . 688 26.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694 27 Basics of Hilbert Spaces 695 27.1 The Projection Lemma, Duality . . . . . . . . . . . . . . . . . . . . . . . . 695 27.2 Farkas–Minkowski Lemma in Hilbert Spaces . . . . . . . . . . . . . . . . . . 712 28 General Results of Optimization Theory 715 28.1 Existence of Solutions of an Optimization Problem . . . . . . . . . . . . . . 715 28.2 Gradient Descent Methods for Unconstrained Problems . . . . . . . . . . . 729 28.3 Conjugate Gradient Methods for Unconstrained Problems . . . . . . . . . . 745 28.4 Gradient Projection for Constrained Optimization . . . . . . . . . . . . . . 755 28.5 Penalty Methods for Constrained Optimization . . . . . . . . . . . . . . . . 758 28.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 760 29 Introduction to Nonlinear Optimization 761 29.1 The Cone of Feasible Directions . . . . . . . . . . . . . . . . . . . . . . . . . 761 29.2 The Karush–Kuhn–Tucker Conditions . . . . . . . . . . . . . . . . . . . . . 774 29.3 Hard Margin Support Vector Machine . . . . . . . . . . . . . . . . . . . . . 786 29.4 Lagrangian Duality and Saddle Points . . . . . . . . . . . . . . . . . . . . . 796 29.5 Uzawa’s Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 812 29.6 Handling Equality Constraints Explicitly . . . . . . . . . . . . . . . . . . . . 818 29.7 Conjugate Function and Legendre Dual Function . . . . . . . . . . . . . . . 825 29.8 Some Techniques to Obtain a More Useful Dual Program . . . . . . . . . . 835 29.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844 10 CONTENTS 30 Soft Margin Support Vector Machines 847 30.1 Soft Margin Support Vector Machines; (SVM ) . . . . . . . . . . . . . . . . 848 s1 30.2 Soft Margin Support Vector Machines; (SVM ) . . . . . . . . . . . . . . . . 857 s2 30.3 Soft Margin Support Vector Machines; (SVM ) . . . . . . . . . . . . . . . 863 s2(cid:48) 30.4 Soft Margin SVM; (SVM ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 877 s3 30.5 Soft Margin Support Vector Machines; (SVM ) . . . . . . . . . . . . . . . . 880 s4 30.6 Soft Margin SVM; (SVM ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 887 s5 30.7 Summary and Comparison of the SVM Methods . . . . . . . . . . . . . . . 889 31 Total Orthogonal Families in Hilbert Spaces 901 31.1 Total Orthogonal Families, Fourier Coefficients . . . . . . . . . . . . . . . . 901 31.2 The Hilbert Space l2(K) and the Riesz-Fischer Theorem . . . . . . . . . . . 909 Bibliography 918
Description: