Smoothing Spline ANOVA with Component(cid:2)Wise Bayesian (cid:3)Con(cid:4)dence Intervals(cid:5) To Appear(cid:2) J(cid:3) Computationaland Graphical Statistics CHONG GU and GRACE WAHBA(cid:0) November (cid:2)(cid:2)(cid:3) (cid:2)(cid:4)(cid:4)(cid:5) Abstract We study a multivariatesmoothingspline estimate of a function of several variables(cid:2) based on an ANOVA decomposition as sums of main e(cid:4)ect functions (cid:5)of one variable(cid:6)(cid:2) two(cid:7)factor interaction functions (cid:5)of two variables(cid:6)(cid:2) etc(cid:3) We derive the Bayesian (cid:8)con(cid:9)dence intervals(cid:10) for the components of this decomposition and demonstrate that(cid:2) even with multiple smoothing parameters(cid:2)theycanbe e(cid:11)cientlycomputedusingthe publiclyavailablecode RKPACK(cid:2)which wasoriginallydesigned just to computethe estimates(cid:3) Wecarry out asmallMonte Carlostudy toseehowcloselytheactualproperties ofthesecomponent(cid:7)wisecon(cid:9)dence intervalsmatchtheir nominal con(cid:9)dence levels(cid:3) Lastly(cid:2) we analyze some lake acidity data as a function of calcium concentration(cid:2) latitude(cid:2)andlongitude(cid:2)using bothpolynomialand thinplatespline maine(cid:4)ects in the same model(cid:3) KEYWORDS(cid:12)Bayesian(cid:8)con(cid:9)denceintervals(cid:10)(cid:13)Multivariatefunctionestimation(cid:13)RKPACK(cid:13) Smoothingspline ANOVA(cid:3) (cid:0) ChongGuchong(cid:2)pop(cid:3)stat(cid:3)purdue(cid:3)eduisAssistantProfessor(cid:2)DepartmentofStatistics(cid:2)PurdueUniversity(cid:2)West Lafayette(cid:2) IN (cid:3)(cid:4)(cid:5)(cid:6)(cid:4)(cid:7) His research was supported by the National Science Foundation under Grant DMS(cid:8)(cid:5)(cid:9)(cid:6)(cid:9)(cid:4)(cid:10)(cid:6)(cid:7) Grace Wahba wahba(cid:2)stat(cid:3)wisc(cid:3)eduis John Bascom Professor(cid:2) Department of Statistics(cid:2) University of Wisconsin(cid:2) Madison(cid:2) WI (cid:11)(cid:10)(cid:4)(cid:6)(cid:12)(cid:7) Her research was supported by the National Science Foundation under Grant DMS(cid:8)(cid:5)(cid:6)(cid:6)(cid:13)(cid:11)(cid:12)(cid:12)(cid:7) (cid:0) Introduction We consider the model yi (cid:2) f(cid:3)t(cid:0)(cid:3)i(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:3)i(cid:4)(cid:4)(cid:5)(cid:3)i(cid:2) i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)n (cid:3)(cid:6)(cid:4)(cid:6)(cid:4) (cid:2) (cid:2) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) where (cid:3)i (cid:2) N(cid:3)(cid:7)(cid:2)(cid:5) (cid:4)(cid:2)(cid:5) unknown(cid:8) and t(cid:2)(cid:8) the (cid:6)th (cid:9)variable(cid:10) is in T (cid:8) where T is some (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4) measurable space(cid:11) In the examples we will study(cid:8) either T (cid:2) (cid:12)(cid:7)(cid:2)(cid:6)(cid:13) or(cid:8) T (cid:2) E (cid:8) Euclidean k(cid:3)(cid:6)(cid:4) space(cid:8) and then t (cid:2) (cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4) is in EK space(cid:8) where K (cid:2) (cid:2)k(cid:3)(cid:6)(cid:4)(cid:11) By setting k(cid:3)(cid:6)(cid:4) to be (cid:14) or (cid:15)(cid:8) we will be able to include geographic(cid:8) atmospheric or ocePanic variables(cid:8) along with other (cid:2) concomitant variables(cid:8) in a natural way(cid:11) We wish to estimate f(cid:8) given the data y (cid:2) (cid:3)y(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)yn(cid:4)(cid:8) in suchawayastoavoidthe(cid:9)curseofdimensionality(cid:10)(cid:8) and(cid:8) in addition(cid:8) toprovide useful information concerning the accuracy of such estimates(cid:11) Nonparametric function estimation is a major research area at the present time and we just mention representative examples of modern techniques for multivariate function estimation in sev(cid:16) eral dimensions(cid:17) ACE (cid:3)Breiman and Friedman(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:8) MARS (cid:3)Friedman(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) CART (cid:3)Breiman(cid:8) Friedman(cid:8) Olshen and Stone(cid:8) (cid:6)(cid:18)(cid:19)(cid:21)(cid:4)(cid:8) Projection Pursuit (cid:3)Huber(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:8) Regression Splines (cid:3)Stone(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) the (cid:16)method (cid:3)Breiman(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) Additive Models (cid:3)Buja(cid:8) Hastie and Tibshirani(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:8) Hastie and TibshQirani(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) Neural net research is partly concerned with multivariate function estimation in thesense thatweuse it here(cid:8) see for example Moody and Utans(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:11) Each method hasunique problems and successes in providing accuracy statementswhich wewill notdiscuss here(cid:11) In this paper(cid:8) we will be providing accuracy statementswithin the frameworkof a general form ofsmoothingspline analysisofvariance(cid:3)SS(cid:16)ANOVA(cid:4)inreproducing kernelHilbert spaces(cid:3)RKHS(cid:4)(cid:11) An overview of SS(cid:16)ANOVA as it applies to polynomial splines and tensor products of polynomial splines can be found in Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) More recently this framework has been generalized to show how to include thin plate splines in an SS(cid:16)ANOVA model (cid:3)Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)a(cid:8) (cid:6)(cid:18)(cid:18)(cid:15)(cid:4)(cid:11) The use of thin plate splines as part of the SS(cid:16)ANOVA model allows the modeling of geographic and other variables as variables in main e(cid:22)ects(cid:8) interaction terms(cid:8) and so forth(cid:11) In SS(cid:16)ANOVA (cid:3)and other ANOVA in function space approaches(cid:8) see(cid:8) e(cid:11)g(cid:11) Friedman(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)(cid:4) and Stone(cid:3)(cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:4)(cid:8) f has a representation of the form f(cid:3)t(cid:4)(cid:2) C (cid:5) f(cid:2)(cid:3)t(cid:2)(cid:4)(cid:5) f(cid:2)(cid:4)(cid:3)t(cid:2)(cid:2)t(cid:4)(cid:4)(cid:5) f(cid:2)(cid:4)(cid:5)(cid:3)t(cid:2)(cid:2)t(cid:4)(cid:2)t(cid:5)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0) (cid:3)(cid:6)(cid:4)(cid:14)(cid:4) (cid:2) (cid:2)(cid:3)(cid:4) (cid:2)(cid:3)(cid:4)(cid:3)(cid:5) X X X where the expansion is made unique and (cid:3)usually(cid:4) truncated in some manner(cid:11) (cid:6) In the SS(cid:16)ANOVA context(cid:8) the estimate f(cid:6) of f is obtained by (cid:23)nding f(cid:6) in an appropriate RKHS to minimize an expression similar to n (cid:6) (cid:3)yi(cid:3)f(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:4)(cid:2)(cid:5)(cid:7) (cid:8)(cid:2)(cid:4)(cid:0)J(cid:2)(cid:3)f(cid:2)(cid:4)(cid:5) (cid:8)(cid:2)(cid:4)(cid:4)(cid:0)J(cid:2)(cid:4)(cid:3)f(cid:2)(cid:4)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0) (cid:3)(cid:6)(cid:4)(cid:15)(cid:4) n (cid:2) (cid:4) i(cid:5)(cid:0) (cid:2)(cid:3)IM (cid:2)(cid:7)(cid:4)(cid:3)IM X X X (cid:3) (cid:5) whereIMisthecollection ofindicesforcomponentstobeincluded inthemodel(cid:8)andtheJ(cid:2)(cid:2)J(cid:2)(cid:4) and so forth are quadratic (cid:9)smoothness(cid:10) penalty functionals(cid:11) (cid:7) is the main smoothing parameter(cid:8) and the (cid:8)(cid:24)s aresubsidiary smoothing parameters(cid:8)satisfying an appropriate constraintforidenti(cid:23)ability(cid:11) In previous work relevant to the present paper(cid:8) a mathematical framework has been developed for (cid:23)tting these models by penalized likelihood and in particular smoothing spline methods (cid:3)Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:25)(cid:26) Chen(cid:8) Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:26) Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) Numerical methods for (cid:23)tting the smoothing spline models have been developed (cid:3)Gu(cid:8) Bates(cid:8) Chen and Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:26) Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)b(cid:4)(cid:8) and publicly available code developed (cid:3)RKPACK(cid:8) Gu(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:11) Thegoalofthepresentworkis theestablishmentofcomponent(cid:16)wise Bayesian(cid:9)con(cid:23)dence inter(cid:16) vals(cid:10) in the SS(cid:16)ANOVA context(cid:8) which generalize the univariate Bayesian (cid:9)con(cid:23)dence intervals(cid:10) of Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:8) and further studied by Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:8)Cox (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4) and Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:8) and recently extended to the non(cid:16)Gaussian case by Gu (cid:3)(cid:6)(cid:18)(cid:18)(cid:14)(cid:4)(cid:11) In this paper we derive these intervals for each component f(cid:2)(cid:2)f(cid:2)(cid:4)(cid:8) etc(cid:11) to be included in the ANOVA decomposition(cid:11) More importantly we obtain them in a manner which allows a stable and e(cid:28)cient calculation(cid:11) In addition we demonstrate how they may be computed using RKPACK(cid:11) We suggest their properties via a Monte Carlo study(cid:11) It is a major task of nonparametric regression to provide some sort of accuracy information concerning the resulting estimate(cid:11) Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4) described Bayesian (cid:9)con(cid:23)dence intervals(cid:10) for the (cid:3)one component(cid:4) smoothing spline model by deriving the posterior covariance for f given the Bayes model which is associated with spline smoothing(cid:8) and showed by a Monte Carlo study that these con(cid:23)dence intervals appeared to have a certain frequentist property for f in certain function spaces(cid:11) Thispropertyisan(cid:9)across(cid:16)the(cid:16)function(cid:10)property(cid:11) (cid:9)Across(cid:16)the(cid:16)function(cid:10)meansthatwhen restricting the (cid:18)(cid:20)(cid:29) con(cid:23)dence intervals to the n data points(cid:8) around (cid:18)(cid:20)(cid:29) of them will cover the values of the true curve there(cid:11) A partly heuristic theoretical argument why this could be expected was given in Wahba(cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:8) and later Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:8) Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:8) and Cox (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4) provided theorems concerning when and why they should work(cid:11) Other de(cid:23)nitions of (cid:14) con(cid:23)dence regions are of interest(cid:8) in particular(cid:8) a set of intervals that are required to cover (cid:6)(cid:7)(cid:7)(cid:29) of the points with probability (cid:11)(cid:18)(cid:20)(cid:11) Such intervals can be expected to be wider that the intervals considered in Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:11) See for example Li (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:8) Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:4)(cid:11) To us(cid:8) it is important and useful that the weaker de(cid:23)nition of (cid:9)con(cid:23)dence interval(cid:10) which is adopted in Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4) and assumed here leads to intervals which are easy to interpret psychologically(cid:11) In simulations(cid:8) when the intervals cover about (cid:18)(cid:20)(cid:29) of the values of the true curve at the data points(cid:8) the intervals more or less (cid:9)graze(cid:10) the truth(cid:8) and the width of the intervals is visually interpretable by an unsophisticated user as an accuracy indicator(cid:11) We note that these con(cid:23)dence intervals are not in general pointwise con(cid:23)dence intervals (cid:3)there aren(cid:24)t many (cid:9)free lunches(cid:10) in nonparametric regression(cid:4) (cid:30) the coverage will tend to be less than nominal where the true curve has sharp peaks or kinks and more where the true curve is smooth(cid:11) If the user interprets them appropriately across the function(cid:8) he or she will have a reasonable feel for the overall accuracy of the estimate(cid:11) The results of the Monte Carlo study described here are suggestive that the componentwise con(cid:23)dence intervals roughly have the same (cid:9)across(cid:16)the function(cid:10) coverage property for each com(cid:2) ponent(cid:8)intheexampleswehavechosen(cid:11) Thereadermayjudgefromtheplottedcon(cid:23)dence intervals overlaying the true function the psychological information that is conveyed by the intervals(cid:11) As a byproduct(cid:8) we obtain another useful graphical tool(cid:17) In estimating functions of two (cid:3)or more(cid:4) variables by nonparametric methods(cid:8) the data are frequently arranged irregularly(cid:11) This is particularly true for geographic data(cid:11) While it is tempting to plot the estimate in(cid:8) say(cid:8) a rectangle(cid:8) once one is su(cid:28)ciently far from the data the nonparametric estimates become meaningless(cid:11) We propose using certain contours of constant posterior standard deviation to bound an area within which the estimated function is to be displayed(cid:11) In Section (cid:14) we brie(cid:31)y review and slightly extend the SS(cid:16)ANOVA framework given in Gu and Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)a(cid:8)(cid:6)(cid:18)(cid:18)(cid:15)(cid:4)(cid:11) This will establish notation and demonstrate the key ingredients of a general SS(cid:16)ANOVA(cid:11) In Section (cid:15) we give the component(cid:16)wise posterior covariance functions(cid:11) The proof is relegated to Appendix A(cid:11) In Section (cid:21) we review some known reproducing kernels which are useful in SS(cid:16)ANOVA(cid:11) In Section (cid:20) we provide the details of how RKPACK may be used to carry out the calculations of the Bayesian (cid:9)con(cid:23)dence intervals(cid:10) (cid:8) and in Section (cid:25) we present the results of a small Monte(cid:16)Carlo study on simulated data(cid:11) In Section (cid:27) we describe the application to some data on lake acidity as a function of geographical location and calcium concentration from the (cid:15) Eastern Lake Survey (cid:3)Douglas and Delampady (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:4)(cid:11) In our original submission we suggested whatassumptions and lemmas might be necessary toextend the main theoretical results of Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4) concerning the properties of the (cid:3)single component(cid:4) Bayesian (cid:9)con(cid:23)dence intervals(cid:10) to the component(cid:16)wise case considered here(cid:11) This part has been deleted at the suggestion of the referees(cid:8) but may be found in Gu and Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:6)c(cid:4)(cid:8) Appendix B(cid:11) (cid:2) Analysis of Variance in RKHS Wewill alwaysassumethatf is in someRKHS(cid:8) thatis(cid:8) a Hilbert space offunctions in which all the point evaluations are bounded(cid:11) See Aronszajn (cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4)(cid:8) Weinert (cid:3)(cid:6)(cid:18)(cid:19)(cid:14)(cid:4)(cid:8) Mate (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:8) and Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The last two give an expository description of facts about RKHS that are used here(cid:11) Let now H be some RKHS of real(cid:16)valued functions of t (cid:2) (cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4) (cid:4) T (cid:2) T(cid:3)(cid:0)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0)(cid:5)T(cid:3)d(cid:4)(cid:8) (cid:3)(cid:2)(cid:4) where we may allow t(cid:2) (cid:4) T (cid:8) an arbitrary measureable index set(cid:8) and(cid:8) furthermore(cid:8) suppose the one dimensional space of constant functions on T is a subspace of H(cid:11) Then there are many ways that an ANOVA(cid:16)like decomposition of the form (cid:3)(cid:6)(cid:11)(cid:14)(cid:4)can be de(cid:23)ned for f in such a space(cid:11) We now (cid:3)(cid:2)(cid:4) give a general construction(cid:11) For each (cid:6) (cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)d(cid:8) construct a probability measure d(cid:9)(cid:2) on T (cid:8) with the property that the symbol (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4)(cid:8) de(cid:23)ned by (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4)(cid:2) f(cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4)d(cid:9)(cid:2)(cid:3)t(cid:2)(cid:4) T(cid:0)(cid:2)(cid:4) Z is well de(cid:23)ned and (cid:23)nite for every f (cid:4) H and t(cid:4) T (cid:3)although of course (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4) will not vary with t(cid:2)(cid:4)(cid:11) We need the further assumption(cid:8) that considering (cid:3)E(cid:2)f(cid:4)(cid:3)(cid:0)(cid:4) as a function of t(cid:8) then it de(cid:23)nes an element of H(cid:11) We will henceforth assume that this condition holds (cid:3)we will construct a generic example shortly(cid:4)(cid:8) then we can consider E(cid:2) as an operator fromH to H(cid:11) We will call such operators averaging operators(cid:11) Consider I (cid:2) (cid:3)E(cid:2)(cid:5)(cid:3)I(cid:3)E(cid:2)(cid:4)(cid:4)(cid:2) E(cid:2)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4) E(cid:4)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4)(cid:3)I(cid:3)E(cid:4)(cid:4) E(cid:5)(cid:5)(cid:0)(cid:0)(cid:0)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4)(cid:4) (cid:2) (cid:2) (cid:2) (cid:4)(cid:5)(cid:5)(cid:2) (cid:2)(cid:3)(cid:4) (cid:5)(cid:5)(cid:5)(cid:2)(cid:7)(cid:4) (cid:2) Y Y X Y X Y Y (cid:3)(cid:14)(cid:4)(cid:6)(cid:4) Thisdecompositionoftheidentitythenalwaysgeneratesaunique(cid:3)ANOVA(cid:16)like(cid:4)decompositionoff oftheform(cid:3)(cid:6)(cid:11)(cid:14)(cid:4)whereC (cid:2) (cid:3) (cid:2)E(cid:2)(cid:4)f(cid:2)f(cid:2) (cid:2) (cid:3)(cid:3)I(cid:3)E(cid:2)(cid:4) (cid:4)(cid:5)(cid:5)(cid:2)E(cid:4)(cid:4)f(cid:2)f(cid:2)(cid:4) (cid:2) (cid:3)(cid:3)I(cid:3)E(cid:2)(cid:4)(cid:3)I(cid:3)E(cid:4)(cid:4) (cid:5)(cid:5)(cid:5)(cid:2)(cid:7)(cid:4)E(cid:5)(cid:4)f(cid:8) etc(cid:8) are the mean(cid:8) main e(cid:22)ecQts(cid:8) two factorinteractioQns(cid:8) etc(cid:11) Note that the componentsQwill depend on the measures d(cid:9)(cid:2) and these should be chosen in a speci(cid:23)c application so that the (cid:23)tted mean(cid:8) main e(cid:22)ects(cid:8) etc(cid:11) have reasonable interpretations(cid:11) (cid:21) (cid:3)(cid:2)(cid:4) This construction specializes to the ordinary two way layout by taking d (cid:2) (cid:14) and T (cid:2) f(cid:6)(cid:2)(cid:14)(cid:2)(cid:4)(cid:4)(cid:4)(cid:2)K(cid:2)g for (cid:6) (cid:2) (cid:6)(cid:2)(cid:14)(cid:8) T (cid:2) T(cid:3)(cid:0)(cid:4)(cid:5)T(cid:3)(cid:2)(cid:4) and letting E(cid:0)f(cid:3)t(cid:4)(cid:2) K(cid:0)(cid:2) K(cid:5)(cid:5)(cid:2)(cid:0)f(cid:3)(cid:10)(cid:2)t(cid:2)(cid:4)(cid:8) and similarly for E(cid:2)(cid:11) f(cid:3)(cid:0)(cid:4)and (cid:3)E(cid:2)f(cid:4)(cid:3)(cid:0)(cid:4)should be thought of as K (cid:2) K(cid:0)(cid:6)K(cid:2) vectorshPere(cid:11) Although other averaging operators are obviously possible(cid:8) this pair seems to be in common use in the usual two(cid:16)way layout without much particular justi(cid:23)cation(cid:11) Note that if we adopt the ordinary Euclidean inner product for functions de(cid:23)ned on K dimensional Euclidean space(cid:8) then the ranges of the four operators E(cid:0)E(cid:2)(cid:2)E(cid:0)(cid:3)I (cid:3)E(cid:2)(cid:4)(cid:2)(cid:3)I(cid:3)E(cid:0)(cid:4)E(cid:2)(cid:8)and (cid:3)I (cid:3)E(cid:0)(cid:4)(cid:3)I (cid:3)E(cid:2)(cid:4) consist of four orthogonal subspaces of Euclidean K(cid:16)space whose direct sum is Euclidean K(cid:16)space(cid:11) In that case the components are easy to estimate and have an intuitive meaning for the user(cid:11) Note that in the usual d(cid:16)way layout(cid:8) the functions of interest are only de(cid:23)ned on the design points(cid:8) but that with the ANOVA that we will study(cid:8) the functions may have a much larger domain(cid:8) and(cid:8) although the domain is required to have a tensor product structure(cid:8) we will see that the design may not(cid:11) In the general RKHS case(cid:8) the rangeofeach operatorof theform (cid:2)(cid:2)(cid:7)(cid:6)(cid:6)(cid:6)(cid:7)(cid:2)kE(cid:2) (cid:2)k(cid:3)(cid:2)(cid:7)(cid:8)(cid:8)(cid:7)(cid:2)d(cid:3)I(cid:3)E(cid:4)(cid:4) is a subspace of H(cid:8) however(cid:8) these subspaces are not necessarily orQthogonal wiQth respect to the inner product in H(cid:11) In this paper we will restrict ourselves to ANOVA decompositions in RKHS such that the ranges of these operators are orthogonal(cid:11) This will result in components that are relatively easy to estimate and that may have an intuitive meaning for the user(cid:11) We will now show how to construct generic RKHS(cid:24)s satisfying the above conditions(cid:8) so that the subspaces which are ranges of sums of products of the E(cid:2) and I (cid:3)E(cid:2) are all orthogonal in the (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) inner product of the space(cid:11) Let H be an RKHS of functions on T with T(cid:0)(cid:2)(cid:4)f(cid:3)t(cid:2)(cid:4)d(cid:9)(cid:2) (cid:2) (cid:7)(cid:8) f (cid:4) H(cid:3)(cid:2)(cid:4)(cid:8) and let (cid:12)(cid:6)(cid:3)(cid:2)(cid:4)(cid:13) be the one dimensional space of constant functions onRT(cid:3)(cid:2)(cid:4)(cid:11) Consider the (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) space (cid:12)(cid:6) (cid:13)(cid:7)H (cid:8) where (cid:7) is tensor (cid:3)or direct(cid:4) sum(cid:11) Then any f in this space will have a unique (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) decomposition f (cid:2) Pcf (cid:5)(cid:3)f (cid:3)Pcf(cid:4)(cid:8) with Pcf (cid:2) fd(cid:9)(cid:2) (cid:4) (cid:12)(cid:6) (cid:13) and (cid:3)f (cid:3)Pcf(cid:4) (cid:4) H (cid:8) we endow this space with the square norm kfk(cid:2) (cid:2) (cid:3)Pcf(cid:4)(cid:2)(cid:5)Rkf (cid:3)Pcfk(cid:2)H(cid:0)(cid:2)(cid:4)(cid:11) Now(cid:8) let d (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) H (cid:2) (cid:5)(cid:2)(cid:5)(cid:0)(cid:12)(cid:12)(cid:6) (cid:13)(cid:7)H (cid:13)(cid:2) (cid:3)(cid:14)(cid:4)(cid:14)(cid:4) d where (cid:5)(cid:2)(cid:5)(cid:0) is the tensor product of the d Hilbert spaces in brackets(cid:11) See Aronszajn(cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4) for a detailed discussion of tensor sums and tensor products of RKHS and Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:8) Section (cid:6)(cid:7)(cid:4) for examples(cid:11) Further examples will be given later(cid:11) (cid:20) The right hand side of (cid:3)(cid:14)(cid:11)(cid:14)(cid:4) can be expanded as (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) H (cid:2) (cid:12)(cid:6)(cid:13)(cid:7) (cid:12)H (cid:13)(cid:7) (cid:12)H (cid:5)H (cid:13)(cid:7)(cid:0)(cid:0)(cid:0)(cid:2) (cid:3)(cid:14)(cid:4)(cid:15)(cid:4) (cid:2) (cid:4)(cid:3)(cid:2) X X d (cid:3)(cid:2)(cid:4) where we have written (cid:12)(cid:6)(cid:13) to denote (cid:5)(cid:2)(cid:5)(cid:0)(cid:12)(cid:6) (cid:13)(cid:8) the constant functions on T and(cid:8) with some abuse (cid:3)(cid:2)(cid:4) of notation(cid:8) we have supressed (cid:12)(cid:6) (cid:13) whenever it multiplies a term of a di(cid:22)erent form(cid:11) That is(cid:8) we (cid:3)(cid:0)(cid:4) (cid:3)(cid:0)(cid:4) d (cid:3)(cid:2)(cid:4) have written H instead of H (cid:5)(cid:2)(cid:5)(cid:2) (cid:12)(cid:6) (cid:13)(cid:8) and so forth(cid:11) Hopefully this makes clear that the terms in brackets in (cid:3)(cid:14)(cid:11)(cid:15)(cid:4) are all subspaces of functions on T(cid:8) even though the functions in them do not all depend on all of the variables t(cid:0)(cid:2)(cid:4)(cid:4)(cid:4)(cid:2)td(cid:11) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) Here f(cid:2) (cid:4) H is called a main e(cid:22)ect(cid:8) f(cid:2)(cid:4) (cid:4) H (cid:5)H is a two factor interaction(cid:8) and so forth(cid:11) We are continuing with this notational convention(cid:8) that is(cid:8) f(cid:2) is considered as an element of H even though it is a constant function of all the t(cid:4)(cid:24)s except for (cid:11) (cid:2) (cid:6)(cid:11) The subspaces in brackets in (cid:3)(cid:14)(cid:11)(cid:14)(cid:4)are all orthogonalin the tensor product norm induced by the original inner products(cid:11) Thus the decomposition of f of the form (cid:3)(cid:6)(cid:11)(cid:14)(cid:4) with C (cid:2) (cid:3) (cid:2)E(cid:2)(cid:4)f(cid:2)f(cid:2) (cid:4) H(cid:3)(cid:2)(cid:4)(cid:8)f(cid:2)(cid:4) (cid:4) H(cid:3)(cid:2)(cid:4)(cid:5)H(cid:3)(cid:4)(cid:4) will beanorthogonaldecomposition(cid:11) ForotherinterestingvieQwsofanalysis of variance(cid:8) see Antoniadis (cid:3)(cid:6)(cid:18)(cid:19)(cid:21)(cid:4) and Speed (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:11) We want one further decomposition(cid:8) to allow for the imposition of spline and related penalty (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) functionals(cid:11) Let H have an orthogonal decomposition H(cid:9) (cid:7)Hs (cid:8) where H(cid:9) is (cid:23)nite dimen(cid:16) (cid:3)(cid:2)(cid:4) sional (cid:3)the(cid:9)parametric(cid:10)part(cid:26) usually(cid:8) but not always(cid:8)polynomials(cid:4)(cid:8) and Hs (cid:3)the(cid:9)smooth(cid:10)part(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) is the orthocomplement of H(cid:9) in H (cid:11) We will later let J(cid:2)(cid:3)f(cid:2)(cid:4) (cid:2) kPs f(cid:2)kH(cid:0)(cid:2)(cid:4)(cid:8) where Ps is (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) the orthogonal projection operator in H onto Hs (cid:11) Thus the null space of J(cid:2) in H is H(cid:9) (cid:11) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) H (cid:5)H will be a direct sum of four orthogonal subspaces(cid:17) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) H (cid:5)H (cid:2) H(cid:9) (cid:5)H(cid:9) (cid:3)(cid:14)(cid:11)(cid:21)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:5) H(cid:9) (cid:5)Hs (cid:3)(cid:14)(cid:11)(cid:20)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:5) Hs (cid:5)H(cid:9) (cid:3)(cid:14)(cid:11)(cid:25)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:5) Hs (cid:5)Hs (cid:4) (cid:3)(cid:14)(cid:11)(cid:27)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) By convention the elements of the (cid:23)nite dimensional space H(cid:9) (cid:5)H(cid:9) are not penalized(cid:11) We will in Section (cid:21) let the penalties in the other subspaces be their square norms(cid:11) At this point we have (cid:3)orthogonally(cid:4) decomposed H into sums of products of unpenalized (cid:23)nite dimensional subspaces(cid:8) plus main e(cid:22)ects subspaces(cid:8) plus two factor interaction spaces of the form (cid:25) parametric (cid:5) smooth (cid:3)(cid:12)(cid:2)s(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)(cid:8) smooth (cid:5) parametric (cid:3)s(cid:2)(cid:12)(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)(cid:8) and smooth (cid:5) smooth (cid:3)s(cid:2)s(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)(cid:8) and so on for the three and higher factor subspaces(cid:11) Now we suppose that we have selected the model M(cid:8) that is(cid:8) we have decided which subspaces (cid:6) will be included(cid:11) Next(cid:8) collect all ofthe included unpenalized subspaces into a subspace(cid:8) call it H (cid:8) (cid:4) of dimension M(cid:8) and relabel the other subspaces as H (cid:2)(cid:11) (cid:2) (cid:6)(cid:2)(cid:14)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)p(cid:11) For example(cid:8) in the case (cid:3)m(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) J(cid:2)(cid:3)f(cid:2)(cid:4) (cid:2) (cid:3)f(cid:2) (cid:3)u(cid:4)(cid:4) du(cid:8) H(cid:9) is spanned by the polynomials of degree less than m in t(cid:2) which average toR(cid:7) under E(cid:2)(cid:8) and H(cid:6) is sums and products of such polynomials(cid:11) H(cid:4) may stand for a (cid:3)(cid:2)(cid:4) subspace Hs (cid:8) or one of the subspaces of the form (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)(cid:8) (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)(cid:8) (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)(cid:8) or a higher order subspace(cid:11) (cid:6) (cid:4) Our model estimation problem becomes(cid:17) (cid:23)nd f (cid:4) M(cid:2) H (cid:7) (cid:4)H to minimize n P (cid:6) (cid:3)yi(cid:3)f(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:4)(cid:2)(cid:5)(cid:7) (cid:8)(cid:4)(cid:4)(cid:0)kP(cid:4)fk(cid:2)(cid:2) (cid:3)(cid:14)(cid:4)(cid:19)(cid:4) n i(cid:5)(cid:0) (cid:3) X X (cid:4) (cid:4) (cid:6) where P is theorthogonal projectorin MontoH (cid:11) Given a basis forH (cid:8) and reproducing kernels R(cid:4)(cid:3)s(cid:2)t(cid:4) for H(cid:4)(cid:8) an explicit formula for the minimizer f(cid:6) of (cid:3)(cid:14)(cid:11)(cid:19)(cid:4) is well known(cid:26) see(cid:8) e(cid:11)g(cid:11)(cid:8) Chapter (cid:6)(cid:7) of Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The code RKPACK (cid:3)Gu(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:4) may be used to compute the GCV estimates of (cid:7) and the (cid:8)(cid:24)s(cid:11) We end this section with a few remarks concerning the choice of the probability measure (cid:9)(cid:2)(cid:11) (cid:3)(cid:2)(cid:4) In the case T consists of K(cid:2) points it is natural to use the uniform measure on the points(cid:8) in (cid:3)(cid:2)(cid:4) any case this is the common practice in (cid:3)parametric(cid:4) ANOVA(cid:11) In the case T a (cid:23)nite interval(cid:8) a natural choice(cid:8) which would lead to interpretable results(cid:8) would be to let (cid:9)(cid:2) be (cid:3)a multiple (cid:3)(cid:2)(cid:4) of(cid:4) Lebesgue measure(cid:11) In the case that the uniform measure on T cannot be scaled to be a (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4) probability measure (cid:3)i(cid:11)e(cid:11)(cid:8) if T (cid:2) E (cid:4)(cid:8) another choice must be made(cid:11) A uniform measure over a (cid:23)nite region of interest or a measure re(cid:31)ecting the observational density could be used(cid:11) In the (cid:3)(cid:2)(cid:4) examples in this paper we will use Lebesgue measure when T is (cid:12)(cid:7)(cid:8)(cid:6)(cid:13) and uniform measure on (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4) the (cid:3)marginal(cid:4) design points when T (cid:2) E (cid:11) (cid:3) Bayesian Posterior Covariances for Components In this Section we provide general formulas for the Bayesian posterior covariances for the compo(cid:16) nents of f estimated by minimizing (cid:3)(cid:14)(cid:11)(cid:19)(cid:4)(cid:11) The component(cid:16)wise Bayesian (cid:9)con(cid:23)dence intervals(cid:24) are thencomputedfromtherelevantposteriorstandarddeviations(cid:8)generalizing the(cid:3)single(cid:16)component(cid:4) (cid:27) Bayesian (cid:9)con(cid:23)dence intervals(cid:10) given in Wahba(cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:11) The computationof the relevant quantities will be discussed in Section (cid:20)(cid:11) We (cid:23)rst review some relevant facts(cid:11) Let R(cid:4)(cid:3)s(cid:2)t(cid:4) be the reproducing kernel for H(cid:4) and let (cid:13)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:13)M span H(cid:6)(cid:11) Let X(cid:10)(cid:3)t(cid:4)(cid:2)t(cid:4) T (cid:2) (cid:5)(cid:2)T(cid:3)(cid:2)(cid:4) be a stochastic process de(cid:23)ned by M p X(cid:10)(cid:3)t(cid:4) (cid:2) (cid:14)(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)(cid:5)b(cid:0)(cid:12)(cid:2) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:2) (cid:11)(cid:5)(cid:0) (cid:4)(cid:5)(cid:0) X Xq (cid:2) where (cid:14) (cid:2) (cid:3)(cid:14)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:14)M(cid:4) (cid:2) N(cid:3)(cid:7)(cid:2)(cid:15)I(cid:4)(cid:8) the Z(cid:4) are independent(cid:8) zero mean Gaussian stochastic pro(cid:16) cesses(cid:8)independent ofthe(cid:14)(cid:11)(cid:8)withEZ(cid:4)(cid:3)s(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:2) R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:11) WehaveZ(cid:3)t(cid:4)(cid:2) (cid:4) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)satis(cid:23)es EZ(cid:3)s(cid:4)Z(cid:3)t(cid:4)(cid:2) R(cid:3)s(cid:2)t(cid:4) where R(cid:3)s(cid:2)t(cid:4)(cid:8) (cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:11) P p Now(cid:8) let P Yi (cid:2) X(cid:10)(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:5)(cid:3)i(cid:2) i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)n(cid:2) (cid:2) (cid:2) where (cid:3) (cid:2)(cid:3)(cid:3)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:3)n(cid:4) (cid:2) N(cid:3)(cid:7)(cid:2)(cid:5) I(cid:4)(cid:11) Let f(cid:6)(cid:3)t(cid:4)(cid:2) limEfX(cid:10)(cid:3)t(cid:4)jYi (cid:2) yi(cid:2)i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)ng (cid:10)(cid:7)(cid:6) (cid:2) and set b(cid:2) (cid:5) (cid:16)n(cid:7)(cid:11) It is well known (cid:3)Kimeldorf and Wahba(cid:8) (cid:6)(cid:18)(cid:27)(cid:6)(cid:4)(cid:8) that M n f(cid:6)(cid:3)t(cid:4) (cid:2) d(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)(cid:5) ciR(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) (cid:3)(cid:15)(cid:4)(cid:6)(cid:4) (cid:11)(cid:5)(cid:0) i(cid:5)(cid:0) X X (cid:2) (cid:2) where d (cid:2) (cid:3)d(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)dM(cid:4) and c(cid:2) (cid:3)c(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)cn(cid:4) are given by (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) d (cid:2) (cid:3)S M S(cid:4) S M y (cid:3)(cid:15)(cid:11)(cid:14)(cid:4) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) c (cid:2) (cid:3)M (cid:3)M S(cid:3)S M S(cid:4) S M (cid:4)y (cid:3)(cid:15)(cid:11)(cid:15)(cid:4) whereS isthe n(cid:6)M matrixwithi(cid:17)thentry(cid:13)(cid:11)(cid:3)t(cid:3)i(cid:4)(cid:4)andM (cid:2) (cid:5)n(cid:7)I(cid:8)where isthe n(cid:6)nmatrix withijthentryR(cid:3)t(cid:3)i(cid:4)(cid:2)t(cid:3)j(cid:4)(cid:4)(cid:11) Itis alwaysbeing assumed thatS isoffull column rank(cid:11) Furthermore(cid:8) for any (cid:7)(cid:18) (cid:7)(cid:8) f(cid:6) is the minimizer of (cid:3)(cid:14)(cid:11)(cid:19)(cid:4)(cid:11) See also Wahba (cid:3)(cid:6)(cid:18)(cid:27)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The projections of f(cid:6) on the various subspaces are the posterior means of the corresponding components and can be read o(cid:22) of (cid:3)(cid:15)(cid:11)(cid:6)(cid:4)(cid:11) For example(cid:8) let g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)(cid:2) (cid:14)(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4) and g(cid:4)(cid:3)t(cid:4)(cid:2) b(cid:0)(cid:12)(cid:2) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:8) then we have p E(cid:3)g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)jy(cid:4) (cid:2) d(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4) n E(cid:3)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) ci(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4)(cid:4) i(cid:5)(cid:0) X The posterior covariances of g(cid:6)(cid:7)(cid:11) and g(cid:4) are summarized in the following theorem(cid:11) (cid:19) Theorem (cid:2)(cid:3)(cid:4) (cid:6)Cov(cid:3)g(cid:6)(cid:7)(cid:11)(cid:3)s(cid:4)(cid:2)g(cid:6)(cid:7)(cid:13)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:13)(cid:11)(cid:3)s(cid:4)(cid:13)(cid:13)(cid:3)t(cid:4)e(cid:2)(cid:11)(cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)e(cid:13) b (cid:6) Cov(cid:3)g(cid:4)(cid:3)s(cid:4)(cid:2)g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:3)d(cid:11)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:13)(cid:11)(cid:3)t(cid:4) b n (cid:6) Cov(cid:3)g(cid:4)(cid:3)s(cid:4)(cid:2)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:3) ci(cid:7)(cid:4)(cid:3)s(cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) b i(cid:5)(cid:0) X n (cid:6) Cov(cid:3)g(cid:5)(cid:3)s(cid:4)(cid:2)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:3) ci(cid:7)(cid:5)(cid:3)s(cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) b i(cid:5)(cid:0) X where e(cid:11) is the (cid:17)th unit vector(cid:3) and (cid:3)d(cid:0)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)dM(cid:7)(cid:4)(cid:3)s(cid:4)(cid:4) (cid:2) d(cid:4)(cid:3)s(cid:4)(cid:2) and (cid:3)c(cid:0)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)cn(cid:7)(cid:4)(cid:3)s(cid:4)(cid:4) (cid:2) c(cid:4)(cid:3)s(cid:4)(cid:2) are given by (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)(cid:6)(cid:4)(cid:4) d(cid:4)(cid:3)s(cid:4) (cid:2) (cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)S(cid:2)M(cid:4)(cid:0)(cid:6) (cid:4)(cid:4)(cid:4) (cid:8) (cid:3)(cid:15)(cid:11)(cid:21)(cid:4) B C BB (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)n(cid:4)(cid:4) CC B C (cid:7) A (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)(cid:6)(cid:4)(cid:4) c(cid:4)(cid:3)s(cid:4) (cid:2) (cid:12)M(cid:4)(cid:0)(cid:3)M(cid:4)(cid:0)S(cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)S(cid:2)M(cid:4)(cid:0)(cid:13)(cid:6) (cid:4)(cid:4)(cid:4) (cid:8) (cid:3)(cid:15)(cid:11)(cid:20)(cid:4) B C BB (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)n(cid:4)(cid:4) CC B C (cid:7) A The proof is given in Appendix A(cid:11) It is clear that the calculation of the posterior covariances boils (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) down to the calculation of (cid:3)S M S(cid:4) (cid:8) c(cid:4) and d(cid:4)(cid:8) which we will pursue in Section (cid:20)(cid:11) (cid:4) Spline Penalty Functionals and Reproducing Kernels for SS(cid:5) ANOVA Models We remind the reader (cid:3)see Aronszajn(cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4)(cid:4) that reproducing kernels (cid:3)RK(cid:24)s(cid:4) for tensor products (cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) of RKHS are just the products of the individual RK(cid:24)s(cid:11) In symbols(cid:8) if H and H are RKHS of (cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:0)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) (cid:2) functionsde(cid:23)ned onT andT respectively withRK(cid:24)sR (cid:3)t(cid:0)(cid:2)t(cid:0)(cid:4)andR (cid:3)t(cid:2)(cid:2)t(cid:2)(cid:4)thentheRK R (cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) (cid:2) (cid:2) (cid:2) (cid:2) (cid:3)(cid:0)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) (cid:2) forH (cid:5)H is the function of(cid:3)t(cid:0)(cid:2)t(cid:2)(cid:4)and (cid:3)t(cid:0)(cid:2)t(cid:2)(cid:4)given by R(cid:3)t(cid:0)(cid:2)t(cid:2)(cid:26)t(cid:0)(cid:2)t(cid:2)(cid:4) (cid:2) R (cid:3)t(cid:0)(cid:2)t(cid:0)(cid:4)R (cid:3)t(cid:2)(cid:2)t(cid:2)(cid:4)(cid:11) (cid:3)(cid:2) By iterating this process (cid:3)and silently using the fact that the RK for (cid:12)(cid:6) (cid:13) with the norm de(cid:23)ned implicitly just before (cid:3)(cid:14)(cid:11)(cid:14)(cid:4)is the constant(cid:6)(cid:4) it can be seen thatall ofthe R(cid:4)(cid:3)s(cid:2)t(cid:4) thatwe need will (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) be known once we know the reproducing kernels for the H(cid:9) and Hs (cid:11) In the simulations below (cid:3)(cid:2)(cid:4) we will use H that correspond to polynomial and thin plate splines respectively(cid:11) Examples of (cid:18)
Description: