ebook img

Smoothing Spline ANOVA with Component-Wise Bayesian \Con dence Intervals PDF

28 Pages·2009·0.37 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Smoothing Spline ANOVA with Component-Wise Bayesian \Con dence Intervals

Smoothing Spline ANOVA with Component(cid:2)Wise Bayesian (cid:3)Con(cid:4)dence Intervals(cid:5) To Appear(cid:2) J(cid:3) Computationaland Graphical Statistics CHONG GU and GRACE WAHBA(cid:0) November (cid:2)(cid:2)(cid:3) (cid:2)(cid:4)(cid:4)(cid:5) Abstract We study a multivariatesmoothingspline estimate of a function of several variables(cid:2) based on an ANOVA decomposition as sums of main e(cid:4)ect functions (cid:5)of one variable(cid:6)(cid:2) two(cid:7)factor interaction functions (cid:5)of two variables(cid:6)(cid:2) etc(cid:3) We derive the Bayesian (cid:8)con(cid:9)dence intervals(cid:10) for the components of this decomposition and demonstrate that(cid:2) even with multiple smoothing parameters(cid:2)theycanbe e(cid:11)cientlycomputedusingthe publiclyavailablecode RKPACK(cid:2)which wasoriginallydesigned just to computethe estimates(cid:3) Wecarry out asmallMonte Carlostudy toseehowcloselytheactualproperties ofthesecomponent(cid:7)wisecon(cid:9)dence intervalsmatchtheir nominal con(cid:9)dence levels(cid:3) Lastly(cid:2) we analyze some lake acidity data as a function of calcium concentration(cid:2) latitude(cid:2)andlongitude(cid:2)using bothpolynomialand thinplatespline maine(cid:4)ects in the same model(cid:3) KEYWORDS(cid:12)Bayesian(cid:8)con(cid:9)denceintervals(cid:10)(cid:13)Multivariatefunctionestimation(cid:13)RKPACK(cid:13) Smoothingspline ANOVA(cid:3) (cid:0) ChongGuchong(cid:2)pop(cid:3)stat(cid:3)purdue(cid:3)eduisAssistantProfessor(cid:2)DepartmentofStatistics(cid:2)PurdueUniversity(cid:2)West Lafayette(cid:2) IN (cid:3)(cid:4)(cid:5)(cid:6)(cid:4)(cid:7) His research was supported by the National Science Foundation under Grant DMS(cid:8)(cid:5)(cid:9)(cid:6)(cid:9)(cid:4)(cid:10)(cid:6)(cid:7) Grace Wahba wahba(cid:2)stat(cid:3)wisc(cid:3)eduis John Bascom Professor(cid:2) Department of Statistics(cid:2) University of Wisconsin(cid:2) Madison(cid:2) WI (cid:11)(cid:10)(cid:4)(cid:6)(cid:12)(cid:7) Her research was supported by the National Science Foundation under Grant DMS(cid:8)(cid:5)(cid:6)(cid:6)(cid:13)(cid:11)(cid:12)(cid:12)(cid:7) (cid:0) Introduction We consider the model yi (cid:2) f(cid:3)t(cid:0)(cid:3)i(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:3)i(cid:4)(cid:4)(cid:5)(cid:3)i(cid:2) i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)n (cid:3)(cid:6)(cid:4)(cid:6)(cid:4) (cid:2) (cid:2) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) where (cid:3)i (cid:2) N(cid:3)(cid:7)(cid:2)(cid:5) (cid:4)(cid:2)(cid:5) unknown(cid:8) and t(cid:2)(cid:8) the (cid:6)th (cid:9)variable(cid:10) is in T (cid:8) where T is some (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4) measurable space(cid:11) In the examples we will study(cid:8) either T (cid:2) (cid:12)(cid:7)(cid:2)(cid:6)(cid:13) or(cid:8) T (cid:2) E (cid:8) Euclidean k(cid:3)(cid:6)(cid:4) space(cid:8) and then t (cid:2) (cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4) is in EK space(cid:8) where K (cid:2) (cid:2)k(cid:3)(cid:6)(cid:4)(cid:11) By setting k(cid:3)(cid:6)(cid:4) to be (cid:14) or (cid:15)(cid:8) we will be able to include geographic(cid:8) atmospheric or ocePanic variables(cid:8) along with other (cid:2) concomitant variables(cid:8) in a natural way(cid:11) We wish to estimate f(cid:8) given the data y (cid:2) (cid:3)y(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)yn(cid:4)(cid:8) in suchawayastoavoidthe(cid:9)curseofdimensionality(cid:10)(cid:8) and(cid:8) in addition(cid:8) toprovide useful information concerning the accuracy of such estimates(cid:11) Nonparametric function estimation is a major research area at the present time and we just mention representative examples of modern techniques for multivariate function estimation in sev(cid:16) eral dimensions(cid:17) ACE (cid:3)Breiman and Friedman(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:8) MARS (cid:3)Friedman(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) CART (cid:3)Breiman(cid:8) Friedman(cid:8) Olshen and Stone(cid:8) (cid:6)(cid:18)(cid:19)(cid:21)(cid:4)(cid:8) Projection Pursuit (cid:3)Huber(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:8) Regression Splines (cid:3)Stone(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) the (cid:16)method (cid:3)Breiman(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) Additive Models (cid:3)Buja(cid:8) Hastie and Tibshirani(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:8) Hastie and TibshQirani(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) Neural net research is partly concerned with multivariate function estimation in thesense thatweuse it here(cid:8) see for example Moody and Utans(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:11) Each method hasunique problems and successes in providing accuracy statementswhich wewill notdiscuss here(cid:11) In this paper(cid:8) we will be providing accuracy statementswithin the frameworkof a general form ofsmoothingspline analysisofvariance(cid:3)SS(cid:16)ANOVA(cid:4)inreproducing kernelHilbert spaces(cid:3)RKHS(cid:4)(cid:11) An overview of SS(cid:16)ANOVA as it applies to polynomial splines and tensor products of polynomial splines can be found in Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) More recently this framework has been generalized to show how to include thin plate splines in an SS(cid:16)ANOVA model (cid:3)Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)a(cid:8) (cid:6)(cid:18)(cid:18)(cid:15)(cid:4)(cid:11) The use of thin plate splines as part of the SS(cid:16)ANOVA model allows the modeling of geographic and other variables as variables in main e(cid:22)ects(cid:8) interaction terms(cid:8) and so forth(cid:11) In SS(cid:16)ANOVA (cid:3)and other ANOVA in function space approaches(cid:8) see(cid:8) e(cid:11)g(cid:11) Friedman(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)(cid:4) and Stone(cid:3)(cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:4)(cid:8) f has a representation of the form f(cid:3)t(cid:4)(cid:2) C (cid:5) f(cid:2)(cid:3)t(cid:2)(cid:4)(cid:5) f(cid:2)(cid:4)(cid:3)t(cid:2)(cid:2)t(cid:4)(cid:4)(cid:5) f(cid:2)(cid:4)(cid:5)(cid:3)t(cid:2)(cid:2)t(cid:4)(cid:2)t(cid:5)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0) (cid:3)(cid:6)(cid:4)(cid:14)(cid:4) (cid:2) (cid:2)(cid:3)(cid:4) (cid:2)(cid:3)(cid:4)(cid:3)(cid:5) X X X where the expansion is made unique and (cid:3)usually(cid:4) truncated in some manner(cid:11) (cid:6) In the SS(cid:16)ANOVA context(cid:8) the estimate f(cid:6) of f is obtained by (cid:23)nding f(cid:6) in an appropriate RKHS to minimize an expression similar to n (cid:6) (cid:3)yi(cid:3)f(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:4)(cid:2)(cid:5)(cid:7) (cid:8)(cid:2)(cid:4)(cid:0)J(cid:2)(cid:3)f(cid:2)(cid:4)(cid:5) (cid:8)(cid:2)(cid:4)(cid:4)(cid:0)J(cid:2)(cid:4)(cid:3)f(cid:2)(cid:4)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0) (cid:3)(cid:6)(cid:4)(cid:15)(cid:4) n (cid:2) (cid:4) i(cid:5)(cid:0) (cid:2)(cid:3)IM (cid:2)(cid:7)(cid:4)(cid:3)IM X X X (cid:3) (cid:5) whereIMisthecollection ofindicesforcomponentstobeincluded inthemodel(cid:8)andtheJ(cid:2)(cid:2)J(cid:2)(cid:4) and so forth are quadratic (cid:9)smoothness(cid:10) penalty functionals(cid:11) (cid:7) is the main smoothing parameter(cid:8) and the (cid:8)(cid:24)s aresubsidiary smoothing parameters(cid:8)satisfying an appropriate constraintforidenti(cid:23)ability(cid:11) In previous work relevant to the present paper(cid:8) a mathematical framework has been developed for (cid:23)tting these models by penalized likelihood and in particular smoothing spline methods (cid:3)Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:25)(cid:26) Chen(cid:8) Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:26) Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) Numerical methods for (cid:23)tting the smoothing spline models have been developed (cid:3)Gu(cid:8) Bates(cid:8) Chen and Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:26) Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)b(cid:4)(cid:8) and publicly available code developed (cid:3)RKPACK(cid:8) Gu(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:11) Thegoalofthepresentworkis theestablishmentofcomponent(cid:16)wise Bayesian(cid:9)con(cid:23)dence inter(cid:16) vals(cid:10) in the SS(cid:16)ANOVA context(cid:8) which generalize the univariate Bayesian (cid:9)con(cid:23)dence intervals(cid:10) of Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:8) and further studied by Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:8)Cox (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4) and Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:8) and recently extended to the non(cid:16)Gaussian case by Gu (cid:3)(cid:6)(cid:18)(cid:18)(cid:14)(cid:4)(cid:11) In this paper we derive these intervals for each component f(cid:2)(cid:2)f(cid:2)(cid:4)(cid:8) etc(cid:11) to be included in the ANOVA decomposition(cid:11) More importantly we obtain them in a manner which allows a stable and e(cid:28)cient calculation(cid:11) In addition we demonstrate how they may be computed using RKPACK(cid:11) We suggest their properties via a Monte Carlo study(cid:11) It is a major task of nonparametric regression to provide some sort of accuracy information concerning the resulting estimate(cid:11) Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4) described Bayesian (cid:9)con(cid:23)dence intervals(cid:10) for the (cid:3)one component(cid:4) smoothing spline model by deriving the posterior covariance for f given the Bayes model which is associated with spline smoothing(cid:8) and showed by a Monte Carlo study that these con(cid:23)dence intervals appeared to have a certain frequentist property for f in certain function spaces(cid:11) Thispropertyisan(cid:9)across(cid:16)the(cid:16)function(cid:10)property(cid:11) (cid:9)Across(cid:16)the(cid:16)function(cid:10)meansthatwhen restricting the (cid:18)(cid:20)(cid:29) con(cid:23)dence intervals to the n data points(cid:8) around (cid:18)(cid:20)(cid:29) of them will cover the values of the true curve there(cid:11) A partly heuristic theoretical argument why this could be expected was given in Wahba(cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:8) and later Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:8) Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:8) and Cox (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4) provided theorems concerning when and why they should work(cid:11) Other de(cid:23)nitions of (cid:14) con(cid:23)dence regions are of interest(cid:8) in particular(cid:8) a set of intervals that are required to cover (cid:6)(cid:7)(cid:7)(cid:29) of the points with probability (cid:11)(cid:18)(cid:20)(cid:11) Such intervals can be expected to be wider that the intervals considered in Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:11) See for example Li (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:8) Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:4)(cid:11) To us(cid:8) it is important and useful that the weaker de(cid:23)nition of (cid:9)con(cid:23)dence interval(cid:10) which is adopted in Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4) and assumed here leads to intervals which are easy to interpret psychologically(cid:11) In simulations(cid:8) when the intervals cover about (cid:18)(cid:20)(cid:29) of the values of the true curve at the data points(cid:8) the intervals more or less (cid:9)graze(cid:10) the truth(cid:8) and the width of the intervals is visually interpretable by an unsophisticated user as an accuracy indicator(cid:11) We note that these con(cid:23)dence intervals are not in general pointwise con(cid:23)dence intervals (cid:3)there aren(cid:24)t many (cid:9)free lunches(cid:10) in nonparametric regression(cid:4) (cid:30) the coverage will tend to be less than nominal where the true curve has sharp peaks or kinks and more where the true curve is smooth(cid:11) If the user interprets them appropriately across the function(cid:8) he or she will have a reasonable feel for the overall accuracy of the estimate(cid:11) The results of the Monte Carlo study described here are suggestive that the componentwise con(cid:23)dence intervals roughly have the same (cid:9)across(cid:16)the function(cid:10) coverage property for each com(cid:2) ponent(cid:8)intheexampleswehavechosen(cid:11) Thereadermayjudgefromtheplottedcon(cid:23)dence intervals overlaying the true function the psychological information that is conveyed by the intervals(cid:11) As a byproduct(cid:8) we obtain another useful graphical tool(cid:17) In estimating functions of two (cid:3)or more(cid:4) variables by nonparametric methods(cid:8) the data are frequently arranged irregularly(cid:11) This is particularly true for geographic data(cid:11) While it is tempting to plot the estimate in(cid:8) say(cid:8) a rectangle(cid:8) once one is su(cid:28)ciently far from the data the nonparametric estimates become meaningless(cid:11) We propose using certain contours of constant posterior standard deviation to bound an area within which the estimated function is to be displayed(cid:11) In Section (cid:14) we brie(cid:31)y review and slightly extend the SS(cid:16)ANOVA framework given in Gu and Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)a(cid:8)(cid:6)(cid:18)(cid:18)(cid:15)(cid:4)(cid:11) This will establish notation and demonstrate the key ingredients of a general SS(cid:16)ANOVA(cid:11) In Section (cid:15) we give the component(cid:16)wise posterior covariance functions(cid:11) The proof is relegated to Appendix A(cid:11) In Section (cid:21) we review some known reproducing kernels which are useful in SS(cid:16)ANOVA(cid:11) In Section (cid:20) we provide the details of how RKPACK may be used to carry out the calculations of the Bayesian (cid:9)con(cid:23)dence intervals(cid:10) (cid:8) and in Section (cid:25) we present the results of a small Monte(cid:16)Carlo study on simulated data(cid:11) In Section (cid:27) we describe the application to some data on lake acidity as a function of geographical location and calcium concentration from the (cid:15) Eastern Lake Survey (cid:3)Douglas and Delampady (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:4)(cid:11) In our original submission we suggested whatassumptions and lemmas might be necessary toextend the main theoretical results of Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4) concerning the properties of the (cid:3)single component(cid:4) Bayesian (cid:9)con(cid:23)dence intervals(cid:10) to the component(cid:16)wise case considered here(cid:11) This part has been deleted at the suggestion of the referees(cid:8) but may be found in Gu and Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:6)c(cid:4)(cid:8) Appendix B(cid:11) (cid:2) Analysis of Variance in RKHS Wewill alwaysassumethatf is in someRKHS(cid:8) thatis(cid:8) a Hilbert space offunctions in which all the point evaluations are bounded(cid:11) See Aronszajn (cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4)(cid:8) Weinert (cid:3)(cid:6)(cid:18)(cid:19)(cid:14)(cid:4)(cid:8) Mate (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:8) and Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The last two give an expository description of facts about RKHS that are used here(cid:11) Let now H be some RKHS of real(cid:16)valued functions of t (cid:2) (cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4) (cid:4) T (cid:2) T(cid:3)(cid:0)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0)(cid:5)T(cid:3)d(cid:4)(cid:8) (cid:3)(cid:2)(cid:4) where we may allow t(cid:2) (cid:4) T (cid:8) an arbitrary measureable index set(cid:8) and(cid:8) furthermore(cid:8) suppose the one dimensional space of constant functions on T is a subspace of H(cid:11) Then there are many ways that an ANOVA(cid:16)like decomposition of the form (cid:3)(cid:6)(cid:11)(cid:14)(cid:4)can be de(cid:23)ned for f in such a space(cid:11) We now (cid:3)(cid:2)(cid:4) give a general construction(cid:11) For each (cid:6) (cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)d(cid:8) construct a probability measure d(cid:9)(cid:2) on T (cid:8) with the property that the symbol (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4)(cid:8) de(cid:23)ned by (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4)(cid:2) f(cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4)d(cid:9)(cid:2)(cid:3)t(cid:2)(cid:4) T(cid:0)(cid:2)(cid:4) Z is well de(cid:23)ned and (cid:23)nite for every f (cid:4) H and t(cid:4) T (cid:3)although of course (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4) will not vary with t(cid:2)(cid:4)(cid:11) We need the further assumption(cid:8) that considering (cid:3)E(cid:2)f(cid:4)(cid:3)(cid:0)(cid:4) as a function of t(cid:8) then it de(cid:23)nes an element of H(cid:11) We will henceforth assume that this condition holds (cid:3)we will construct a generic example shortly(cid:4)(cid:8) then we can consider E(cid:2) as an operator fromH to H(cid:11) We will call such operators averaging operators(cid:11) Consider I (cid:2) (cid:3)E(cid:2)(cid:5)(cid:3)I(cid:3)E(cid:2)(cid:4)(cid:4)(cid:2) E(cid:2)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4) E(cid:4)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4)(cid:3)I(cid:3)E(cid:4)(cid:4) E(cid:5)(cid:5)(cid:0)(cid:0)(cid:0)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4)(cid:4) (cid:2) (cid:2) (cid:2) (cid:4)(cid:5)(cid:5)(cid:2) (cid:2)(cid:3)(cid:4) (cid:5)(cid:5)(cid:5)(cid:2)(cid:7)(cid:4) (cid:2) Y Y X Y X Y Y (cid:3)(cid:14)(cid:4)(cid:6)(cid:4) Thisdecompositionoftheidentitythenalwaysgeneratesaunique(cid:3)ANOVA(cid:16)like(cid:4)decompositionoff oftheform(cid:3)(cid:6)(cid:11)(cid:14)(cid:4)whereC (cid:2) (cid:3) (cid:2)E(cid:2)(cid:4)f(cid:2)f(cid:2) (cid:2) (cid:3)(cid:3)I(cid:3)E(cid:2)(cid:4) (cid:4)(cid:5)(cid:5)(cid:2)E(cid:4)(cid:4)f(cid:2)f(cid:2)(cid:4) (cid:2) (cid:3)(cid:3)I(cid:3)E(cid:2)(cid:4)(cid:3)I(cid:3)E(cid:4)(cid:4) (cid:5)(cid:5)(cid:5)(cid:2)(cid:7)(cid:4)E(cid:5)(cid:4)f(cid:8) etc(cid:8) are the mean(cid:8) main e(cid:22)ecQts(cid:8) two factorinteractioQns(cid:8) etc(cid:11) Note that the componentsQwill depend on the measures d(cid:9)(cid:2) and these should be chosen in a speci(cid:23)c application so that the (cid:23)tted mean(cid:8) main e(cid:22)ects(cid:8) etc(cid:11) have reasonable interpretations(cid:11) (cid:21) (cid:3)(cid:2)(cid:4) This construction specializes to the ordinary two way layout by taking d (cid:2) (cid:14) and T (cid:2) f(cid:6)(cid:2)(cid:14)(cid:2)(cid:4)(cid:4)(cid:4)(cid:2)K(cid:2)g for (cid:6) (cid:2) (cid:6)(cid:2)(cid:14)(cid:8) T (cid:2) T(cid:3)(cid:0)(cid:4)(cid:5)T(cid:3)(cid:2)(cid:4) and letting E(cid:0)f(cid:3)t(cid:4)(cid:2) K(cid:0)(cid:2) K(cid:5)(cid:5)(cid:2)(cid:0)f(cid:3)(cid:10)(cid:2)t(cid:2)(cid:4)(cid:8) and similarly for E(cid:2)(cid:11) f(cid:3)(cid:0)(cid:4)and (cid:3)E(cid:2)f(cid:4)(cid:3)(cid:0)(cid:4)should be thought of as K (cid:2) K(cid:0)(cid:6)K(cid:2) vectorshPere(cid:11) Although other averaging operators are obviously possible(cid:8) this pair seems to be in common use in the usual two(cid:16)way layout without much particular justi(cid:23)cation(cid:11) Note that if we adopt the ordinary Euclidean inner product for functions de(cid:23)ned on K dimensional Euclidean space(cid:8) then the ranges of the four operators E(cid:0)E(cid:2)(cid:2)E(cid:0)(cid:3)I (cid:3)E(cid:2)(cid:4)(cid:2)(cid:3)I(cid:3)E(cid:0)(cid:4)E(cid:2)(cid:8)and (cid:3)I (cid:3)E(cid:0)(cid:4)(cid:3)I (cid:3)E(cid:2)(cid:4) consist of four orthogonal subspaces of Euclidean K(cid:16)space whose direct sum is Euclidean K(cid:16)space(cid:11) In that case the components are easy to estimate and have an intuitive meaning for the user(cid:11) Note that in the usual d(cid:16)way layout(cid:8) the functions of interest are only de(cid:23)ned on the design points(cid:8) but that with the ANOVA that we will study(cid:8) the functions may have a much larger domain(cid:8) and(cid:8) although the domain is required to have a tensor product structure(cid:8) we will see that the design may not(cid:11) In the general RKHS case(cid:8) the rangeofeach operatorof theform (cid:2)(cid:2)(cid:7)(cid:6)(cid:6)(cid:6)(cid:7)(cid:2)kE(cid:2) (cid:2)k(cid:3)(cid:2)(cid:7)(cid:8)(cid:8)(cid:7)(cid:2)d(cid:3)I(cid:3)E(cid:4)(cid:4) is a subspace of H(cid:8) however(cid:8) these subspaces are not necessarily orQthogonal wiQth respect to the inner product in H(cid:11) In this paper we will restrict ourselves to ANOVA decompositions in RKHS such that the ranges of these operators are orthogonal(cid:11) This will result in components that are relatively easy to estimate and that may have an intuitive meaning for the user(cid:11) We will now show how to construct generic RKHS(cid:24)s satisfying the above conditions(cid:8) so that the subspaces which are ranges of sums of products of the E(cid:2) and I (cid:3)E(cid:2) are all orthogonal in the (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) inner product of the space(cid:11) Let H be an RKHS of functions on T with T(cid:0)(cid:2)(cid:4)f(cid:3)t(cid:2)(cid:4)d(cid:9)(cid:2) (cid:2) (cid:7)(cid:8) f (cid:4) H(cid:3)(cid:2)(cid:4)(cid:8) and let (cid:12)(cid:6)(cid:3)(cid:2)(cid:4)(cid:13) be the one dimensional space of constant functions onRT(cid:3)(cid:2)(cid:4)(cid:11) Consider the (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) space (cid:12)(cid:6) (cid:13)(cid:7)H (cid:8) where (cid:7) is tensor (cid:3)or direct(cid:4) sum(cid:11) Then any f in this space will have a unique (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) decomposition f (cid:2) Pcf (cid:5)(cid:3)f (cid:3)Pcf(cid:4)(cid:8) with Pcf (cid:2) fd(cid:9)(cid:2) (cid:4) (cid:12)(cid:6) (cid:13) and (cid:3)f (cid:3)Pcf(cid:4) (cid:4) H (cid:8) we endow this space with the square norm kfk(cid:2) (cid:2) (cid:3)Pcf(cid:4)(cid:2)(cid:5)Rkf (cid:3)Pcfk(cid:2)H(cid:0)(cid:2)(cid:4)(cid:11) Now(cid:8) let d (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) H (cid:2) (cid:5)(cid:2)(cid:5)(cid:0)(cid:12)(cid:12)(cid:6) (cid:13)(cid:7)H (cid:13)(cid:2) (cid:3)(cid:14)(cid:4)(cid:14)(cid:4) d where (cid:5)(cid:2)(cid:5)(cid:0) is the tensor product of the d Hilbert spaces in brackets(cid:11) See Aronszajn(cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4) for a detailed discussion of tensor sums and tensor products of RKHS and Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:8) Section (cid:6)(cid:7)(cid:4) for examples(cid:11) Further examples will be given later(cid:11) (cid:20) The right hand side of (cid:3)(cid:14)(cid:11)(cid:14)(cid:4) can be expanded as (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) H (cid:2) (cid:12)(cid:6)(cid:13)(cid:7) (cid:12)H (cid:13)(cid:7) (cid:12)H (cid:5)H (cid:13)(cid:7)(cid:0)(cid:0)(cid:0)(cid:2) (cid:3)(cid:14)(cid:4)(cid:15)(cid:4) (cid:2) (cid:4)(cid:3)(cid:2) X X d (cid:3)(cid:2)(cid:4) where we have written (cid:12)(cid:6)(cid:13) to denote (cid:5)(cid:2)(cid:5)(cid:0)(cid:12)(cid:6) (cid:13)(cid:8) the constant functions on T and(cid:8) with some abuse (cid:3)(cid:2)(cid:4) of notation(cid:8) we have supressed (cid:12)(cid:6) (cid:13) whenever it multiplies a term of a di(cid:22)erent form(cid:11) That is(cid:8) we (cid:3)(cid:0)(cid:4) (cid:3)(cid:0)(cid:4) d (cid:3)(cid:2)(cid:4) have written H instead of H (cid:5)(cid:2)(cid:5)(cid:2) (cid:12)(cid:6) (cid:13)(cid:8) and so forth(cid:11) Hopefully this makes clear that the terms in brackets in (cid:3)(cid:14)(cid:11)(cid:15)(cid:4) are all subspaces of functions on T(cid:8) even though the functions in them do not all depend on all of the variables t(cid:0)(cid:2)(cid:4)(cid:4)(cid:4)(cid:2)td(cid:11) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) Here f(cid:2) (cid:4) H is called a main e(cid:22)ect(cid:8) f(cid:2)(cid:4) (cid:4) H (cid:5)H is a two factor interaction(cid:8) and so forth(cid:11) We are continuing with this notational convention(cid:8) that is(cid:8) f(cid:2) is considered as an element of H even though it is a constant function of all the t(cid:4)(cid:24)s except for (cid:11) (cid:2) (cid:6)(cid:11) The subspaces in brackets in (cid:3)(cid:14)(cid:11)(cid:14)(cid:4)are all orthogonalin the tensor product norm induced by the original inner products(cid:11) Thus the decomposition of f of the form (cid:3)(cid:6)(cid:11)(cid:14)(cid:4) with C (cid:2) (cid:3) (cid:2)E(cid:2)(cid:4)f(cid:2)f(cid:2) (cid:4) H(cid:3)(cid:2)(cid:4)(cid:8)f(cid:2)(cid:4) (cid:4) H(cid:3)(cid:2)(cid:4)(cid:5)H(cid:3)(cid:4)(cid:4) will beanorthogonaldecomposition(cid:11) ForotherinterestingvieQwsofanalysis of variance(cid:8) see Antoniadis (cid:3)(cid:6)(cid:18)(cid:19)(cid:21)(cid:4) and Speed (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:11) We want one further decomposition(cid:8) to allow for the imposition of spline and related penalty (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) functionals(cid:11) Let H have an orthogonal decomposition H(cid:9) (cid:7)Hs (cid:8) where H(cid:9) is (cid:23)nite dimen(cid:16) (cid:3)(cid:2)(cid:4) sional (cid:3)the(cid:9)parametric(cid:10)part(cid:26) usually(cid:8) but not always(cid:8)polynomials(cid:4)(cid:8) and Hs (cid:3)the(cid:9)smooth(cid:10)part(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) is the orthocomplement of H(cid:9) in H (cid:11) We will later let J(cid:2)(cid:3)f(cid:2)(cid:4) (cid:2) kPs f(cid:2)kH(cid:0)(cid:2)(cid:4)(cid:8) where Ps is (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) the orthogonal projection operator in H onto Hs (cid:11) Thus the null space of J(cid:2) in H is H(cid:9) (cid:11) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) H (cid:5)H will be a direct sum of four orthogonal subspaces(cid:17) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) H (cid:5)H (cid:2) H(cid:9) (cid:5)H(cid:9) (cid:3)(cid:14)(cid:11)(cid:21)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:5) H(cid:9) (cid:5)Hs (cid:3)(cid:14)(cid:11)(cid:20)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:5) Hs (cid:5)H(cid:9) (cid:3)(cid:14)(cid:11)(cid:25)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:5) Hs (cid:5)Hs (cid:4) (cid:3)(cid:14)(cid:11)(cid:27)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) By convention the elements of the (cid:23)nite dimensional space H(cid:9) (cid:5)H(cid:9) are not penalized(cid:11) We will in Section (cid:21) let the penalties in the other subspaces be their square norms(cid:11) At this point we have (cid:3)orthogonally(cid:4) decomposed H into sums of products of unpenalized (cid:23)nite dimensional subspaces(cid:8) plus main e(cid:22)ects subspaces(cid:8) plus two factor interaction spaces of the form (cid:25) parametric (cid:5) smooth (cid:3)(cid:12)(cid:2)s(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)(cid:8) smooth (cid:5) parametric (cid:3)s(cid:2)(cid:12)(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)(cid:8) and smooth (cid:5) smooth (cid:3)s(cid:2)s(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)(cid:8) and so on for the three and higher factor subspaces(cid:11) Now we suppose that we have selected the model M(cid:8) that is(cid:8) we have decided which subspaces (cid:6) will be included(cid:11) Next(cid:8) collect all ofthe included unpenalized subspaces into a subspace(cid:8) call it H (cid:8) (cid:4) of dimension M(cid:8) and relabel the other subspaces as H (cid:2)(cid:11) (cid:2) (cid:6)(cid:2)(cid:14)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)p(cid:11) For example(cid:8) in the case (cid:3)m(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) J(cid:2)(cid:3)f(cid:2)(cid:4) (cid:2) (cid:3)f(cid:2) (cid:3)u(cid:4)(cid:4) du(cid:8) H(cid:9) is spanned by the polynomials of degree less than m in t(cid:2) which average toR(cid:7) under E(cid:2)(cid:8) and H(cid:6) is sums and products of such polynomials(cid:11) H(cid:4) may stand for a (cid:3)(cid:2)(cid:4) subspace Hs (cid:8) or one of the subspaces of the form (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)(cid:8) (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)(cid:8) (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)(cid:8) or a higher order subspace(cid:11) (cid:6) (cid:4) Our model estimation problem becomes(cid:17) (cid:23)nd f (cid:4) M(cid:2) H (cid:7) (cid:4)H to minimize n P (cid:6) (cid:3)yi(cid:3)f(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:4)(cid:2)(cid:5)(cid:7) (cid:8)(cid:4)(cid:4)(cid:0)kP(cid:4)fk(cid:2)(cid:2) (cid:3)(cid:14)(cid:4)(cid:19)(cid:4) n i(cid:5)(cid:0) (cid:3) X X (cid:4) (cid:4) (cid:6) where P is theorthogonal projectorin MontoH (cid:11) Given a basis forH (cid:8) and reproducing kernels R(cid:4)(cid:3)s(cid:2)t(cid:4) for H(cid:4)(cid:8) an explicit formula for the minimizer f(cid:6) of (cid:3)(cid:14)(cid:11)(cid:19)(cid:4) is well known(cid:26) see(cid:8) e(cid:11)g(cid:11)(cid:8) Chapter (cid:6)(cid:7) of Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The code RKPACK (cid:3)Gu(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:4) may be used to compute the GCV estimates of (cid:7) and the (cid:8)(cid:24)s(cid:11) We end this section with a few remarks concerning the choice of the probability measure (cid:9)(cid:2)(cid:11) (cid:3)(cid:2)(cid:4) In the case T consists of K(cid:2) points it is natural to use the uniform measure on the points(cid:8) in (cid:3)(cid:2)(cid:4) any case this is the common practice in (cid:3)parametric(cid:4) ANOVA(cid:11) In the case T a (cid:23)nite interval(cid:8) a natural choice(cid:8) which would lead to interpretable results(cid:8) would be to let (cid:9)(cid:2) be (cid:3)a multiple (cid:3)(cid:2)(cid:4) of(cid:4) Lebesgue measure(cid:11) In the case that the uniform measure on T cannot be scaled to be a (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4) probability measure (cid:3)i(cid:11)e(cid:11)(cid:8) if T (cid:2) E (cid:4)(cid:8) another choice must be made(cid:11) A uniform measure over a (cid:23)nite region of interest or a measure re(cid:31)ecting the observational density could be used(cid:11) In the (cid:3)(cid:2)(cid:4) examples in this paper we will use Lebesgue measure when T is (cid:12)(cid:7)(cid:8)(cid:6)(cid:13) and uniform measure on (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4) the (cid:3)marginal(cid:4) design points when T (cid:2) E (cid:11) (cid:3) Bayesian Posterior Covariances for Components In this Section we provide general formulas for the Bayesian posterior covariances for the compo(cid:16) nents of f estimated by minimizing (cid:3)(cid:14)(cid:11)(cid:19)(cid:4)(cid:11) The component(cid:16)wise Bayesian (cid:9)con(cid:23)dence intervals(cid:24) are thencomputedfromtherelevantposteriorstandarddeviations(cid:8)generalizing the(cid:3)single(cid:16)component(cid:4) (cid:27) Bayesian (cid:9)con(cid:23)dence intervals(cid:10) given in Wahba(cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:11) The computationof the relevant quantities will be discussed in Section (cid:20)(cid:11) We (cid:23)rst review some relevant facts(cid:11) Let R(cid:4)(cid:3)s(cid:2)t(cid:4) be the reproducing kernel for H(cid:4) and let (cid:13)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:13)M span H(cid:6)(cid:11) Let X(cid:10)(cid:3)t(cid:4)(cid:2)t(cid:4) T (cid:2) (cid:5)(cid:2)T(cid:3)(cid:2)(cid:4) be a stochastic process de(cid:23)ned by M p X(cid:10)(cid:3)t(cid:4) (cid:2) (cid:14)(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)(cid:5)b(cid:0)(cid:12)(cid:2) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:2) (cid:11)(cid:5)(cid:0) (cid:4)(cid:5)(cid:0) X Xq (cid:2) where (cid:14) (cid:2) (cid:3)(cid:14)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:14)M(cid:4) (cid:2) N(cid:3)(cid:7)(cid:2)(cid:15)I(cid:4)(cid:8) the Z(cid:4) are independent(cid:8) zero mean Gaussian stochastic pro(cid:16) cesses(cid:8)independent ofthe(cid:14)(cid:11)(cid:8)withEZ(cid:4)(cid:3)s(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:2) R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:11) WehaveZ(cid:3)t(cid:4)(cid:2) (cid:4) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)satis(cid:23)es EZ(cid:3)s(cid:4)Z(cid:3)t(cid:4)(cid:2) R(cid:3)s(cid:2)t(cid:4) where R(cid:3)s(cid:2)t(cid:4)(cid:8) (cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:11) P p Now(cid:8) let P Yi (cid:2) X(cid:10)(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:5)(cid:3)i(cid:2) i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)n(cid:2) (cid:2) (cid:2) where (cid:3) (cid:2)(cid:3)(cid:3)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:3)n(cid:4) (cid:2) N(cid:3)(cid:7)(cid:2)(cid:5) I(cid:4)(cid:11) Let f(cid:6)(cid:3)t(cid:4)(cid:2) limEfX(cid:10)(cid:3)t(cid:4)jYi (cid:2) yi(cid:2)i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)ng (cid:10)(cid:7)(cid:6) (cid:2) and set b(cid:2) (cid:5) (cid:16)n(cid:7)(cid:11) It is well known (cid:3)Kimeldorf and Wahba(cid:8) (cid:6)(cid:18)(cid:27)(cid:6)(cid:4)(cid:8) that M n f(cid:6)(cid:3)t(cid:4) (cid:2) d(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)(cid:5) ciR(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) (cid:3)(cid:15)(cid:4)(cid:6)(cid:4) (cid:11)(cid:5)(cid:0) i(cid:5)(cid:0) X X (cid:2) (cid:2) where d (cid:2) (cid:3)d(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)dM(cid:4) and c(cid:2) (cid:3)c(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)cn(cid:4) are given by (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) d (cid:2) (cid:3)S M S(cid:4) S M y (cid:3)(cid:15)(cid:11)(cid:14)(cid:4) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) c (cid:2) (cid:3)M (cid:3)M S(cid:3)S M S(cid:4) S M (cid:4)y (cid:3)(cid:15)(cid:11)(cid:15)(cid:4) whereS isthe n(cid:6)M matrixwithi(cid:17)thentry(cid:13)(cid:11)(cid:3)t(cid:3)i(cid:4)(cid:4)andM (cid:2) (cid:5)n(cid:7)I(cid:8)where isthe n(cid:6)nmatrix withijthentryR(cid:3)t(cid:3)i(cid:4)(cid:2)t(cid:3)j(cid:4)(cid:4)(cid:11) Itis alwaysbeing assumed thatS isoffull column rank(cid:11) Furthermore(cid:8) for any (cid:7)(cid:18) (cid:7)(cid:8) f(cid:6) is the minimizer of (cid:3)(cid:14)(cid:11)(cid:19)(cid:4)(cid:11) See also Wahba (cid:3)(cid:6)(cid:18)(cid:27)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The projections of f(cid:6) on the various subspaces are the posterior means of the corresponding components and can be read o(cid:22) of (cid:3)(cid:15)(cid:11)(cid:6)(cid:4)(cid:11) For example(cid:8) let g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)(cid:2) (cid:14)(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4) and g(cid:4)(cid:3)t(cid:4)(cid:2) b(cid:0)(cid:12)(cid:2) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:8) then we have p E(cid:3)g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)jy(cid:4) (cid:2) d(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4) n E(cid:3)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) ci(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4)(cid:4) i(cid:5)(cid:0) X The posterior covariances of g(cid:6)(cid:7)(cid:11) and g(cid:4) are summarized in the following theorem(cid:11) (cid:19) Theorem (cid:2)(cid:3)(cid:4) (cid:6)Cov(cid:3)g(cid:6)(cid:7)(cid:11)(cid:3)s(cid:4)(cid:2)g(cid:6)(cid:7)(cid:13)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:13)(cid:11)(cid:3)s(cid:4)(cid:13)(cid:13)(cid:3)t(cid:4)e(cid:2)(cid:11)(cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)e(cid:13) b (cid:6) Cov(cid:3)g(cid:4)(cid:3)s(cid:4)(cid:2)g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:3)d(cid:11)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:13)(cid:11)(cid:3)t(cid:4) b n (cid:6) Cov(cid:3)g(cid:4)(cid:3)s(cid:4)(cid:2)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:3) ci(cid:7)(cid:4)(cid:3)s(cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) b i(cid:5)(cid:0) X n (cid:6) Cov(cid:3)g(cid:5)(cid:3)s(cid:4)(cid:2)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:3) ci(cid:7)(cid:5)(cid:3)s(cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) b i(cid:5)(cid:0) X where e(cid:11) is the (cid:17)th unit vector(cid:3) and (cid:3)d(cid:0)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)dM(cid:7)(cid:4)(cid:3)s(cid:4)(cid:4) (cid:2) d(cid:4)(cid:3)s(cid:4)(cid:2) and (cid:3)c(cid:0)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)cn(cid:7)(cid:4)(cid:3)s(cid:4)(cid:4) (cid:2) c(cid:4)(cid:3)s(cid:4)(cid:2) are given by (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)(cid:6)(cid:4)(cid:4) d(cid:4)(cid:3)s(cid:4) (cid:2) (cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)S(cid:2)M(cid:4)(cid:0)(cid:6) (cid:4)(cid:4)(cid:4) (cid:8) (cid:3)(cid:15)(cid:11)(cid:21)(cid:4) B C BB (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)n(cid:4)(cid:4) CC B C (cid:7) A (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)(cid:6)(cid:4)(cid:4) c(cid:4)(cid:3)s(cid:4) (cid:2) (cid:12)M(cid:4)(cid:0)(cid:3)M(cid:4)(cid:0)S(cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)S(cid:2)M(cid:4)(cid:0)(cid:13)(cid:6) (cid:4)(cid:4)(cid:4) (cid:8) (cid:3)(cid:15)(cid:11)(cid:20)(cid:4) B C BB (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)n(cid:4)(cid:4) CC B C (cid:7) A The proof is given in Appendix A(cid:11) It is clear that the calculation of the posterior covariances boils (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) down to the calculation of (cid:3)S M S(cid:4) (cid:8) c(cid:4) and d(cid:4)(cid:8) which we will pursue in Section (cid:20)(cid:11) (cid:4) Spline Penalty Functionals and Reproducing Kernels for SS(cid:5) ANOVA Models We remind the reader (cid:3)see Aronszajn(cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4)(cid:4) that reproducing kernels (cid:3)RK(cid:24)s(cid:4) for tensor products (cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) of RKHS are just the products of the individual RK(cid:24)s(cid:11) In symbols(cid:8) if H and H are RKHS of (cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:0)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) (cid:2) functionsde(cid:23)ned onT andT respectively withRK(cid:24)sR (cid:3)t(cid:0)(cid:2)t(cid:0)(cid:4)andR (cid:3)t(cid:2)(cid:2)t(cid:2)(cid:4)thentheRK R (cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) (cid:2) (cid:2) (cid:2) (cid:2) (cid:3)(cid:0)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) (cid:2) forH (cid:5)H is the function of(cid:3)t(cid:0)(cid:2)t(cid:2)(cid:4)and (cid:3)t(cid:0)(cid:2)t(cid:2)(cid:4)given by R(cid:3)t(cid:0)(cid:2)t(cid:2)(cid:26)t(cid:0)(cid:2)t(cid:2)(cid:4) (cid:2) R (cid:3)t(cid:0)(cid:2)t(cid:0)(cid:4)R (cid:3)t(cid:2)(cid:2)t(cid:2)(cid:4)(cid:11) (cid:3)(cid:2) By iterating this process (cid:3)and silently using the fact that the RK for (cid:12)(cid:6) (cid:13) with the norm de(cid:23)ned implicitly just before (cid:3)(cid:14)(cid:11)(cid:14)(cid:4)is the constant(cid:6)(cid:4) it can be seen thatall ofthe R(cid:4)(cid:3)s(cid:2)t(cid:4) thatwe need will (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) be known once we know the reproducing kernels for the H(cid:9) and Hs (cid:11) In the simulations below (cid:3)(cid:2)(cid:4) we will use H that correspond to polynomial and thin plate splines respectively(cid:11) Examples of (cid:18)

Description:
M span H0. Let X (t)t2 T = T() be a stochastic process de ned by. X (t) = M. X. =1. (t) + b1=2. pX In J. Moody, S. Hanson, and R. Lippman, editors,.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.