Luke
 

Variance component estimation exploiting Monte Carlo methods and linearization with complex models and large data in animal breeding

Monte Carlo -menetelmät ja linearisointi varianssikomponenttien arvioinnissa analysoitaessa suuria aineistoja vaativilla jalostusarvostelumalleilla

MTT
2014

URI

Kuvaus

Toukokuussa 2016 tämä Kaarina Matilaisen väitöskirja valittiin vuoden 2015 parhaaksi väitökseksi Helsingin yliopiston maatalous-metsätieteellisessä tiedekunnassa - Tiedote

Sisällysluettelo

This thesis is based on the following publications: I doi:10.1051/gse:2006008 II doi:10.1111/j.1439-0388.2012.01000.x III doi:10.1371/journal.pone.0080821

Tiivistelmä

Tiivistelmä Keskeinen osa eläinjalostusta on geneettisistä tekijöistä johtuvan vaihtelun erottaminen havaintojen kokonaisvaihtelusta. Geneettistä vaihtelua arvioidaan tilastotieteestä tutuilla sekamalleilla. Sekamallien sisältämien varianssikomponenttien arviointiin liittyvää teoriaa on tutkittu paljon lineaarisilla sekamalleilla. Myös epälineaarisille malleille on esitetty monia arviointimenetelmiä. Koska jalostusarvosteluissa käytettävät aineistot ja mallit ovat usein suuria, arviointimenetelmien yksi tärkeä ominaisuus on laskennallinen tehokkuus. Tämän tutkimuksen tarkoituksena oli löytää tehokas menetelmä varianssikomponenttien arviointiin analysoitaessa eläinjalostuksessa käytettäviä suuria aineistoja monimutkaisilla sekamalleilla. Erityisesti tutkimus keskittyi 1) epälineaaristen sekamallien varianssikomponenttien arviointiin mallin linearisoinnilla ja REMLtyyppisellä menetelmällä ja 2) Monte Carlo (MC) –menetelmän hyödyntämiseen sekä EM (expectation maximization) että Newtonin tyyppisissä REML-analyyseissä lineaarisille sekamalleille. Menetelmiä tutkittiin simuloiduilla aineistoilla. MC-menetelmää hyödyntävän EM REML:n soveltuvuutta testattiin myös todellisella lypsykarja-aineistolla. Linearisointi toimi kohtuullisesti simuloidulla aineistolla, joka kuvasi eläinten painon kehitystä syntymästä aikuispainoon asti. Aikuispainoon liittyvien varianssikomponenttien arvioiden luotettavuus heikkeni, kun aineisto sisälsi havaintoja ainoastaan aikuispainoa edeltävältä ajalta. Pienikin aikuispainohavaintojen lisäys kuitenkin paransi luotettavuutta. MC-menetelmää käyttävä EM REML konvergoi samoihin varianssikomponenttien arvioihin kuin analyyttinen menetelmä, eikä pieni MCotosten määrä näkynyt systemaattisena harhana arvioissa. Todellisen aineiston analyysit osoittivat MC EM REML -menetelmän olevan parempi sekä laskenta-ajaltaan että tietokoneen muistitarpeeltaan kuin analyyttinen EM REML -menetelmä. MC-menetelmän soveltaminen Newtonin tyyppisiin menetelmiin sai REMLratkaisut konvergoimaan nopeammin kuin MC EM REML:llä, mutta arvioiden otosvaihtelu oli suurempaa. Otosvaihtelun suuruus vaihteli käytetyn Newtonin menetelmän mukaan. Jokaisessa MC REML -analyysissä tarkasteltiin myös uutta konvergenssikriteeriä. Uudella kriteerillä pystyttiin vähentämään MCmenetelmästä johtuvaa vaihtelua konvergenssin seurannassa. Kriteeri toimi melko hyvin myös pienillä MC-otosmäärillä, mikä on toivottava ominaisuus analysoitaessa suuria aineistoja ja monimutkaisia malleja.
Abstract Inference for the variance components in linear mixed effects models is theoretically well understood. Many methods have also been presented for nonlinear models. Genetic evaluations in animal breeding are however characterized by the enormous size of the models and data. This means that the methods in estimation have to be computationally efficient. The purpose of this study was to find efficient methods for the estimation of the variance components for large data sets and complex mixed effects models in animal breeding. The focus of the study was, first, on the restricted maximum likelihood (REML) estimation applied to a linearized model of nonlinear mixed effects model and, second, on the REML estimation of large linear mixed effects models by the Monte Carlo (MC) method. Performance of the methods were mostly studied using simulated data sets, but the feasibility of the MC based expectation maximization (EM) REML was also studied using dairy cattle field data. The analyses of a data set mimicking pig live weights showed that linearization works moderately well when the data is good, but estimation of parameters related to adult weight becomes unstable when weight observations from the right tail of the animals’ growth curve were missing. However, the simulation study showed that having even a small proportion of animals with adult weights improved the results when compared to the estimates based on observations from prematurely slaughtered animals only. The MC based EM REML method converged to the same solutions as the analytical EM REML, and a small number of MC samples did not introduce systematic bias to the estimates of genetic parameters in the analysis of simulated dairy cattle data set. Furthermore, analyses of field data proved the MC EM REML to be superior to the analytical EM REML both in computing time and in the memory needed. Compared to MC EM REML, the MC Newton-type methods converged faster, but sampling variation of the estimates increased. Sampling variation differed somewhat also between the Newton-type methods. Developing a fast algorithm for MC based REML estimation requires a convergence criterion that is robust for sampling variation. A stopping rule that can be calculated during the analysis was introduced. The applied convergence criterion monitored the progress of convergence and was only a little influenced by MC noise. It also worked reasonably well with small number of MC samples, which is a property that may be useful for analyzing large scale and complex models.

ISBN

978-952-487-568-4

OKM-julkaisutyyppi

G5 Artikkeliväitöskirja

Julkaisusarja

MTT Science

Volyymi

Numero

30

Sivut

33 p

ISSN

1798-1824

DOI