Variance component estimation exploiting Monte Carlo methods and linearization with complex models and large data in animal breeding
Matilainen, Kaarina (2014)
Matilainen, Kaarina
Julkaisusarja
MTT Science
Numero
30
Sivut
33 p
MTT
2014
Julkaisun pysyvä osoite on
http://urn.fi/URN:ISBN:978-952-487-569-1
http://urn.fi/URN:ISBN:978-952-487-569-1
Kuvaus
Toukokuussa 2016 tämä Kaarina Matilaisen väitöskirja valittiin vuoden 2015 parhaaksi väitökseksi Helsingin yliopiston maatalous-metsätieteellisessä tiedekunnassa - Tiedote
Sisällysluettelo
This thesis is based on the following publications:
I doi:10.1051/gse:2006008
II doi:10.1111/j.1439-0388.2012.01000.x
III doi:10.1371/journal.pone.0080821
I doi:10.1051/gse:2006008
II doi:10.1111/j.1439-0388.2012.01000.x
III doi:10.1371/journal.pone.0080821
Tiivistelmä
Tiivistelmä
Keskeinen osa eläinjalostusta on geneettisistä tekijöistä johtuvan vaihtelun erottaminen havaintojen kokonaisvaihtelusta. Geneettistä vaihtelua arvioidaan tilastotieteestä tutuilla sekamalleilla. Sekamallien sisältämien varianssikomponenttien arviointiin liittyvää teoriaa on tutkittu paljon lineaarisilla sekamalleilla. Myös epälineaarisille malleille on esitetty monia arviointimenetelmiä. Koska jalostusarvosteluissa käytettävät aineistot ja mallit ovat usein suuria, arviointimenetelmien yksi tärkeä ominaisuus on laskennallinen tehokkuus.
Tämän tutkimuksen tarkoituksena oli löytää tehokas menetelmä varianssikomponenttien arviointiin analysoitaessa eläinjalostuksessa käytettäviä suuria aineistoja monimutkaisilla sekamalleilla. Erityisesti tutkimus keskittyi 1) epälineaaristen sekamallien varianssikomponenttien arviointiin mallin linearisoinnilla ja REMLtyyppisellä menetelmällä ja 2) Monte Carlo (MC) –menetelmän hyödyntämiseen sekä EM (expectation maximization) että Newtonin tyyppisissä REML-analyyseissä lineaarisille sekamalleille.
Menetelmiä tutkittiin simuloiduilla aineistoilla. MC-menetelmää hyödyntävän EM REML:n soveltuvuutta testattiin myös todellisella lypsykarja-aineistolla. Linearisointi toimi kohtuullisesti simuloidulla aineistolla, joka kuvasi eläinten painon kehitystä syntymästä aikuispainoon asti. Aikuispainoon liittyvien varianssikomponenttien arvioiden luotettavuus heikkeni, kun aineisto sisälsi havaintoja ainoastaan aikuispainoa edeltävältä ajalta. Pienikin aikuispainohavaintojen lisäys kuitenkin paransi luotettavuutta.
MC-menetelmää käyttävä EM REML konvergoi samoihin varianssikomponenttien arvioihin kuin analyyttinen menetelmä, eikä pieni MCotosten määrä näkynyt systemaattisena harhana arvioissa. Todellisen aineiston analyysit osoittivat MC EM REML -menetelmän olevan parempi sekä laskenta-ajaltaan että tietokoneen muistitarpeeltaan kuin analyyttinen EM REML -menetelmä. MC-menetelmän soveltaminen Newtonin tyyppisiin menetelmiin sai REMLratkaisut konvergoimaan nopeammin kuin MC EM REML:llä, mutta arvioiden otosvaihtelu oli suurempaa. Otosvaihtelun suuruus vaihteli käytetyn Newtonin menetelmän mukaan.
Jokaisessa MC REML -analyysissä tarkasteltiin myös uutta konvergenssikriteeriä. Uudella kriteerillä pystyttiin vähentämään MCmenetelmästä johtuvaa vaihtelua konvergenssin seurannassa. Kriteeri toimi melko hyvin myös pienillä MC-otosmäärillä, mikä on toivottava ominaisuus analysoitaessa suuria aineistoja ja monimutkaisia malleja. Abstract
Inference for the variance components in linear mixed effects models is theoretically well understood. Many methods have also been presented for nonlinear models. Genetic evaluations in animal breeding are however characterized by the enormous size of the models and data. This means that the methods in estimation have to be computationally efficient. The purpose of this study was to find efficient methods for the estimation of the variance components for large data sets and complex mixed effects models in animal breeding.
The focus of the study was, first, on the restricted maximum likelihood (REML) estimation applied to a linearized model of nonlinear mixed effects model and, second, on the REML estimation of large linear mixed effects models by the Monte Carlo (MC) method. Performance of the methods were mostly studied using simulated data sets, but the feasibility of the MC based expectation maximization (EM) REML was also studied using dairy cattle field data.
The analyses of a data set mimicking pig live weights showed that linearization works moderately well when the data is good, but estimation of parameters related to adult weight becomes unstable when weight observations from the right tail of the animals’ growth curve were missing. However, the simulation study showed that having even a small proportion of animals with adult weights improved the results when compared to the estimates based on observations from prematurely slaughtered animals only.
The MC based EM REML method converged to the same solutions as the analytical EM REML, and a small number of MC samples did not introduce systematic bias to the estimates of genetic parameters in the analysis of simulated dairy cattle data set. Furthermore, analyses of field data proved the MC EM REML to be superior to the analytical EM REML both in computing time and in the memory needed. Compared to MC EM REML, the MC Newton-type methods converged faster, but sampling variation of the estimates increased. Sampling variation differed somewhat also between the Newton-type methods.
Developing a fast algorithm for MC based REML estimation requires a convergence criterion that is robust for sampling variation. A stopping rule that can be calculated during the analysis was introduced. The applied convergence criterion monitored the progress of convergence and was only a little influenced by MC noise. It also worked reasonably well with small number of MC samples, which is a property that may be useful for analyzing large scale and complex models.
Keskeinen osa eläinjalostusta on geneettisistä tekijöistä johtuvan vaihtelun erottaminen havaintojen kokonaisvaihtelusta. Geneettistä vaihtelua arvioidaan tilastotieteestä tutuilla sekamalleilla. Sekamallien sisältämien varianssikomponenttien arviointiin liittyvää teoriaa on tutkittu paljon lineaarisilla sekamalleilla. Myös epälineaarisille malleille on esitetty monia arviointimenetelmiä. Koska jalostusarvosteluissa käytettävät aineistot ja mallit ovat usein suuria, arviointimenetelmien yksi tärkeä ominaisuus on laskennallinen tehokkuus.
Tämän tutkimuksen tarkoituksena oli löytää tehokas menetelmä varianssikomponenttien arviointiin analysoitaessa eläinjalostuksessa käytettäviä suuria aineistoja monimutkaisilla sekamalleilla. Erityisesti tutkimus keskittyi 1) epälineaaristen sekamallien varianssikomponenttien arviointiin mallin linearisoinnilla ja REMLtyyppisellä menetelmällä ja 2) Monte Carlo (MC) –menetelmän hyödyntämiseen sekä EM (expectation maximization) että Newtonin tyyppisissä REML-analyyseissä lineaarisille sekamalleille.
Menetelmiä tutkittiin simuloiduilla aineistoilla. MC-menetelmää hyödyntävän EM REML:n soveltuvuutta testattiin myös todellisella lypsykarja-aineistolla. Linearisointi toimi kohtuullisesti simuloidulla aineistolla, joka kuvasi eläinten painon kehitystä syntymästä aikuispainoon asti. Aikuispainoon liittyvien varianssikomponenttien arvioiden luotettavuus heikkeni, kun aineisto sisälsi havaintoja ainoastaan aikuispainoa edeltävältä ajalta. Pienikin aikuispainohavaintojen lisäys kuitenkin paransi luotettavuutta.
MC-menetelmää käyttävä EM REML konvergoi samoihin varianssikomponenttien arvioihin kuin analyyttinen menetelmä, eikä pieni MCotosten määrä näkynyt systemaattisena harhana arvioissa. Todellisen aineiston analyysit osoittivat MC EM REML -menetelmän olevan parempi sekä laskenta-ajaltaan että tietokoneen muistitarpeeltaan kuin analyyttinen EM REML -menetelmä. MC-menetelmän soveltaminen Newtonin tyyppisiin menetelmiin sai REMLratkaisut konvergoimaan nopeammin kuin MC EM REML:llä, mutta arvioiden otosvaihtelu oli suurempaa. Otosvaihtelun suuruus vaihteli käytetyn Newtonin menetelmän mukaan.
Jokaisessa MC REML -analyysissä tarkasteltiin myös uutta konvergenssikriteeriä. Uudella kriteerillä pystyttiin vähentämään MCmenetelmästä johtuvaa vaihtelua konvergenssin seurannassa. Kriteeri toimi melko hyvin myös pienillä MC-otosmäärillä, mikä on toivottava ominaisuus analysoitaessa suuria aineistoja ja monimutkaisia malleja.
Inference for the variance components in linear mixed effects models is theoretically well understood. Many methods have also been presented for nonlinear models. Genetic evaluations in animal breeding are however characterized by the enormous size of the models and data. This means that the methods in estimation have to be computationally efficient. The purpose of this study was to find efficient methods for the estimation of the variance components for large data sets and complex mixed effects models in animal breeding.
The focus of the study was, first, on the restricted maximum likelihood (REML) estimation applied to a linearized model of nonlinear mixed effects model and, second, on the REML estimation of large linear mixed effects models by the Monte Carlo (MC) method. Performance of the methods were mostly studied using simulated data sets, but the feasibility of the MC based expectation maximization (EM) REML was also studied using dairy cattle field data.
The analyses of a data set mimicking pig live weights showed that linearization works moderately well when the data is good, but estimation of parameters related to adult weight becomes unstable when weight observations from the right tail of the animals’ growth curve were missing. However, the simulation study showed that having even a small proportion of animals with adult weights improved the results when compared to the estimates based on observations from prematurely slaughtered animals only.
The MC based EM REML method converged to the same solutions as the analytical EM REML, and a small number of MC samples did not introduce systematic bias to the estimates of genetic parameters in the analysis of simulated dairy cattle data set. Furthermore, analyses of field data proved the MC EM REML to be superior to the analytical EM REML both in computing time and in the memory needed. Compared to MC EM REML, the MC Newton-type methods converged faster, but sampling variation of the estimates increased. Sampling variation differed somewhat also between the Newton-type methods.
Developing a fast algorithm for MC based REML estimation requires a convergence criterion that is robust for sampling variation. A stopping rule that can be calculated during the analysis was introduced. The applied convergence criterion monitored the progress of convergence and was only a little influenced by MC noise. It also worked reasonably well with small number of MC samples, which is a property that may be useful for analyzing large scale and complex models.
Collections
- MTT Tiede [30]