Please use this identifier to cite or link to this item: http://hdl.handle.net/2445/65123
Title: Optimal personalized treatment learning models with insurance applications
Author: Guelman, Leo
Director/Tutor: Guillén, Montserrat
Keywords: Estadística econòmica
Assegurances
Inferència
Màrqueting
Economic statistics
Insurance
Inference
Marketing
Issue Date: 2-Mar-2015
Publisher: Universitat de Barcelona
Abstract: [spa] En muchas situaciones importantes, los individuos pueden mostrar una heterogeneidad significativa en respuesta a un estímulo o “tratamiento”. Por ejemplo, un tratamiento que funciona para una población en general, podría ser altamente ineficiente o incluso perjudicial para un subgrupo de individuos con características específicas. Del mismo modo, un tratamiento nuevo puede no ser mejor que uno existente en relación a la población general, pero es probable que un subgrupo de individuos se beneficie con el mismo. La idea de aplicar tratamientos personalizados es cada vez más reconocida en una amplia variedad de campos, que van desde la medicina hasta la economía. Esto ha puesto el foco de atención en la medición de la eficacia que un determinado tratamiento tiene sobre un individuo, de modo de seleccionar el tratamiento personalizado óptimo para el mismo. Un tratamiento personalizado óptimo es aquel que maximiza la probabilidad de un resultado deseable. Llamamos a los modelos estadísticos que tienen como objetivo modelar el tratamiento personalizado óptimo “personalizad treatment learning (PTL) models”. Desde la perspectiva de modelización estadística, la construcción de modelos PTL impone importantes retos, principalmente debido a que el tratamiento óptimo es desconocido en un conjunto de datos de entrenamiento dado. En esta tesis, formalizamos el problema de PTL desde una perspectiva de inferencia causal y proporcionamos una descripción completa de los métodos existentes para resolver este problema. Contribuimos a la literatura de modelos PTL proponiendo dos nuevos métodos: “uplift random forests” y “causal conditional inference forests”. Nuestra propuesta supera a los métodos existentes de acuerdo a los resultados obtenidos de una extensa simulación numérica y datos reales. Luego introducimos el concepto de modelos PTL a marketing y a la fijación del precio en el mercado de seguros. En particular, contribuimos a la literatura de seguros en estas áreas, proponiendo métodos de PTL para optimizar la retención de clientes y la venta cruzada de seguros a partir de datos experimentales. También ilustramos una aplicación de estos métodos a la estimación de la elasticidad-­‐precio y a la optimización económica de precios en el contexto de datos observacionales. En el campo de los seguros, la selección del tratamiento personalizado óptimo también requiere considerar las pérdidas esperadas de cada asegurado dentro de una cartera. Contribuimos a la literatura de fijación de precios de seguros, proponiendo una nueva aplicación de modelos “gradient boosting trees” para estimar el costo relacionado con la pérdida esperada del seguro. Este método tiene ventajas claves sobre el enfoque convencional, que se basa en “generalized linear models”. Un problema clave que enfrenta la investigación en este campo ha sido la falta de software estadístico a disposición del público para estimar modelos PTL. Ponemos a disposición pública la mayoría de los métodos existentes para la estimación de estos modelos, incluyendo los de desarrollo propio, en un paquete llamado “uplift” bajo el software estadístico R.
[eng] In many important settings, subjects can show significant heterogeneity in response to a stimulus or “treatment". For instance, a treatment that works for the overall population might be highly inefiective, or even harmful, for a subgroup of subjects with specific characteristics. Similarly, a new treatment may not be better than an existing treatment in the overall population, but there is likely a subgroup of subjects who would benefit from it. The notion that “one size may not fit all" is becoming increasingly recognized in a wide variety of fields, ranging from economics to medicine. This has drawn significant attention to personalize the choice of treatment, so it is optimal for each individual. An optimal personalized treatment is the one that maximizes the probability of a desirable outcome. We call the task of learning the optimal personalized treatment personalized treatment learning (PTL). From the statistical learning perspective, building PTL models imposes important challenges, primarily because the optimal treatment is unknown on a given training data set. In this thesis, we formalize the PTL problem from a causal inference perspective and provide a comprehensive description of the existing methods to solve this problem. We contribute to the PTL literature by proposing two novel methods, namely uplift random forests and causal conditional inference forests. Our proposal outperforms the existing methods based on an extensive numerical simulation and real-world data. Next, we introduce the concept of PTL models to insurance marketing and pricing applications. In particular, we contribute to the Insurance literature in these areas by proposing PTL methods to optimize client retention and cross-selling in insurance from experimental data. We also illustrate an application of these methods to price-elasticity estimation and insurance economic price optimization in the context of observational data. In the insurance field, the selection of the optimal personalized treatment also requires consideration of the expected insurance losses of each individual policyholder within the portfolio. We contribute to the non-life insurance ratemaking literature by proposing a novel application of gradient boosting models to estimate insurance loss cost, with key important advantages over the conventional generalized linear model approach. A key problem facing research in this field, has been the lack of publicly available statistical software to estimate PTL models. We implement most of the existing methods for fitting these models, as well as our proposed ones, in a package named uplift, which is now released and freely available from the CRAN (Comprehensive R Archive Network) repository under the R statistical computing environment.
URI: http://hdl.handle.net/2445/65123
Appears in Collections:Tesis Doctorals - Departament - Econometria, Estadística i Economia Espanyola

Files in This Item:
File Description SizeFormat 
Leo Guelman_PhD_THESIS.pdf2.54 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.