Trabajo elaborado para la asignatura “Programación y manejo de datos en la era del Big Data” de la Universitat de València durante el curso 2021-2022. El repo del trabajo está aquí.

La página web de la asignatura y los trabajos de mis compañeros pueden verse aquí.


1. Introducción

Logo Disney

Este trabajo es un análisis de una de las empresas más grandes de animación actualmente,The Walt Disney Company o Disney. Se fundo en 1923 de la mano de Walt Dinsey y Roy O. Disney.

Esta empresa en la actualidad no solo produce películas de animación, tiene sus propias tiendad de comercio (DisneyStore), su propia plataforma de streaming (Disney+) y sus propios parques de atracciones (DisneyLand Paris, Disney Ornaldo, etc).

Además dicha empresa esta formada por diferentes franquicias de cine que durante varios años Disney ha comprado. Estas son: Walt Disney Pictures, Pixar Animation Studios, Marvel Studios, Lucasfilm, 20th Century Studios,Searchlight Pictures, The Muppets.

En este trabajo, también analizaremos una de estas empresas, en partícular, la que esta más enfocada a los superheroes, Marvel.

Empresas Disney

2. Datos

Los datos que se van a utilizar durante el trabajo han sido sacados de Kaggle y GitHub, en la bibliografia se encuentra el link directo.

2.1. Procesando los datos

El trabajo se ha escrito sobre 4 dataframes.

Uno de ellos engloba todos los datos de Disney y los otros tres engloban los datos de Marvel.

El primero llamado ‘aa’ tiene 6 columnas y 579 observaciones. Este es el que engloba los datos de Disney

El segundo ‘bb’ tiene 9 columnas y 595 observaciones.

El tercero ‘cc’ tiene 39646 observaciones y 12 variables.

Por último, el ‘dd’ tiene 16376 observaciones y 13 variables.

Estás tres últimas engloban los datos de Marvel.

datos1 <- here::here("datosss", "disney_movies.csv")

aa <- rio::import(datos1) 

datos2 <- here::here("datosss", "charcters_stats_a.csv")

bb <- rio::import(datos2)


datos3 <- here::here("datosss", "marvelpersonajes.csv")

cc <- rio::import(datos3)

datos4 <- here::here("datosss", "marvelwiki.csv")

dd <- rio::import(datos4)

Una vez abiertos los datos, empezamos con el análisis de la primera compañía, Diseny.


2.2 ¿Cuántas películas tiene Disney de distintos géneros?

aa %>% count(genre) %>% arrange(-n) %>% 
 ggplot(aes(reorder(genre,n),n)) + geom_col(aes(fill=genre)) + coord_flip() +
  theme(legend.position="none") + 
  ylab("Número de películas") + xlab("Género") +
  geom_text(aes(label=n), position=position_dodge(width=1), hjust=1) +
  ggtitle("Número de peliculas según su genero")

Ante el gráfico formado, podemos dictaminar que el género que dóminan las películas Disney es la comedia con 182. Seguido por el segundo gérnero de Aventuras con 129 películas. En el último puesto, tenemos el género de Performance el cual Disney nada más ha hecho dos películas.

2.3 ¿Qué 10 películas son las que más beneficios tienen?

top_10_disney <- aa %>%
  arrange(desc(total_gross)) %>%
  head(10) 

 top_10_disney_plot <- ggplot(top_10_disney) + geom_col(data = top_10_disney, mapping=aes(y=movie_title, x=total_gross, color = movie_title)) + labs(title="TOP 10 películas de Disney", y="Títulos", x="Ingresos Brutos") + theme(legend.position="none")

 ggplotly(top_10_disney_plot)

Según nos muestra tanto el gráfico como la tabla que hemos obtenido, la película que más Ingresos Brutos ha obtenido a lo largo de la historia de la compañía es Star Wars Ep. VII:The Gorce Awaken de la firma Lucas Films, con un total de 9366662225 de dólares. Seguidamente, tendríamos The Avengers de la firma Marvel con un total de 623279547 dólares. Como última de las más taquilleras, encontramos Capitán América:Civil War, también de Marvel, con un total de 408084349 dólares.

Es curioso cómo ninguna de las películas con más ingresos de Disney, no sea ninguna original de la propia empresa. Con esto podemos refutar la importancia de las firmas que conformar el total de la empresa Disney.

Final Disney

3 ¿Qué es Marvel?

Marvel Worldwide, Inc., conocida como Marvel Comics, es una editorial de historietas estadounidense creada en 1939. Pero no fue hasta los años 1990 que la compañía no se posicionó como una de las principales editoriales de cómics. El 31 de agosto de 2009, The Walt Disney Company compró Marvel Entertainment por cerca de 4 000 millones de dólares, fusionándose con esta el 1 de enero de 2010.

Logo Marvel


3.1 ¿Cuantos superheroes nuevos hay cada año?

primera_aparicion <- cc %>% 
  group_by(Year) %>% 
  count() %>% 
  ungroup() 
  
 primera_apar_plot <- ggplot(primera_aparicion, aes(Year, n)) + geom_area(fill = "black", aplha = 0.5) +geom_smooth(color = "red") + labs(title="¿Cuántos nuevos superheroes hay por año?", y="Cantidad", x="Años")
  
ggplotly(primera_apar_plot)

Frente al gráfico que vemos, podemos afirmar que el año que más personajes se crearon de la indústria Marvel fue en 1993 creandose 1317 nuevos superheroes. Y que la época más baja fue a sus inicios en 1935 creandose solo 1 superheroes. La línea roja representa el cumulo de personajes que se han ido creando, viendo que en la actualidad ese número ha disminuido (parte de los superheroes ya no aparecen en los cómics).


3.2 ¿Cuántas hombres y mujeres superheroes hay?

hombres_heroes <- dd %>% 
  select(Year, name, SEX) %>% 
  group_by(SEX) %>% 
  filter(SEX == "Male Characters") %>% 
  summarise(Total_Hombres = n()) 

hombres_heroes
SEX Total_Hombres
Male Characters 11638
mujeres_heroes <- dd %>% 
  select(Year, name, SEX) %>% 
  group_by(SEX) %>% 
  filter(SEX == "Female Characters") %>% 
  summarise(Total_Mujeres = n()) 

mujeres_heroes
SEX Total_Mujeres
Female Characters 3837

En estas dos tablas podemos ver, el número de hombre y el número de mujeres que aparecen a lo largo de los cómics. Pueden ser villanos o superheroes. Hay una clara diferencia entre los géneros y salen claramente ganando los hombres.


3.3 Cuales superheroes aparecen más por genero.

max_hombres <- dd %>% 
  select(name, SEX, APPEARANCES) %>% 
  group_by(SEX) %>% 
  filter(SEX == "Male Characters") %>% 
  head(15)

generom_plot <- ggplot(max_hombres, aes(name, APPEARANCES, color = name)) +
  geom_point() + xlab("nombres") +  theme(
  axis.text.x = element_blank()) + labs(title="Top 15 Superheroes con más apariciones", y="Apariciones", x="") + theme(legend.position="none")


ggplotly(generom_plot)

Según el gráfico, el personaje hombre que más ha aparecido a lo largo de la histórida de Marvel es Spider-Man o Peter Parker el cual aparece 4043 veces. El segundo personaje masculino que más aparece es Capitan America o Steven Rogers, el cual aparece 3360. Y el último personaje que más apariciones tiene es Stephen Strange** con 1307 apariciones.

max_mujeres <- dd %>% 
  select(name, SEX, APPEARANCES) %>% 
  group_by(SEX) %>% 
  filter(SEX == "Female Characters") %>% 
  head(15)

genero_plot <- ggplot(max_mujeres, aes(name, APPEARANCES, color = name)) +
  geom_point() + xlab("nombres") +  theme(
  axis.text.x = element_blank()) + labs(title="Top 15 Superheroinas con más apariciones", y="Apariciones", x="") +  theme(legend.position="none")


ggplotly(genero_plot)

En el caso de las mujeres, la que más aparece es Susan Storm de los 4 Fántasticos, la cual aparece un total de 1713. Seguida por Ororo Munroe o Tormenta que aparece 1512 veces. La última mujer que más apariciones ha tenido ha sido Elizabeth Brant de Spiderman, con un total de 599 apariciones.

Cabe destacar que las mujeres con mayor apariciones tienen casi las mismas que el personaje hombre con menos apariciones del gráfico anterior.


3.4 ¿Cuáles son los 5 superheroes más poderosos?

poderes_buenos <- bb %>% 
  select(Name, Alignment, Total) %>% 
  group_by(Alignment) %>% 
   slice_max(Total, n = 5) %>% 
  filter( Alignment == "good")


poderes_buenos_plot <- ggplot(poderes_buenos, aes(x = Name, y = Total, fill = Alignment)) +
  geom_col(position = "dodge")+
  coord_polar() + ggtitle("Heroes más poderosos") + theme(
  axis.text.y = element_blank()) + ylab("Poderes") + xlab("Nombres")

poderes_buenos_plot

Ante este gráfico, podemos destacar que el superheroe con más poderes de Marvel es Thor, seguido por Phoenix y terminando con The Watcher.


3.5 ¿Cuáles son los 5 villanos más poderosos?

poderes_malos <- bb %>% 
  select(Name, Alignment, Total) %>% 
  group_by(Alignment) %>% 
   slice_max(Total, n = 5) %>% 
  filter( Alignment == "bad")

poderes_malos_plot <- ggplot(poderes_malos, aes(x = Name, y = Total, fill = Alignment)) +
  geom_col(position = "dodge")+
  coord_polar() + ggtitle("Villanos más poderosos") + theme(
  axis.text.y = element_blank()) + ylab("Poderes") + xlab("Nombres")

poderes_malos_plot

Frente al gráfico, podemos afirmar que Dormammu es el villano con más poderes, seguido por Magus y el último sería Onslaught.

Personajes Marvel

4. Trabajos en los que te has basado

Para los análisis mostrados en los trabajos de GitHub mencionados en el apartado de bibliográfica.


5. Bibliografía

https://www.kaggle.com/jonspags/disney-gross-income-analysis

https://www.kaggle.com/lily1917/disney-release-eda

https://www.kaggle.com/ekrembayar/marvel-universe-civil-war





Información de mi R-sesión:

- Session info ---------------------------------------------------------------
 setting  value                       
 version  R version 4.1.1 (2021-08-10)
 os       Windows 10 x64              
 system   x86_64, mingw32             
 ui       RTerm                       
 language (EN)                        
 collate  Spanish_Spain.1252          
 ctype    Spanish_Spain.1252          
 tz       Europe/Paris                
 date     2022-01-07                  

- Packages -------------------------------------------------------------------
 package     * version    date       lib source                        
 assertthat    0.2.1      2019-03-21 [1] CRAN (R 4.1.1)                
 backports     1.2.1      2020-12-09 [1] CRAN (R 4.1.1)                
 bit           4.0.4      2020-08-04 [1] CRAN (R 4.1.1)                
 bit64         4.0.5      2020-08-30 [1] CRAN (R 4.1.1)                
 broom         0.7.9      2021-07-27 [1] CRAN (R 4.1.1)                
 bslib         0.3.0      2021-09-02 [1] CRAN (R 4.1.1)                
 cellranger    1.1.0      2016-07-27 [1] CRAN (R 4.1.1)                
 cli           3.0.1      2021-07-17 [1] CRAN (R 4.1.1)                
 clipr         0.7.1      2020-10-08 [1] CRAN (R 4.1.1)                
 colorspace    2.0-2      2021-06-24 [1] CRAN (R 4.1.1)                
 crayon        1.4.1      2021-02-08 [1] CRAN (R 4.1.1)                
 crosstalk     1.1.1      2021-01-12 [1] CRAN (R 4.1.1)                
 curl          4.3.2      2021-06-23 [1] CRAN (R 4.1.1)                
 data.table    1.14.0     2021-02-21 [1] CRAN (R 4.1.1)                
 DBI           1.1.1      2021-01-15 [1] CRAN (R 4.1.1)                
 dbplyr        2.1.1      2021-04-06 [1] CRAN (R 4.1.1)                
 desc          1.4.0      2021-09-28 [1] CRAN (R 4.1.1)                
 details       0.2.1      2020-01-12 [1] CRAN (R 4.1.1)                
 digest        0.6.27     2020-10-24 [1] CRAN (R 4.1.1)                
 dplyr       * 1.0.7      2021-06-18 [1] CRAN (R 4.1.1)                
 ellipsis      0.3.2      2021-04-29 [1] CRAN (R 4.1.1)                
 evaluate      0.14       2019-05-28 [1] CRAN (R 4.1.1)                
 fansi         0.5.0      2021-05-25 [1] CRAN (R 4.1.1)                
 farver        2.1.0      2021-02-28 [1] CRAN (R 4.1.1)                
 fastmap       1.1.0      2021-01-25 [1] CRAN (R 4.1.1)                
 forcats     * 0.5.1      2021-01-27 [1] CRAN (R 4.1.1)                
 foreign       0.8-81     2020-12-22 [2] CRAN (R 4.1.1)                
 fs            1.5.0      2020-07-31 [1] CRAN (R 4.1.1)                
 generics      0.1.0      2020-10-31 [1] CRAN (R 4.1.1)                
 ggplot2     * 3.3.5      2021-06-25 [1] CRAN (R 4.1.1)                
 glue          1.4.2      2020-08-27 [1] CRAN (R 4.1.1)                
 gtable        0.3.0      2019-03-25 [1] CRAN (R 4.1.1)                
 haven         2.4.3      2021-08-04 [1] CRAN (R 4.1.1)                
 here          1.0.1      2020-12-13 [1] CRAN (R 4.1.1)                
 highr         0.9        2021-04-16 [1] CRAN (R 4.1.1)                
 hms           1.1.0      2021-05-17 [1] CRAN (R 4.1.1)                
 htmltools     0.5.2      2021-08-25 [1] CRAN (R 4.1.1)                
 htmlwidgets   1.5.4      2021-09-08 [1] CRAN (R 4.1.1)                
 httr          1.4.2      2020-07-20 [1] CRAN (R 4.1.1)                
 jquerylib     0.1.4      2021-04-26 [1] CRAN (R 4.1.1)                
 jsonlite      1.7.2      2020-12-09 [1] CRAN (R 4.1.1)                
 klippy      * 0.0.0.9500 2021-11-12 [1] Github (rlesur/klippy@378c247)
 knitr       * 1.34       2021-09-09 [1] CRAN (R 4.1.1)                
 labeling      0.4.2      2020-10-20 [1] CRAN (R 4.1.1)                
 lattice       0.20-44    2021-05-02 [2] CRAN (R 4.1.1)                
 lazyeval      0.2.2      2019-03-15 [1] CRAN (R 4.1.1)                
 lifecycle     1.0.0      2021-02-15 [1] CRAN (R 4.1.1)                
 lubridate     1.7.10     2021-02-26 [1] CRAN (R 4.1.1)                
 magick      * 2.7.3      2021-08-18 [1] CRAN (R 4.1.1)                
 magrittr    * 2.0.1      2020-11-17 [1] CRAN (R 4.1.1)                
 Matrix        1.3-4      2021-06-01 [2] CRAN (R 4.1.1)                
 mgcv          1.8-36     2021-06-01 [2] CRAN (R 4.1.1)                
 modelr        0.1.8      2020-05-19 [1] CRAN (R 4.1.1)                
 munsell       0.5.0      2018-06-12 [1] CRAN (R 4.1.1)                
 nlme          3.1-152    2021-02-04 [2] CRAN (R 4.1.1)                
 openxlsx      4.2.4      2021-06-16 [1] CRAN (R 4.1.1)                
 pillar        1.6.2      2021-07-29 [1] CRAN (R 4.1.1)                
 pkgconfig     2.0.3      2019-09-22 [1] CRAN (R 4.1.1)                
 plotly      * 4.9.4.1    2021-06-18 [1] CRAN (R 4.1.1)                
 png         * 0.1-7      2013-12-03 [1] CRAN (R 4.1.1)                
 purrr       * 0.3.4      2020-04-17 [1] CRAN (R 4.1.1)                
 R6            2.5.1      2021-08-19 [1] CRAN (R 4.1.1)                
 Rcpp          1.0.7      2021-07-07 [1] CRAN (R 4.1.1)                
 readr       * 2.0.1      2021-08-10 [1] CRAN (R 4.1.1)                
 readxl        1.3.1      2019-03-13 [1] CRAN (R 4.1.1)                
 reprex        2.0.1      2021-08-05 [1] CRAN (R 4.1.1)                
 rio         * 0.5.27     2021-06-21 [1] CRAN (R 4.1.1)                
 rlang         0.4.11     2021-04-30 [1] CRAN (R 4.1.1)                
 rmarkdown     2.11       2021-09-14 [1] CRAN (R 4.1.1)                
 rprojroot     2.0.2      2020-11-15 [1] CRAN (R 4.1.1)                
 rstudioapi    0.13       2020-11-12 [1] CRAN (R 4.1.1)                
 rvest         1.0.1      2021-07-26 [1] CRAN (R 4.1.1)                
 sass          0.4.0      2021-05-12 [1] CRAN (R 4.1.1)                
 scales        1.1.1      2020-05-11 [1] CRAN (R 4.1.1)                
 sessioninfo   1.1.1      2018-11-05 [1] CRAN (R 4.1.1)                
 stringi       1.7.4      2021-08-25 [1] CRAN (R 4.1.1)                
 stringr     * 1.4.0      2019-02-10 [1] CRAN (R 4.1.1)                
 tibble      * 3.1.4      2021-08-25 [1] CRAN (R 4.1.1)                
 tidyr       * 1.1.3      2021-03-03 [1] CRAN (R 4.1.1)                
 tidyselect    1.1.1      2021-04-30 [1] CRAN (R 4.1.1)                
 tidyverse   * 1.3.1      2021-04-15 [1] CRAN (R 4.1.1)                
 tzdb          0.1.2      2021-07-20 [1] CRAN (R 4.1.1)                
 utf8          1.2.2      2021-07-24 [1] CRAN (R 4.1.1)                
 vctrs         0.3.8      2021-04-29 [1] CRAN (R 4.1.1)                
 viridisLite   0.4.0      2021-04-13 [1] CRAN (R 4.1.1)                
 withr         2.4.2      2021-04-18 [1] CRAN (R 4.1.1)                
 xfun          0.26       2021-09-14 [1] CRAN (R 4.1.1)                
 xml2          1.3.2      2020-04-23 [1] CRAN (R 4.1.1)                
 yaml          2.2.1      2020-02-01 [1] CRAN (R 4.1.1)                
 zip           2.2.0      2021-05-31 [1] CRAN (R 4.1.1)                

[1] C:/Users/aleix/OneDrive/Documentos/R/win-library/4.1
[2] C:/Program Files/R/R-4.1.1/library






