Toxic Comment Classification Challenge

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Toxic Comment Classification Challenge

Mensajepor Dalamar » 28 Dic 2017 10:18

Una competicion de NLP pura, clasificacion multiple, el lugar idoneo para practicar con tecnicas de NLP, redes neuronales recurrentes como LSTM/GRU y hacer ensembles interesantes.

Estoy disfrutando mucho esta competicion, creo que es una competicion en la que puedo aprender toneladas!

De momento mi weighted ensemble de 4 modelos me ha llevado a la posicion 36 (de 687), no creo que dure mucho por ahi arriba, sin trabajar duro!

Lo cierto es que estoy en tres competiciones a la vez? Tiene sentido? No seria mejor centrarme en una solo?

Como en realidad lo que hago es familiarizarme con el problema, leer foros, ver kernels y aprender alrededor de cada uno, las cuales son todas muy diferentes, veo interesante estar en varias a la vez para aprender mas de forma generica, seguramente podria puntuar mas alto enfocandome solo en una, pero me interesa mas la variedad.
Adjuntos
KaggleToxic2.jpg
KaggleToxic1.jpg
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 28 Dic 2017 13:12

Ahora mismo tengo un ensemble simple de 5 modelos, todos con el mismo peso, el ultimo que he agregado es LSTM con atencion, y he conseguido 0.041 y la posicion 31 de 760.

Siguiente paso, usar un modelo para componer el ensemble, o usar una tecnica estilo soft/hard voting.
Adjuntos
KaggleToxic3.JPG
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 28 Dic 2017 17:00

Competiciones de Kaggle con NLP y Githubs relacionados:

¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 30 Dic 2017 12:55

Correccion de errores gramaticales: (Una buena idea para mejorar)

- http://norvig.com/spell-correct.html
- https://www.kaggle.com/hiendang/auto-correct-query
- Ver el paquete de python: pyenchant
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 05 Ene 2018 07:34

Datos externos que se pueden utilizar:

Datos externos a investigar: https://conversationai.github.io/

Descargar de: https://figshare.com/articles/Wikipedia_Detox_Data/4054689

Ver notebook: https://github.com/ewulczyn/wiki-detox/blob/master/src/figshare/Wikipedia%20Talk%20Data%20-%20Getting%20Started.ipynb

Aparte de los clasicos Glove, fastText y GoogleNews:

Aqui hay un API, que se puede usar para validar: https://cloud.google.com/natural-language/
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 05 Ene 2018 16:37

Una competicion en otro website muy similar:

https://biendata.com/competition/zhihu/

Y unos githubs:

Ganador, en pyTorch: https://github.com/chenyuntc/PyTorchText
Tercero, bastante sencillo, Tensorflow/Keras: https://github.com/HouJP/zhihu-machine-learning-challenge-2017
Otro, muy completo, mucha documentacion, Tensorflow: https://github.com/HouJP/zhihu-machine-learning-challenge-2017

La conclusion es que usan word y char embeddings, con ensembles de RNNs y CNNs, hay que probarlo.
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 06 Ene 2018 10:23

Adjuntos
KerasConvolutions.JPG
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Toxic Comment Classification Challenge

Mensajepor Dalamar » 08 Ene 2018 05:48

Nos mantenemos en buena posicion 39 de 1201
Adjuntos
RankingToxic.JPG
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!


Volver a “Competiciones de Kaggle”

cron

Ingresar