Gradient Descent

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Gradient Descent

Mensajepor Dalamar » 01 Jul 2017 14:43

Podemos tener neuronas con activacion lineal o no lineal, en general preferimos activacion no lineal ya que nos permite aprender de forma mucho mas eficiente, la activacion lineal nos limita mucho con respecto a que podemos aprender.

Si dibujamos en un grafico 3D los pesos en dos ejes y en el eje vertical el error, tenemos una figura habitualmente concava que tiene la solucion, es decir el error minimo al fondo de la concavidad.

Segun bajamos por la superficie para encontrar este minimo, tenemos una inclinacion que es lo que utilizamos para saber si hemos llegado o no, a esto le llamamos el gradiente y al metodo gradient descent.

Si el gradiente se incrementa seguimos bajando, si deja de incrementarse retrocedemos, que nos pasemos del objetivo depende del tamaño de los pasos que demos al bajar, es lo que llamamos el "learning rate".

Sabemos que la inclinacion es la derivada y por lo tanto debe de ser la derivada de la funcion de error.
Adjuntos
perceptron_learning_rate.png
gradientdescent1.jpg
grad.png
ball.png
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!

Avatar de Usuario
Dalamar
Site Admin
Mensajes: 8927
Registrado: 09 May 2012 01:38

Re: Gradient Descent

Mensajepor Dalamar » 02 Jul 2017 12:06

1. Learning rate: Segun nos acercamos al minimo queremos avanzar mas lentamente, sabemos que estamos mas cerca del minimo debido a que la superficie es mas plana y la inclinacion es menor.

Multiplicamos el gradiente por un factor que es el learning rate.

Si el learning rate es muy pequeño tardamos mucho en encontrar el minimo, pero si es demasiado grande podemos pasarnos y no converger.

Hay optimizaciones para automatizar el proceso de seleccion de learning rates.

2. Como calculamos el Feedforward? (Es decir una prediccion basada en las entradas y pesos actuales)

Llamamos logit z a la suma de los pesos w multiplicados por las entradas x (suponemos que no hay bias b en este caso)

3. Delta Rule: No es mas que calcular cuanto tenemos que cambiar los pesos en cada iteracion, es la derivcada de la funcion de error (loss/error function) con respecto a cada uno de sus pesos.
¿Te ha gustado este hilo? Compartelo en las redes sociales para que se sume mas gente a la conversacion!


Volver a “Inteligencia Artificial”

cron

Ingresar