Makine öğrenimi algoritmasını ilk öğrendiğimde, gradyan iniş yöntemiyle tanıştım, genellikle eğiticinin eğitim algoritması olarak kullanılıyor çünkü gradyanın ters yönü yerel olarak en hızlı ve yakınsaması kolay. Unutulmamalıdır ki pek çok kişi degradenin ters yönünün en hızlı düşüş olduğunu düşünmektedir.Bu ifade ve anlayış tek taraflı ve yanlıştır. Sadece yerel olarak en hızlısıdır, küresel olarak en hızlısı değildir. Bu nedenle birçok makinenin olduğunu gözlemleyebiliriz. Öğrenme algoritmaları genellikle BP sinir ağı algoritmaları gibi yerel optimumlara düşer.
Gradyanı anlamak için, önce yönlü türevle başlamalıyız. Daha önce öğrendiğimiz kısmi türev, koordinat ekseni boyunca çok değişkenli fonksiyonun değişim oranını ifade eder, ancak genellikle herhangi bir yöntem boyunca çok değişkenli fonksiyonun değişim oranını önemsiyoruz, sonra yönlü türev türetilir. .
F (x + Dx, y + Dy) -f (x, y) Değer1'in değerinin PP1'in uzaklık değeri2'ye oranının PP1 doğrultusundaki türev olarak uç değerine diyoruz.
Aynısı üç boyutlu uzay için de geçerlidir.Yönlü türev, belirli bir noktadaki herhangi bir yöndeki değişim oranı ile yönlü türev arasındaki farkı incelemektir. Gradyan bir değer değil, bir vektördür.Bu vektör hangi özel vektördür? Yani gradyan, her bir türevdeki en büyük değişim trendinin olduğu yönü temsil eder.
Aşağıdaki gibi tanımlanır:
O halde gradyan ile yönün türevi arasındaki ilişki aşağıdaki gibidir:
Buradan elde edilebilir, ancak yalnızca 0 derece olduğunda, yönlü türev en büyüktür ve 180 derece olduğunda, yönlü türev en büyük negatiftir, bu nedenle degradenin ters yönü, fonksiyonun yerel alanındaki en hızlı düşüştür.