Поиск по сайту:

Что вам нужно знать, прежде чем приступить к работе: краткий обзор предварительных требований по исчислению


Ранее мы видели, что исчисление — это одна из основных математических концепций машинного обучения, которая позволяет нам понять внутреннюю работу различных алгоритмов машинного обучения.

Исчисление, в свою очередь, основывается на нескольких фундаментальных концепциях, заимствованных из алгебры и геометрии. Важность наличия этих основ под рукой станет еще более важной, когда мы пройдемся по более сложным темам исчисления, таким как оценка пределов и вычисление производных, и это лишь некоторые из них.

В этом уроке вы откроете для себя несколько предварительных условий, которые помогут вам работать с математическим анализом.

После завершения этого урока вы будете знать:

  • Линейные и нелинейные функции занимают центральное место в исчислении и машинном обучении, и многие задачи исчисления связаны с их использованием.
  • Фундаментальные понятия алгебры и тригонометрии составляют основу исчисления и станут особенно важными, когда мы будем заниматься более сложными темами исчисления.

Давайте начнем.

Обзор руководства

Этот урок разделен на три части; они есть:

  • Понятие функции
  • Основы предалгебры и алгебры
  • Основы тригонометрии

Понятие функции

Функция — это правило, определяющее связь между зависимой и независимой переменной.

Примеры повсюду вокруг нас: средняя дневная температура в вашем городе зависит от времени года и является его функцией; расстояние, на которое упал объект, зависит от того, сколько времени прошло с тех пор, как вы его уронили; площадь круга является функцией его радиуса; а давление замкнутого газа является функцией его температуры.

- Стр. 43, Исчисление для чайников, 2016.

В машинном обучении нейронная сеть изучает функцию, с помощью которой она может представлять взаимосвязь между признаками на входе (независимая переменная) и ожидаемым результатом (зависимая переменная). Таким образом, в таком сценарии изученная функция определяет детерминированное сопоставление между входными значениями и одним или несколькими выходными значениями. Мы можем представить это отображение следующим образом:

Выход(ы)=функция(Входы)

Однако более формально функция часто представляется как y=f(x), что переводится как y является функцией х. Это обозначение определяет x как независимую входную переменную, которую мы уже знаем, тогда как y — это зависимую выходную переменную, которую мы хотим найти. Например, если мы рассмотрим функцию возведения в квадрат f(x)=x2, то при вводе значения из 3 даст результат 9:

y=f(3)=9

Функцию также можно представить графически в виде графика на координатной плоскости x-y.

Под графиком функции f мы подразумеваем совокупность всех точек (x, f(x)).

- Страница 13, «Автостопом по исчислению», 2019.

При построении графика функции независимая входная переменная размещается на оси x, а зависимая выходная переменная — на оси y. График помогает лучше проиллюстрировать взаимосвязь между независимыми и зависимыми переменными: растет или падает график (а, следовательно, и взаимосвязь), и с какой скоростью?

Прямая линия — одна из простейших функций, которую можно отобразить на координатной плоскости. Возьмем, к примеру, график линии y=3x + 5:

Эту прямую линию можно описать с помощью линейной функции, названной так потому, что выходные данные изменяются пропорционально любому изменению входных данных. Линейную функцию, описывающую эту прямую, можно представить в виде точки пересечения наклона, где наклон обозначается m, а точка пересечения y - c< /я>:

f(x)=mx + c=3x + 5

Мы видели, как рассчитать наклон, когда рассматривали тему скорости изменения.

Если бы нам пришлось рассмотреть частный случай установки наклона равным нулю, результирующая горизонтальная линия описывалась бы константой функцией вида:

f(x)=c=5

В контексте машинного обучения расчет, определяемый такой линейной функцией, реализуется каждым нейроном нейронной сети. В частности, каждый нейрон получает набор из n входных данных, xi< /sub>, из предыдущего слоя нейронов или из обучающих данных, и вычисляет взвешенную сумму этих входных данных (где вес, wi — более распространенный термин для обозначения наклона m в машинном обучении) для получения результата z:

Процесс обучения нейронной сети включает в себя изучение весов, которые лучше всего представляют шаблоны во входном наборе данных, и этот процесс выполняется алгоритмом градиентного спуска.

Помимо линейной функции существует еще одно семейство нелинейных функций.

Простейшей из всех нелинейных функций можно считать параболу, которую можно описать следующим образом:

y=f(x)=x2

Построив график, мы обнаружим, что это четная функция, поскольку она симметрична относительно оси y и никогда не опускается ниже оси x.

Тем не менее, нелинейные функции могут принимать самые разные формы. Рассмотрим, например, показательную функцию вида f(x)=bx, который растет или затухает бесконечно или монотонно, в зависимости от значения x:

Или логарифмическая функция вида f(x)=log2< i>x, которая аналогична экспоненциальной функции, но с переключенными осями x- и y:

Особый интерес для глубокого обучения представляют нелинейные функции логистики, танха и выпрямленных линейных единиц (ReLU), которые служат функциями активации:

Важность этих функций активации заключается во введении нелинейного отображения в обработку нейрона. Если бы нам пришлось полагаться исключительно на линейную регрессию, выполняемую каждым нейроном при вычислении взвешенной суммы входных данных, то мы были бы ограничены изучением только линейного сопоставления входных данных с выходными. Однако многие отношения в реальном мире более сложны, и линейное отображение не позволяет точно их смоделировать. Введение нелинейности в выходной сигнал z нейрона позволяет нейронной сети моделировать такие нелинейные отношения:

Выход=активационная_функция (z)

… нейрон, фундаментальный строительный блок нейронных сетей и глубокого обучения, определяется простой двухэтапной последовательностью операций: вычислением взвешенной суммы и последующей передачей результата через функцию активации.

- Страница 76, Глубокое обучение, 2019.

Нелинейные функции появляются и в других местах процесса обучения нейронной сети — в виде функций ошибок.

Нелинейную функцию ошибок можно создать путем расчета ошибки между прогнозируемыми и целевыми выходными значениями при изменении весов модели. Его форма может быть простой, как парабола, но чаще всего она характеризуется множеством локальных минимумов и седловых точек. Алгоритм градиентного спуска спускается по этой нелинейной функции ошибок, вычисляя наклон касательной линии, которая касается кривой в каком-то конкретном случае: еще одна важная концепция в исчислении, которая позволяет нам анализировать сложные изогнутые функции путем разрезания их на множество бесконечно малых прямых частей, расположенных рядом друг с другом.

Основы предалгебры и алгебры

Алгебра является одной из важных основ исчисления.

Алгебра — язык исчисления. Вы не можете заниматься математическим анализом, не зная алгебры, так же, как вы не можете писать китайские стихи, не зная китайского языка.

- Страница 29, Исчисление для чайников, 2016.

Есть несколько фундаментальных понятий алгебры, которые могут оказаться полезными для исчисления, например, понятия о дробях, степенях, квадратных корнях и логарифмах.

Давайте сначала начнем с повторения основ работы с дробями.

  • Деление на ноль: знаменатель дроби никогда не может быть равен нулю. Например, результат такой дроби, как 5/0, не определен. Интуиция заключается в том, что вы никогда не сможете сложить значение в числителе, используя кратные нулю в знаменателе.
  • Взаимная: обратная дробь является ее мультипликативной обратной величиной. Проще говоря, чтобы найти обратную дробь, переверните ее вверх дном. Следовательно, обратная величина 3/4, например, становится 4/3.
  • Умножение дробей. Умножение дробей так же просто, как умножение числителей и умножение знаменателей:

(a/b) * (c/d)=ac/bd

  • Деление дробей: Деление дробей очень похоже на умножение, но с дополнительным шагом; перед умножением сначала находится обратная величина второй дроби. Следовательно, снова рассматривая две родовые дроби:

(a/b) ÷ (c/d)=(a/b) * (d/c)=ad/bc

  • Сложение дробей. Важным первым шагом является нахождение общего знаменателя между всеми складываемыми дробями. Подойдет любой общий знаменатель, но обычно мы находим наименьший общий знаменатель. Найти наименьший общий знаменатель порой так же просто, как перемножить знаменатели всех отдельных дробей:

(a/b) + (c/d)=(ad + cb)/bd

  • Вычитание дробей: Процедура вычитания дробей аналогична процедуре сложения дробей:

(a/b) - (c/d)=(ad - cb)/bd

  • Сокращение дробей: Дроби с непрерывной цепочкой умножений по всему числителю, а также по всему знаменателю, можно упростить, исключив любые общие члены, которые появляются как в числителе, так и в знаменателе:

a3b2/ac=a2b2/c

Следующая важная предпосылка для исчисления связана с показателями степени или степенями, как их еще часто называют. При работе с силами также следует учитывать несколько правил.

  • Степень нуля: результат любого числа (рационального или иррационального, отрицательного или положительного, кроме самого нуля), возведенного в степень нуля, равен единице. :

х0=1

  • Отрицательные степени: базовое число, возведенное в отрицательную степень, превращается в дробь, но не меняет знак:

x-a=1/xa

  • Дробные степени: базовое число, возведенное в дробную степень, можно преобразовать в корневую задачу:

xa/b=(b√x)a=b√xa

  • Сложение степеней: Если два (или более) эквивалентных базовых терминов умножаются друг на друга, то их степени могут быть добавлены:

xa * xb=x(a + b)

  • Вычитание степеней: Аналогично, если делятся два эквивалентных базовых термина, их степень можно вычесть:

xa/xb=x(a - b)

  • Сила сил: Если сила также возведена в степень, то две силы могут быть умножены друг на друга:

(xa)b=x(ab)

  • Распределение степеней: независимо от того, умножаются или делятся базовые числа, степень может быть распределена между каждой переменной. Однако он не может распределяться, если в противном случае базовые числа складываются или вычитаются:

(xyz)a=xa ya za

(x/y)a=xa / ya

Аналогично у нас есть правила работы с корнями и правила работы с логарифмами:

Наконец, умение решать квадратные уравнения также может пригодиться в исчислении.

Если квадратное уравнение факторизуемо, то самый простой способ его решения — выразить сумму членов в виде произведения. Например, следующее квадратное уравнение можно разложить следующим образом:

x2 - 9=(x + 3)(x - 3)=0

Установка каждого фактора в ноль позволяет нам найти решение этого уравнения, которое в данном случае равно x=±3.

Альтернативно можно использовать следующую квадратичную формулу:

Если бы нам пришлось рассматривать то же квадратное уравнение, что и выше, то мы бы установили значения коэффициентов: a=1, b=0 и c=9, что снова приведет к x=±3 в качестве нашего решения.

Основы тригонометрии

Тригонометрия вращается вокруг трех основных тригонометрических функций: синуса, косинуса и тангенса, а также их обратных величин: косеканса, секанса и котангенса соответственно.

Применительно к прямоугольному треугольнику эти три основные функции позволяют нам вычислить длины сторон или любого из двух других острых углов треугольника, в зависимости от имеющейся у нас для начала информации. В частности, для некоторого угла x в следующем треугольнике 3-4-5:

Функции синуса, косинуса и тангенса работают только с прямоугольными треугольниками и, следовательно, могут использоваться только при вычислении острых углов, меньших 90o. Тем не менее, если бы нам пришлось работать внутри единичного круга на координатной плоскости x-y, то мы смогли бы применить тригонометрию ко всем углы между 0o и 360o:

Единичный круг имеет центр в начале координатной плоскости x-y и радиус в одну единицу. Вращения вокруг единичной окружности выполняются против часовой стрелки, начиная с положительной оси x. Косинус угла поворота тогда будет задаваться координатой x точки, которая попадает в единичный круг, тогда как координата y задает синус угла поворота. . Также стоит отметить, что квадранты симметричны, и, следовательно, точка в одном квадранте имеет симметричные аналоги в трех других.

На графике функции синуса, косинуса и тангенса выглядят следующим образом:

Все функции являются периодическими: функции синуса и косинуса имеют одинаковую форму, хотя и смещены на 90o друг от друга. Действительно, функции синуса и косинуса можно легко нарисовать на основе вычисленных координат x- и y при вращении вокруг единичной окружности. Аналогично можно нарисовать и касательную функцию, поскольку для любого угла ???? эта функция может быть определена следующим образом:

загар ????=грех ????/потому что ????=y/x

Функция тангенса не определена при ±90o, поскольку косинус в знаменателе возвращает нулевое значение для этого угла. Следовательно, мы рисуем вертикальные асимптоты под этими углами, которые представляют собой воображаемые линии, к которым кривая приближается, но никогда не касается.

Последнее замечание касается обратных этих тригонометрических функций. Если взять в качестве примера функцию синуса, то ее обратная функция обозначается sin-1. Ее не следует путать с косекансной функцией, которая, скорее, обратна синусу и, следовательно, не совпадает с его обратной функцией.

Дополнительная литература

В этом разделе представлены дополнительные ресурсы по этой теме, если вы хотите углубиться в нее.

Книги

  • Глубокое обучение, 2019.
  • Расчет для чайников, 2016.
  • Путеводитель по исчислению для путешествующих автостопом, 2019.

Сводка

В этом уроке вы обнаружили несколько предварительных условий для работы с исчислением.

В частности, вы узнали:

  • Линейные и нелинейные функции занимают центральное место в исчислении и машинном обучении, и многие задачи исчисления связаны с их использованием.
  • Фундаментальные понятия алгебры и тригонометрии составляют основу исчисления и станут особенно важными, когда мы будем заниматься более сложными темами исчисления.

У вас есть вопросы?
Задавайте свои вопросы в комментариях ниже, и я постараюсь ответить.

Статьи по данной тематике