[[Файл: Bayessian_regression_noise.jpg|400px|thumb|Рис.2. Регрессия и шум в данных.<br/>Синяя точка {{---}} значение из датасета, красная {{---}} значение, полученное в результате работы алгоритма регрессии. Также на рисунке зеленой линией изображена функция, предсказанная алгоритмом регрессиии, а черной {{---}} гауссово распределение шума.]]
В терминах вероятностей можно записать следующееНа рисунке 2 синяя точка показывает значения из датасета, красная {{---}} значение, предсказанное регрессией. Центр гауссианы находится в красной точке. Маленькие отклонения синей точки от красной более вероятны, они лежат недалеко от центра гауссианы, а большие {{---}} менее вероятны. Понятно, что если мы разместим красную точку далеко, отклонение для синей точки станет большим и следовательно, маловероятным. Для решения поставленной задачи регрессии воспользуемся методом максимального правдоподобия. Запишем правдоподобие::<tex>p(y|\overrightarrow{x}, \overrightarrow{\beta}, \sigma^2) = N(y|\overrightarrow{\beta}^T \overrightarrow{x}), \sigma^2)</tex>
Будем предполагать, что данные независимы:
<center>:<tex>p(Yy|Xx, \overrightarrow{\beta}, \sigma^2) = \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_ix_i, \sigma^2)</tex></center>
Прологарифмируем это выражение:
<center>:<tex>\ln p(Yy|Xx, \overrightarrow{\beta}, \sigma^2) \\ = \ln \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_ix_i, \sigma^2) \\ = \ln {\left( \frac{1}{(\sigma \sqrt{2 \pi})^n} \exp{(-\frac{1}{2 \sigma^2} \sum\limits_{i-1}^n (y_i - \overrightarrow{\beta}^T \overrightarrow{x_i})^2)}\right )} \\ = -\frac{n}{2} \ln{2 \pi \sigma^2} - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (y_i-\overrightarrow{\beta}^T \overrightarrow{x}_ix_i)^2</tex></center>
Из оценки максимального правдоподобия мы получили оценку по методу наименьших квадратов.