Hồi quy tuyến tính có lẽ là một trong những thuật toán nổi tiếng và được hiểu rõ nhất trong thống kê và học máy. Trong bài đăng này, bạn sẽ khám phá thuật toán hồi quy tuyến tính, cách nó hoạt động và cách bạn có thể sử dụng nó tốt nhất trong các dự án máy học của mình. Trong bài đăng này, bạn sẽ học:
- Tại sao hồi quy tuyến tính thuộc về cả thống kê và học máy.
- Nhiều tên mà hồi quy tuyến tính được biết đến.
- Các thuật toán biểu diễn và học tập được sử dụng để tạo ra một mô hình hồi quy tuyến tính.
- Cách chuẩn bị tốt nhất cho dữ liệu của bạn khi lập mô hình bằng hồi quy tuyến tính.
Bạn không cần biết bất kỳ thống kê hoặc đại số tuyến tính nào để hiểu được hồi quy tuyến tính. Đây là phần giới thiệu nhẹ nhàng ở cấp độ cao về kỹ thuật này nhằm cung cấp cho bạn đủ kiến thức nền tảng để có thể sử dụng nó một cách hiệu quả vào các vấn đề của riêng bạn.
Hồi quy tuyến tính có phải là dựa phương pháp thống kê hay không ?
Trước khi chúng tôi đi sâu vào chi tiết của hồi quy tuyến tính, bạn có thể tự hỏi mình tại sao chúng tôi lại xem xét thuật toán này.
Nó không phải là một phương pháp từ thống kê?
Máy học, cụ thể hơn là lĩnh vực mô hình dự đoán chủ yếu liên quan đến việc giảm thiểu sai số của mô hình hoặc đưa ra dự đoán chính xác nhất có thể, với chi phí là khả năng giải thích. Trong học máy ứng dụng, chúng tôi sẽ mượn, sử dụng lại và đánh cắp các thuật toán từ nhiều lĩnh vực khác nhau, bao gồm cả thống kê và sử dụng chúng cho những mục đích này.
Do đó, hồi quy tuyến tính được phát triển trong lĩnh vực thống kê và được nghiên cứu như một mô hình để hiểu mối quan hệ giữa các biến số đầu vào và đầu ra, nhưng đã được học máy sử dụng. Nó vừa là một thuật toán thống kê vừa là một thuật toán học máy.
Tiếp theo, hãy xem lại một số tên thông dụng được sử dụng để chỉ mô hình hồi quy tuyến tính.
Hồi quy tuyến tính có nhiều tên.
Khi bạn bắt đầu xem xét hồi quy tuyến tính, mọi thứ có thể trở nên rất khó hiểu.
Lý do là vì hồi quy tuyến tính đã có từ rất lâu (hơn 200 năm). Nó đã được nghiên cứu từ mọi góc độ có thể và thường mỗi góc độ có một tên mới và khác nhau.
Hồi quy tuyến tính là một mô hình tuyến tính, ví dụ: một mô hình giả định mối quan hệ tuyến tính giữa các biến đầu vào (x) và biến đầu ra duy nhất (y). Cụ thể hơn, y có thể được tính toán từ sự kết hợp tuyến tính của các biến đầu vào (x).
Khi có một biến đầu vào duy nhất (x), phương pháp này được gọi là hồi quy tuyến tính đơn giản. Khi có nhiều biến đầu vào, tài liệu từ thống kê thường đề cập đến phương pháp là hồi quy tuyến tính nhiều lần.
Các kỹ thuật khác nhau có thể được sử dụng để chuẩn bị hoặc huấn luyện phương trình hồi quy tuyến tính từ dữ liệu, phương trình phổ biến nhất được gọi là Bình phương nhỏ nhất thông thường. Do đó, người ta thường đề cập đến một mô hình được chuẩn bị theo cách này là Hồi quy tuyến tính bình phương nhỏ nhất thông thường hoặc chỉ hồi quy bình phương nhỏ nhất.
Bây giờ chúng ta đã biết một số tên được sử dụng để mô tả hồi quy tuyến tính, chúng ta hãy xem xét kỹ hơn biểu diễn được sử dụng.
Biểu diễn mô hình hồi quy tuyến tính
Hồi quy tuyến tính là một mô hình hấp dẫn vì biểu diễn rất đơn giản.
Biểu diễn là một phương trình tuyến tính kết hợp một tập giá trị đầu vào cụ thể (x), nghiệm là đầu ra dự đoán cho tập giá trị đầu vào đó (y). Như vậy, cả giá trị đầu vào (x) và giá trị đầu ra đều là số.
Phương trình tuyến tính chỉ định một hệ số tỷ lệ cho mỗi giá trị hoặc cột đầu vào, được gọi là hệ số và được biểu thị bằng chữ cái Hy Lạp viết hoa Beta (B). Một hệ số bổ sung cũng được thêm vào, tạo cho đường thẳng một mức độ tự do bổ sung (ví dụ: di chuyển lên và xuống trên biểu đồ hai chiều) và thường được gọi là hệ số chặn hoặc hệ số chệch.
Ví dụ, trong một bài toán hồi quy đơn giản (một x và một y duy nhất), dạng của mô hình sẽ là:
y = B0 + B1 * x
Trong các kích thước cao hơn khi chúng ta có nhiều hơn một đầu vào (x), đường được gọi là mặt phẳng hoặc siêu mặt phẳng. Do đó, biểu diễn là dạng của phương trình và các giá trị cụ thể được sử dụng cho các hệ số (ví dụ B0 và B1 trong ví dụ trên).
Người ta thường nói về độ phức tạp của mô hình hồi quy giống như hồi quy tuyến tính. Điều này đề cập đến số lượng các hệ số được sử dụng trong mô hình.
Khi một hệ số trở thành 0, nó sẽ loại bỏ hiệu quả ảnh hưởng của biến đầu vào lên mô hình và do đó khỏi dự đoán được thực hiện từ mô hình (0 * x = 0). Điều này trở nên phù hợp nếu bạn xem xét các phương pháp chính quy thay đổi thuật toán học để giảm độ phức tạp của các mô hình hồi quy bằng cách gây áp lực lên kích thước tuyệt đối của các hệ số, đưa một số về không.
Bây giờ chúng ta đã hiểu về cách biểu diễn được sử dụng cho mô hình hồi quy tuyến tính, hãy xem xét một số cách mà chúng ta có thể tìm hiểu cách biểu diễn này từ dữ liệu.
Mô hình hồi quy tuyến tính máy học.
Học mô hình hồi quy tuyến tính có nghĩa là ước tính giá trị của các hệ số được sử dụng trong biểu diễn với dữ liệu mà chúng ta có sẵn.
Trong phần này, chúng ta sẽ xem xét ngắn gọn bốn kỹ thuật để chuẩn bị một mô hình hồi quy tuyến tính. Đây không phải là thông tin đủ để thực hiện chúng từ đầu, nhưng đủ để có được hương vị của việc tính toán và đánh đổi liên quan.
Còn nhiều kỹ thuật nữa vì mô hình đã được nghiên cứu rất kỹ. Hãy lưu ý đến Bình phương nhỏ nhất thông thường vì nó là phương pháp phổ biến nhất được sử dụng nói chung. Cũng lưu ý về Gradient Descent vì nó là kỹ thuật phổ biến nhất được dạy trong các lớp học máy.
1. Hồi quy tuyến tính đơn giản
Với hồi quy tuyến tính đơn giản khi chúng ta có một đầu vào duy nhất, chúng ta có thể sử dụng thống kê để ước tính các hệ số.
Điều này yêu cầu bạn tính toán các thuộc tính thống kê từ dữ liệu như phương tiện, độ lệch chuẩn, tương quan và hiệp phương sai. Tất cả dữ liệu phải có sẵn để duyệt và tính toán số liệu thống kê.
Đây là một bài tập thú vị trong excel, nhưng không thực sự hữu ích trong thực tế.
2. Bình phương nhỏ nhất thông thường
Khi chúng ta có nhiều hơn một đầu vào, chúng ta có thể sử dụng Bình phương Ít nhất Thông thường để ước tính giá trị của các hệ số.
Thủ tục Bình phương Ít nhất Thông thường tìm cách giảm thiểu tổng các phần dư bình phương. Điều này có nghĩa là với một đường hồi quy thông qua dữ liệu, chúng tôi tính toán khoảng cách từ mỗi điểm dữ liệu đến đường hồi quy, bình phương nó và tổng tất cả các lỗi bình phương lại với nhau. Đây là đại lượng mà bình phương nhỏ nhất thông thường tìm cách tối thiểu hóa.
Cách tiếp cận này coi dữ liệu như một ma trận và sử dụng các phép toán đại số tuyến tính để ước tính các giá trị tối ưu cho các hệ số. Nó có nghĩa là tất cả dữ liệu phải có sẵn và bạn phải có đủ bộ nhớ để chứa dữ liệu và thực hiện các phép toán ma trận.
Sẽ không bình thường nếu bạn tự thực hiện quy trình Bình phương nhỏ nhất thông thường trừ khi là một bài tập trong đại số tuyến tính. Có nhiều khả năng bạn sẽ gọi một thủ tục trong thư viện đại số tuyến tính. Thủ tục này rất nhanh để tính toán.