Random forest là gì

Random forest là gì

Random Forest là một thuật toán khá mới, được sử dụng trong vòng 10 năm gần đây, và có giá trị lớn trong những thuật toán Surpervised Learning.

Bạn đang xem: Random forest là gì

Trong bài viết này, mình sẽ giải thích ngắn gọn về Random Forest, nó là gì, hoạt động như thế nào, và áp dụng nó ra sao.

Bài viết trong giai đoạn đang học và hoàn thiện, nên thiếu sót là không tránh khỏi, mong các bạn đóng góp ý kiến.

Random Forest là gì

Rừng ngẫu nhiên là một thuật toán học có giám sát. Như tên gọi của nó, Rừng ngẫu nhiên sử dụng các cây (tree) để làm nền tảng.

Rừng ngẫu nhiên là một tập hợp của các Decision Tree, mà mỗi cây được chọn theo một thuật toán dựa vào ngẫu nhiên.

Decision Tree là gì ?

Decision Tree là tên đại diện cho một nhóm thuật toán phát triển dựa trên Cây quyết định. Ở đó, mỗi Node của cây sẽ là các thuộc tính, và các nhánh là giá trị lựa chọn của thuộc tính đó. Bằng cách đi theo các giá trị thuộc tính trên cây,Cây quyết định sẽ cho ta biết giá trị dự đoán.Nhóm thuật toán cây quyết định có một điểm mạnh đó là có thể sử dụng cho cả bài toán Phân loại (Classification) và Hồi quy (Regression).

Xem thêm: Khái Niệm Và Phân Loại Tài Sản Cố định Là Gì

Random Forest có điểm mạnh gì ?

Random Forest algorithm có thể sử dụng cho cả bài toán Classification và RegressionRandom Forest làm việc được với dữ liệu thiếu giá trịKhi Forest có nhiều cây hơn, chúng ta có thể tránh được việc Overfitting với tập dữ liệuCó thể tạo mô hình cho các giá trị phân loại

Random Forest làm việc như thế nào ?

Chúng ta có thể nghĩ đến một ví dụ đơn giản trong cuộc sống, giả sử tôi muốn tìm hiểu một địa danh cho chuyến du lịch sắp tới, tôi sẽ đi hỏi một người bạn để tham khảo ý kiến.Nhưng, ý kiến của người bạn này có thể không khách quan cho lắm. Tôi liền đi hỏi thêm một vài người nữa, và tổng hợp lại để cho ra quyết định đi hay không

Nếu coi mỗi ý kiến của những người góp ý là một cây quyết định, thì chúng ta đã có hình dung mơ hồ về Random Forest rồi.

Random Forest hoạt động bằng cách đánh giá nhiều Cây quyết định ngẫu nhiên, và lấy ra kết quả được đánh giá tốt nhất trong số kết quả trả về.

Mã giả cho hoạt động của Random Forest :

Chọn ngẫu nhiên “k” features từ tập “m” features.

Để ý k

từ tập “k” features, tính toán ra node “d” là tốt nhất cho Node phân loại.

Chia các node con theo node tốt nhất vừa tìm được

Lặp lại bước 1-3 cho đến khi đạt đến k node

Lặp lại bước 1-4 để tạo ra “n” cây

Sau các bước trên, chúng ta đã tạo ra được một Random Forest, vậy nó hoạt động như thế nào để dự đoán ?

Random forest prediction :

Để biểu diễn dự đoán sử dụng Random Forest đã huấn luyệ, ta sử dụng các bước bên dưới :

 Lấy các test features và sử dụng các Cây quyết định đã tạo ra để dự đoán kết quả, lưu nó vào một danh sách.

Xem thêm: Stackoverflow Là Gì – Lỗi Tràn Bộ Nhớ đệm

TÍnh toán số lượng vote trên toàn bộ Forest cho từng kết quả

Lấy kết quả có số lượng vote lớn nhất làm kết quả cuối cho mô hình

Ứng dụng

Ta đã tìm hiểu Random Forest là gì, nó hoạt động như thế nào để đưa ra một dự đoán. Vậy, ứng dụng của Random Forest là gì.

*

Lấy vị dụ với ngành Ngân hàng, chúng ta có hai bài toán phổ biến cho Random Forest, là tìm kiếm khách hàng tiềm năngkhách hàng lừa đảo

Chuyên mục: Hỏi Đáp

=> Xem thêm: Tin tức tổng hợp tại Chobball

Comments are closed.