Các Phương Pháp Phân Tích Dữ Liệu Lớn

Nhân dịp tết, rảnh rỗi chạy kpi viết bài để đảm bảo số lượng bài viết, chứ để cái website nó muốn mốc meo hết cả rồi. Cơ mà viết càng nhiều thì càng không đủ, cái gì cũng muốn viết, thành ra nó dài dòng, lê thê, ngồi đọc lại thấy chán ngán, nên phải ngồi tém tém nội dung lại. Bà con đọc thấy chỗ nào còn dài , cần tóm, tém, gọt thì vui lòng thảy cái commend hen.

1. Phân tích hồi quy (regression analysis)

Regression analysis là một phương pháp thống được sử dụng để ước lượng mối quan hệ giữa các biến phụ thuộc (hay còn được gọi là biến ‘outcome’ hoặc biến ‘response’ ) và một hoặc nhiều biến độc lập ( cũng được gọi với tên là ‘predictors’, ‘covariates’, ’explanatory variables’, ‘features’). Chi tiết:

1.1. Linear Regression:

Hồi quy tuyến tính là hình thức phân tích hồi quy phổ biến nhất. Nó nhằm mục đích tìm ra đường thẳng khớp với dữ liệu nhất ( fitted line) theo một số tiêu chí toán học cụ thể nào đó.

  • Hồi quy tuyến tính giả định rằng các mối quan hệ giữa các biến là tuyến tính và thoả các giả định là normality of residuals và independence of errors.

1.2. Simple Linear Regression:

  • Trong hồi quy tuyến tính đơn giản, chúng ta đánh giá mối quan hệ giữa một biến phụ thuộc duy nhất (Y) và một biến độc lập (X).

Phương trình: Y = x +bX + epsilon

1.3. Multiple Linear Regression:

Là biến thể mở rộng của hồi quy tuyến tính đơn giản, với nhiều biến độc lập X

Phương trình: Y = x + bX1 + cX2 + dX3 ... + epsilon

2. Phân tích nhân tố (Factor analysis)

Factor analysis là một kỹ thuật thống kê, phân tích yếu tố nhận diện cấu trúc cơ bản của một tập hợp các biến và giải thích chúng dưới dạng một số lượng nhỏ hơn các yếu tố chung. Phân tích yếu tố giúp giảm chiều dữ liệu và sự phức tạp của nó, cũng như khám phá những yếu tố tiềm ẩn gây ra sự biến động chung của các biến quan sát.

Phân loại:

  • Exploratory factor analysis (EFA): Loại phân tích này được sử dụng khi người phân tích không có hiểu biết gì về dữ liệu. Mục tiêu của phân tích này là tìm số factor tối ưu với điều kiện cực đại hoá các biến trong dữ liệu.

  • Confirmatory factor analysis (CFA): Loại phân tích này được sử dụng khi người phân tích có mô hình lý thuêts hoặc giả thueyets về các factor và mối quan hệ giữa chúng.

  • Principal component analysis (PCA): Dạng phân tích này thường nhầm lẫn với EFA, nhưng chúng khác mục tiêu và khác giả định. Mục tiêu của PCA là tìm ra sự kết hợp tuyến tính của các biến quan sát để thu được phương sai lớn nhất trong dữ liệu, mà không giả định về bất kỳ yếu tố tiềm ẩn nào. PCA thích hợp hơn cho việc giảm kích thước dữ liệu và tóm tắt, trong khi Phân tích Yếu tố Khám phá (EFA) thích hợp hơn cho việc tìm ra các khái niệm tiềm ẩn và mối quan hệ nguyên nhân.

Factor analysis trải qua các nhiều bước sau:

  • Data preparation:Xem số dòng, số cột, phân phối của các biến, mối quan hệ giữa các biến.

  • Factor extraction: Xác định số lượng các factor cần rút trích. Sử dụng principal component analysis, maximum likelihood, principal axis factoring, 3 chấm …

  • Factor rotation: Bước này dùng để cải thiện khả năng diễn giải và tăng tính rõ ràng của các yếu tố bằng cách thay đổi hướng và vị trí của chúng. Có hai loại chính : xoay góc và xoay chéo. Xoay góc giả định rằng các yếu tố không tương quan, trong khi xoay chéo cho phép một số tương quan giữa các yếu tố .

  • Factor interpretation: đặt tên cho các factor ( bước này khá khó, do tên phải cover được dữ liệu mà nó đang handle).

Phân tích yếu tố là một công cụ hữu ích và mạnh mẽ để khám phá và xác nhận cấu trúc của dữ liệu, nhưng nó cũng mang đến một số hạn chế và thách thức

  • Subjectivity: Mỗi nhà phân tích có một chiến lược phân tích khác nhau, nên có thể sẽ có các báo cáo khác nhau, trên cùng một dữ liệu.

  • Complexity: Phương pháp Factor analysis khá khó tiếp cận, đòi hỏi người phân tích có kiến thức chuyên sâu về dữ liệu họ đang có, và có kiến thức vững chắc về thống kê, giải định, có khả năng sử dụng các tool phân tích dữ liệu lớn.

  • Validity: Phương pháp này không thể dứng minh mối quan hệ nhân quả , tính hợp lệ của các yếu tố. Mọi thông tin được rút ra từ trong dữ liệu dựa trên các tiêu chí thống kê và các giả đinh.

3. Neural network

Một mạng neural là một loại trí tuệ nhân tạo cố gắng mô phỏng cách não người hoạt động. Nó bao gồm nhiều đơn vị được kết nối gọi là neuron, chúng xử lý thông tin và học từ dữ liệu. Mạng neural có thể thực hiện nhiều nhiệm vụ khác nhau, như nhận dạng giọng nói, phân tích hình ảnh và xử lý ngôn ngữ tự nhiên. Dưới đây là một số khái niệm chính của mạng neural:

  • Một mạng neural có nhiều lớp của các neuron, như là một lớp đầu vào, một hoặc nhiều lớp ẩn, và một lớp đầu ra. Mỗi lớp nhận đầu vào từ lớp trước đó và chuyển đầu ra cho lớp kế tiếp.

  • Mỗi neuron có một trọng số và một độ lệch, quyết định mức độ ảnh hưởng của nó đối với đầu ra. Trọng số và độ lệch được điều chỉnh trong quá trình huấn luyện, nơi mạng học từ dữ liệu và cải thiện hiệu suất.

  • Mỗi neuron cũng có một hàm kích hoạt, quyết định liệu neuron có được kích hoạt hay không dựa trên đầu vào. Một số hàm kích hoạt phổ biến bao gồm sigmoid, tanh, và ReLU.

  • Có nhiều loại mạng neural khác nhau, như mạng neural feedforward, mạng neural hồi quy, mạng neural tích chập, và mạng neural sâu. Mỗi loại có kiến trúc, ưu điểm và ứng dụng riêng.

4. Phân tích cụm (Cluster analysis)

Phân tích cụm là một phương pháp phân tích dữ liệu nhóm các đối tượng dựa trên các thuộc tính chung của chúng. Nó có thể được sử dụng trong học máy, phân tích hình ảnh, khai thác dữ liệu và nhận dạng mẫu.

  • Tìm ra cấu trúc và số lượng cụng tối ưu phù hợp với dữ liệu. Có nhiều loại cụm như cụm cầu, cụm phân cấp, cụm dựa trên mật độ, cụm không gian con, và cụm dựa trên mô hình.

  • Phân tích cụm đòi hỏi việc lựa chọn một thuật toán phân cụm phù hợp và cài đặt các tham số của nó. Một số thuật toán phân cụm phổ biến bao gồm K-means, phân cụm phân cấp, DBSCAN, phân cụm phổ, và mô hình hỗn hợp Gaussian.

  • Phân tích cụm cũng yêu cầu kiểm định và diễn giải kết quả phân cụm. Điều này có thể được thực hiện bằng cách sử dụng các phương pháp khác nhau như kiểm định thống kê, so sánh với các lớp đã biết, hoặc các tiêu chí cụ thể cho từng lĩnh vực.

Phân tích cụm là một công cụ hữu ích và mạnh mẽ để khám phá và xác nhận cấu trúc của dữ liệu, nhưng nó cũng có một số hạn chế và thách thức:

  • Tính chủ quan: Phân tích cụm liên quan đến nhiều quyết định và đánh giá từ phía nghiên cứu, như loại phân tích cụm, phương pháp phân cụm, số lượng cụm, và cách diễn giải cụm. Những lựa chọn này có thể ảnh hưởng đến kết quả và kết luận của phân tích, và các nhà nghiên cứu khác nhau có thể thu được kết quả khác nhau từ cùng một dữ liệu.

  • Độ phức tạp: Phân tích cụm có thể khó hiểu và áp dụng đúng, đặc biệt là đối với người mới học và người không chuyên về thống kê. Nó đòi hỏi sự hiểu biết tốt về lý thuyết cơ bản, giả định, phương pháp và công thức cơ bản, cũng như khả năng sử dụng phần mềm và công cụ phù hợp.

  • Tính hợp lệ: Phân tích cụm không chứng minh sự nhân quả hoặc tính hợp lệ của các cụm. Nó chỉ cung cấp một giải thích có thể về dữ liệu dựa trên tiêu chí thống kê và giả định. Người nghiên cứu luôn nên kiểm tra tính hợp lệ và độ tin cậy của các cụm bằng cách sử dụng các phương pháp khác như chỉ số alpha của Cronbach, tính hợp lệ xây dựng, tính hợp lệ hội tụ, tính hợp lệ phân loại.

5. Phân tích tổ hợp - Phân tích theo nhóm (Cohort analysis)

Phân tích nhóm là một kỹ thuật quan trọng trong lĩnh vực phân tích hành vi.

  • Phân tích nhóm liên quan đến việc chia dữ liệu từ một bộ dữ liệu thành các nhóm liên quan, được gọi là cohort, thay vì xem xét dữ liệu như một đơn vị duy nhất.

  • Các nhóm này có các đặc điểm tương tự, chẳng hạn như thời gian tham gia hoặc kích thước.

  • Cohort analysis thường được sử dụng trong nhiều lĩnh vực, ví như doanh nghiệp cung cấp dịch vụ đám mây, doanh nghiệp kinh doanh trò chơi , các nền tảng thương mại điện tử, các doanh nghiệp bán lẻ, bất động sản, ngân hàng ….

Mục tiêu chính của phân tích nhóm là hiểu hành vi của khách hàng qua toàn bộ vòng đời của mỗi khách hàng.

Bằng cách nhóm khách hàng thành các nhóm quản lý được, doanh nghiệp có cái nhìn sâu sắc về xu hướng và mô hình theo thời gian.

Nó giúp điều chỉnh các ưu đãi sản phẩm và chiến lược tiếp thị cho các phân khúc khách hàng cụ thể.

Cohort Dựa trên Thời gian

Các nhóm này bao gồm khách hàng đăng ký sử dụng sản phẩm hoặc dịch vụ trong một khoảng thời gian cụ thể (ví dụ, hàng tháng hoặc hàng quý).

Phân tích nhóm dựa trên thời gian cho thấy cách hành vi của khách hàng thay đổi dựa trên thời điểm họ bắt đầu sử dụng sản phẩm của công ty.

Ví dụ, so sánh tỷ lệ giữ lại giữa đăng ký Q1 và Q2 có thể làm nổi bật các vấn đề tiềm ẩn hoặc thách thức từ đối thủ.

Nó cũng giúp đánh giá tỷ lệ chuyển đổi và xác định nguyên nhân đằng sau việc mất khách hàng.

Cohort Dựa trên lợi ích

  • Hiểu Rõ Hành Vi Khách Hàng: Phân tích nhóm mang lại cái nhìn tỷ mị về cách các nhóm khách hàng khác nhau thể hiện hành vi qua thời gian.

  • Tối Ưu Hóa Tiếp Thị: Bằng cách hiểu hành vi nhóm, doanh nghiệp có thể điều chỉnh nỗ lực tiếp thị và chiến lược giao tiếp.

  • Cải Tiến Sản Phẩm: Các thông tin từ phân tích nhóm hướng dẫn cho sự cải tiến sản phẩm và phát triển tính năng.

Câu nói ăn tiền: phân tích không chỉ đơn thuần là về những con số; nó là về việc hiểu những câu chuyện đằng sau những con số đó và ra quyết định thông tin dựa trên hành vi của khách hàng.

6. Phân tích thuộc tính - Phân tích kết hợp (conjoint analysis)

Phân tích kết hợp là một kỹ thuật thống kê được sử dụng trong nghiên cứu thị trường để hiểu cách khách hàng đánh giá các thuộc tính khác nhau của một sản phẩm hoặc dịch vụ.

Nó dựa trên nguyên tắc rằng bất kỳ sản phẩm nào cũng có thể phân rã thành một tập hợp các thuộc tính ảnh hưởng đến giá trị được người dùng cảm nhận đối với một mục hoặc dịch vụ.

Phân tích kết hợp thường được thực hiện thông qua một cuộc khảo sát chuyên biệt yêu cầu người tiêu dùng xếp hạng sự quan trọng của các đặc điểm cụ thể. Phân tích kết quả cho phép công ty gán giá trị cho mỗi đặc điểm.

Có nhiều loại phân tích kết hợp, bao gồm

  • Phân tích Hội tụ Dựa trên Sự Lựa Chọn (CBC)

  • Phân tích Hội tụ Thích ứng (ACA)

  • Phân tích Hội tụ Toàn bộ

  • Phân tích Hội tụ MaxDiff

Việc các công ty sử dụng loại phân tích hội tụ nào, phụ thuộc vào mục tiêu định hình phân tích và loại sản phẩm hoặc dịch vụ đang được đánh giá.

Phân tích hội tụ có thể giúp doanh nghiệp hiểu được những đặc tính nào của sản phẩm hoặc dịch vụ của họ được khách hàng đánh giá cao nhất, và gán một giá trị cụ thể cho mỗi đặc tính. Hiểu biết này cho phép xây dựng chiến lược có thông tin hơn từ lâu dài đến giá cả và bán hàng.

7. Phân tích văn bản (Text analysis)

Phân tích văn bản là quá trình trích xuất thông tin giá trị từ dữ liệu văn bản không có cấu trúc. Nó có thể được sử dụng cho nhiều mục đích khác nhau như hiểu phản hồi của khách hàng, tóm tắt tài liệu, xác định chủ đề và phân loại cảm xúc. Phân tích văn bản có thể thực hiện bằng cách sử dụng các phương pháp và kỹ thuật khác nhau, phụ thuộc vào loại văn bản và mục tiêu nghiên cứu. Dưới đây là một số phương pháp phổ biến:

  • Sentiment analysis: Phương pháp này xác định cảm xúc của văn bản, như tích cực, tiêu cực hoặc trung tính. Nó có thể giúp doanh nghiệp đo lường sự hài lòng của khách hàng, danh tiếng thương hiệu và đánh giá sản phẩm.

  • Phân tích chủ đề: Phương pháp này xác định các chủ đề chính của văn bản, như thể thao, chính trị, hoặc giải trí. Nó có thể giúp doanh nghiệp tổ chức và phân loại lượng lớn dữ liệu văn bản như email, bài viết trên mạng xã hội và yêu cầu hỗ trợ.

  • Trích xuất từ khóa: Phương pháp này trích xuất các từ hoặc cụm từ quan trọng nhất từ văn bản, như tên, địa điểm hoặc khái niệm. Nó có thể giúp doanh nghiệp tìm kiếm thông tin quan trọng như vấn đề của khách hàng, đặc điểm sản phẩm hoặc xu hướng thị trường.

Phân tích văn bản có thể thực hiện thủ công hoặc tự động. Phân tích văn bản thủ công tốn thời gian, dễ chán và dễ gặp lỗi. Phân tích văn bản tự động sử dụng các kỹ thuật học máy để phân tích dữ liệu văn bản một cách nhanh chóng, chính xác và có thể mở rộng. Hiện nay, Có nhiều công cụ trực tuyến giúp thực hiện phân tích văn bản một cách tự động. Về tiếng việt thì chúng ta có thể sử dụng thư viện under the sea, hoặc nếu các bạn có dữ liệu lớn thì có thể implement lại các thuật toán đã public và train lại mô hình

8. Phân tích chuỗi thời gian (time series analysis)

Phân tích chuỗi thời gian là một cách cụ thể để phân tích một chuỗi điểm dữ liệu được thu thập trong một khoảng thời gian. Khác với việc thu thập dữ liệu ngẫu nhiên hoặc rải rác, phân tích chuỗi thời gian liên quan đến việc ghi lại các điểm dữ liệu ở các khoảng thời gian đều đặn trong một khoảng thời gian cố định. Sự khác biệt chính nằm ở cách các biến thay đổi theo thời gian. Dữ liệu chuỗi thời gian cung cấp thông tin quý giá về xu hướng, dự đoán.

Phân tích chuỗi thời gian xử lý các điểm dữ liệu được sắp xếp theo thời gian. Ví dụ bao gồm chiều cao của đợt thủy triều, tốc độ gió trên biển, độ dày của sương mù, giá đóng cửa hàng ngày trên thị trường chứng khoán, để:

  • Hiểu rõ Xu hướng: Các tổ chức sử dụng phân tích chuỗi thời gian để hiểu nguyên nhân cơ bản của các xu hướng hoặc mô hình hệ thống theo thời gian. Các biểu đồ minh họa xu hướng theo mùa vụ, và các nền tảng phân tích hiện đại vượt xa các biểu đồ đường đơn giản.

  • Dự đoán: Dự báo chuỗi thời gian dự đoán giá trị tương lai dựa trên dữ liệu lịch sử. Nó giúp dự đoán các biến đổi, như mùa vụ hoặc hành vi chu kỳ.

  • Tài chính: Phân tích biến động tiền tệ, giá cổ phiếu và các chỉ số kinh tế.

  • Bán lẻ: Nghiên cứu dữ liệu bán hàng và mô hình yêu cầu.

  • Dự báo thời tiết: Dự đoán điều kiện thời tiết dựa trên dữ liệu lịch sử.

  • Chăm sóc sức khỏe: Giám sát các chỉ số quan trọng của bệnh nhân theo thời gian.

  • Kinh tế học: Theo dõi các chỉ số kinh tế như tăng trưởng GDP.

9. Khai thác dữ liệu (Data mining)

Khai thác dữ liệu là quá trình trích xuất và khám phá các mô hình trong các tập dữ liệu lớn liên quan đến các phương pháp ở sự giao lộ giữa học máy, thống kê và hệ thống cơ sở dữ liệu. Khai thác dữ liệu có thể được sử dụng cho nhiều mục đích, như hiểu cấu trúc và mô hình cơ bản của dữ liệu, phân tích hiệu suất của một công ty, hoặc dự đoán doanh thu và ảnh hưởng của quyết định kinh doanh. Khai thác dữ liệu phụ thuộc vào việc thu thập dữ liệu hiệu quả, lưu trữ và xử lý máy tính.

Các bài toán trong data mining bao gồm: Classification, Clustering, Association rule mining, Sequential pattern mining, Anomaly detection

Khai thác dữ liệu có thể được áp dụng trong nhiều lĩnh vực như tài chính, bán lẻ, dự báo thời tiết, chăm sóc sức khỏe và kinh tế. Khai thác dữ liệu có thể giúp tổ chức đạt được thông tin, đưa ra quyết định tốt hơn và cải thiện hiệu suất của họ. Tuy nhiên, khai thác dữ liệu cũng đặt ra một số thách thức và rủi ro, như chất lượng dữ liệu, quyền riêng tư, an ninh và đạo đức. Do đó, khai thác dữ liệu nên được thực hiện cẩn thận và tôn trọng đối với dữ liệu và những người liên quan.

10. Cây quyết định (decision tree)

Một cây quyết định là một biểu diễn của các duyệt định dứoi dạng cây. Nó có thể được sử dụng cho cả các nhiệm vụ phân loại và hồi quy trong học máy giám sát. Một cây quyết định bao gồm các nút, nhánh và lá tương ứng với các đặc trưng, quy tắc và dự đoán của dữ liệu. Một cây quyết định được xây dựng bằng cách chia dữ liệu thành các tập con dựa trên giá trị của các đặc trưng cho đến khi đạt đến một tiêu chí dừng. Tiêu chí chia thường dựa trên một độ đồng nhất hoặc phương sai, chẳng hạn như entropy hoặc chỉ số Gini

Một số ưu điểm của cây quyết định bao gồm:

  • Dễ hiểu và giải thích, vì chúng giống như quá trình suy luận của con người.

  • Có thể xử lý cả dữ liệu số và dữ liệu phân loại, cũng như có thể xử lý giá trị thiếu.

  • Chịu được ảnh hưởng từ nhiễu và giữ nguyên tính chất khi dữ liệu không cân bằng.

Một số nhược điểm của cây quyết định là:

  • Dễ bị overfitting, cây càng sâu, càng phức tạp thì càng dễ bị overfitting.

  • Có thể không ổn định, vì những thay đổi nhỏ trong dữ liệu có thể dẫn đến những thay đổi lớn trong cấu trúc cây.

  • Có thể bị thiên vị, vì chúng có xu hướng ưa thích đặc trưng có nhiều cấp độ hoặc loại.

Nguồn:

Regression analysis - Wikipedia. https://en.wikipedia.org/wiki/Regression_analysis.

Regression Analysis - Formulas, Explanation, Examples and Definitions. https://corporatefinanceinstitute.com/resources/data-science/regression-analysis/.

Simple Linear Regression | An Easy Introduction & Examples - Scribbr. https://www.scribbr.com/statistics/simple-linear-regression/.

Factor analysis - Wikipedia. https://en.wikipedia.org/wiki/Factor_analysis.

Factor Analysis Guide with an Example - Statistics By Jim. https://statisticsbyjim.com/basics/factor-analysis/.

Factor Analysis - Steps, Methods and Examples - Research Method. https://researchmethod.net/factor-analysis/.

Factor analysis - Wikipedia. https://en.wikipedia.org/wiki/Factor_analysis.

Factor Analysis Guide with an Example - Statistics By Jim. https://statisticsbyjim.com/basics/factor-analysis/.

Factor Analysis - Steps, Methods and Examples - Research Method. https://researchmethod.net/factor-analysis/.

What are Neural Networks? | IBM. https://www.ibm.com/topics/neural-networks.

Neural network - Wikipedia. https://en.wikipedia.org/wiki/Neural_network.

What are Neural Networks? | IBM. https://www.ibm.com/topics/neural-networks.

Neural network - Wikipedia. https://en.wikipedia.org/wiki/Neural_network.

What Is a Neural Network? - Investopedia. https://www.investopedia.com/terms/n/neuralnetwork.asp.

What is a neural network? A computer scientist explains - The Conversation. https://theconversation.com/what-is-a-neural-network-a-computer-scientist-explains-151897.

Cluster analysis - Wikipedia. https://en.wikipedia.org/wiki/Cluster_analysis.

Cluster Analysis - Types, Methods and Examples - Research Method. https://researchmethod.net/cluster-analysis/.

What Is Cluster Analysis? (Examples + Applications) | Built In. https://builtin.com/data-science/cluster-analysis.

Cluster analysis - Wikipedia. https://en.wikipedia.org/wiki/Cluster_analysis.

Cluster Analysis - Types, Methods and Examples - Research Method. https://researchmethod.net/cluster-analysis/.

What Is Cluster Analysis? (Examples + Applications) | Built In. https://builtin.com/data-science/cluster-analysis.

Getty Images. https://www.gettyimages.com/detail/illustration/big-data-illustration-with-structuring-map-royalty-free-illustration/1139303464.

https://online.hbs.edu/blog/post/what-is-conjoint-analysis

What Is Conjoint Analysis & How Can You Use It? | HBS Online. https://online.hbs.edu/blog/post/what-is-conjoint-analysis.

Conjoint analysis - Wikipedia. https://en.wikipedia.org/wiki/Conjoint_analysis.

What is a Conjoint Analysis? Types & Use Cases - Qualtrics. https://www.qualtrics.com/experience-management/research/types-of-conjoint/.

en.wikipedia.org. https://en.wikipedia.org/wiki/Conjoint_analysis.

Text Analysis: Definition, Benefits & Examples - Qualtrics XM. https://www.qualtrics.com/experience-management/research/text-analysis/.

Textual Analysis | Guide, 3 Approaches & Examples - Scribbr. https://www.scribbr.com/methodology/textual-analysis/.

Time Series Analysis: Definition, Types & Techniques | Tableau. https://www.tableau.com/learn/articles/time-series-analysis.

Time series - Wikipedia. https://en.wikipedia.org/wiki/Time_series.

Time Series Analysis and Forecasting | Data-Driven Insights. https://www.analyticsvidhya.com/blog/2021/10/a-comprehensive-guide-to-time-series-analysis/.

Data mining - Wikipedia. https://en.wikipedia.org/wiki/Data_mining.

What Is Data Mining? How It Works, Benefits, Techniques, and Examples. https://www.investopedia.com/terms/d/datamining.asp.

What is Data Mining? | IBM. https://www.ibm.com/topics/data-mining.

Decision tree - Wikipedia. https://en.wikipedia.org/wiki/Decision_tree.

Decision Tree - GeeksforGeeks. https://www.geeksforgeeks.org/decision-tree/.

What is a Decision Tree | IBM. https://www.ibm.com/topics/decision-trees.

en.wikipedia.org. https://en.wikipedia.org/wiki/Decision_tree.

Comments