Các phương pháp phân tích dữ liệu lớn là những kỹ thuật và công cụ để xử lý, khai thác và trích xuất thông tin từ dữ liệu có kích thước, tốc độ và đa dạng lớn. Các phương pháp này giúp bạn hiểu được xu hướng, mẫu, mối quan hệ và giá trị tiềm ẩn trong dữ liệu, từ đó đưa ra những quyết định có căn cứ và tối ưu hóa hiệu quả kinh doanh.

Mô hình phát triển phần mềm là cách thức tổ chức các hoạt động để tạo ra phần mềm từ việc phân tích yêu cầu đến việc duy trì. Có nhiều loại mô hình phát triển phần mềm khác nhau, nhưng phổ biến nhất là mô hình thác nước, mô hình chữ V, mô hình xoắn ốc, mô hình agile và quy trình scrum. Mỗi mô hình có ưu và nhược điểm riêng, phù hợp với các loại dự án và khách hàng khác nhau.

Phân cụm theo cửa hàng, phân cụm theo danh mục, phân cụm theo nhóm danh mục, là một trong các yếu tố | công cụ tốt giúp cho khối sale, khối marketing đưa ra các quyết định sáng suốt. Thông thường thì chúng ta sẽ phân loại các siêu thị thành các cụm, tuy nhiên, có vẻ như việc phân loại theo nhóm danh mục hoặc danh mục sẽ phù hợp hơn với mục tiêu kinh doanh | mục tiêu marketing. Ví dụ, việc phân loại theo danh mục sẽ cho phép chúng ta tiếp cận đến khoảng mục tiêu (target range) tốt hơn, và đưa ra các chương trình khuyến mãi phù hợp nhất với những nhu cầu của nhóm đó mang tới.

Bằng cách đưa cách tiếp cận phát triển sản phẩm vào việc lập kế hoạch và thực hiện phân tích, các tổ chức có thể mở rộng các thành công riêng biệt thành loại ra quyết định dựa trên dữ liệu bền vững, toàn tổ chức, đóng vai trò là nền tảng của chuyển đổi kỹ thuật số thực sự.

Chi phí liên quan đến n-gram tokenizer ở ElasticSearch và opensearch thường không đề cập chi tiết trong các tài liệu, do đó, có khi nó sẽ gây ra các hậu quả khá nghiêm trọng về chi phí và hiệu năng. Dẫn đến trường hợp là chúng ta phải "lấy thịt đè người" bằng cách tăng chi phí phần cứng một cách lãng phí. Trong bài viết này, chúng ta sẽ đề cập đến vài use-case sử dụng n-gram tokenizer, một số phương pháp cải tiến, hoặc một vài phương pháp thay thế nó bằng cách khách hiệu quả hơn.

Dạo gần đây, khi các ứng dụng AI đang hô mưa gọi gió trên toàn cõi, điển hình là hot keywork chatGPT, thì trong cộng đồng nghiên cứu cũng nổ ra cuộc chiến giữa hai phe Symbolic AI và Connectionist AI. Có vẻ như ở nơi nào có chia nhóm, thì sẽ có một nhóm người chọn phe này, và một nhóm khác chọn phe còn lại, một nhóm khác nữa đứng ở cả hai, nhóm khác nữa không chọn nhóm nào cả. Hai nhóm là nhóm đứng cả hai và nhóm không chọn nhóm nào cả thường ít hoặc không làm gì cả, còn nhóm chọn phe này và nhóm chọn phe kia sẽ đối đầu nhau rất gay gắt.

Nhân dịp đầu tháng, mình khai bút với chủ đề Real Time Recommendation. Paper này mình đọc cũng khá lâu rồi, giờ mới có dịp note lại chia sẻ. Các kỹ sư của ByteDance vừa mới cung cấp một paper nêu ra một vài hướng nghiên cứu của họ về Real Time Recommendation mà họ đã áp dụng thành công trong sản phẩm tiktok. Chủ đề này liên quan nhiều đến MLOpts - xây dựng kiến trúc hệ thống.