Chi phí liên quan đến n-gram tokenizer ở ElasticSearch và opensearch thường không đề cập chi tiết trong các tài liệu, do đó, có khi nó sẽ gây ra các hậu quả khá nghiêm trọng về chi phí và hiệu năng. Dẫn đến trường hợp là chúng ta phải "lấy thịt đè người" bằng cách tăng chi phí phần cứng một cách lãng phí. Trong bài viết này, chúng ta sẽ đề cập đến vài use-case sử dụng n-gram tokenizer, một số phương pháp cải tiến, hoặc một vài phương pháp thay thế nó bằng cách khách hiệu quả hơn.

Dạo gần đây, khi các ứng dụng AI đang hô mưa gọi gió trên toàn cõi, điển hình là hot keywork chatGPT, thì trong cộng đồng nghiên cứu cũng nổ ra cuộc chiến giữa hai phe Symbolic AI và Connectionist AI. Có vẻ như ở nơi nào có chia nhóm, thì sẽ có một nhóm người chọn phe này, và một nhóm khác chọn phe còn lại, một nhóm khác nữa đứng ở cả hai, nhóm khác nữa không chọn nhóm nào cả. Hai nhóm là nhóm đứng cả hai và nhóm không chọn nhóm nào cả thường ít hoặc không làm gì cả, còn nhóm chọn phe này và nhóm chọn phe kia sẽ đối đầu nhau rất gay gắt.