Một minh chứng rõ ràng cho xu hướng này chính là Bloomberg – “gã khổng lồ” trong mảng dữ liệu và tin tức tài chính. Gần đây, họ đã xuất bản bài viết về việc họ sử dụng llm để phân tích các papper về tài chính, để nắm bắt trend sử dụng llm từ khi chatgpt ra đời, đến thời điểm hiện tại, như thế nào. Nội dung chi tiết ở trong link https://arxiv.org/pdf/2509.09544
Phương thức thực hiện
Họ xây dựng đồ thị MetaGraph để xây đựng đồ thị tri thức từ 681 bài báo NLP Tài chính trong giai đoạn 2022–2025, Dùng Gemini 2.5 Flash 4, kết hợp với CoT, prompting, … cuối cùng rút ra một số kết luận có ý nghĩa
Chiều thời gian tiến hóa
Trước khi chatgpt ra đời, các phương pháp NLP thường là các phương pháp chủ đạo, bao gồm phân tích cảm xúc, NER, rút trích thông tin từ thị trường, tạo ra hàng chục , hàng trăng các vector, huấn luyện mô hình …. mấy cái này chắc nhiều ML biết rồi.
Trong giai đoạn chatgpt ra đời, vì chatgpt làm rất tốt việc hiểu ngôn ngữ, nên các task vụ về ner, phân tích cảm xúc dần dần biến mất, thay vào đó là các task về few shot.
Sau đó họ nhận ra rằng llm chưa đủ tốt, có những hạn chế về suy luận, tính an toàn, khả năng giải thích và khả năng mở rộng. Các nghiên cứu sau đó tập trung và phát triển RAG ( giai đoạn sau 2024 trở về sau).
Nghiên cứu cũng chỉ ra rằng, ban đầu các papper đều bị thống trị bởi chatgpt, nhưng sau đó, họ đều sử dụng các mô hình mã nguồn mở như llama, Qwen, Deepseek, có kết hợp với các mô hình độc quyền. Mô hình mã nguồn mở được sử dụng được đánh giá cao vì tính minh bạch, khả năng kiểm soát và khả năng thích ứng.
Sự thay đổi về data
Trước đây, các nguồn dữ liệu cho các papper đều thiên về hướng phân tích cảm xúc. Giờ đây, các nguồn data đó gần như là rất ít (chỉ còn data của cố phiếu là còn), data chủ yếu trong các papper là data QA. Ngoài ra còn phát sinh thêm dữ liệu đa phương thức có cấu trúc, như biểu đồ, nhận xét của các chuyên gia, bảng
Hy vọng cách chia mục rõ ràng này sẽ giúp bạn dễ dàng nắm bắt nội dung và sử dụng cho bài viết của mình!
Comments