Trí tuệ nhân tạo, Máy học, Dữ liệu lớn

- Đặng Thị Hằng
Trong vài năm trở lại đây (khoảng từ 2013) chúng ta có thể thấy rằng báo chí trong và ngoài nước có khá nhiều bài viết giật tít về “Cách mạng công nghiệp lần thứ tư” hay “Công nghiệp 4.0”. Cùng với sự xuất hiện với các cụm từ này thì các thuật ngữ như Trí tuệ nhân tạo, Máy học, Dữ liệu lớn còn xuất hiện với tần suất cao hơn rất nhiều. Vậy thì những thuật ngữ này có ý nghĩa gì và giữa chúng có mối liên hệ nào với nhau hay không? Trong bài viết này, chúng ta sẽ cùng tìm hiểu.

Trong vài năm trở lại đây (khoảng từ 2013) truyền thông trong và ngoài nước có khá nhiều bài viết giật tít về “Cách mạng công nghiệp lần thứ tư” hay “Thời đại công nghiệp 4.0”. Cùng với các cụm từ này, “Trí tuệ nhân tạo”, “Máy học”, “Dữ liệu lớn” lại được nhắc đến với tần suất cao hơn. Vậy thì những thuật ngữ này có ý nghĩa gì và giữa chúng có mối liên hệ nào với nhau hay không? Trong bài viết này, chúng ta sẽ cùng tìm hiểu.

Trí tuệ nhân tạo

Năm 2016, trong “Trận thách đấu của Google DeepMind” được tổ chức tại Hàn Quốc, AlphaGo (một phần mềm chơi cờ vây trên máy tính được xây dựng bởi Google DeepMind) đã dành chiến thắng 45 ván trước Lee Sedol (người từng 18 lần vô địch giải cờ vây thế giới) là sự kiện quan trọng khiến con người có thể tin tưởng vào tương lai và sức mạnh của trí tuệ nhân tạo.

Sau khi trận đấu kết thúc, chính phủ Hàn Quốc công bố rằng họ sẽ đầu từ 863 triệu USD (khoảng 1 nghìn tỷ won) vào nghiên cứu trí tuệ nhân tạo trong vòng vài năm tiếp theo.

Tính tới nay, lượng dữ liệu các trận đấu cờ vây được nhận vào giúp AlphaGO có kinh nghiệm tương đương với 80 năm chơi cờ vây liên tục. Một con số đáng ngạc nhiên và ngưỡng mộ.

Như vậy trí tuệ nhân tạo là gì?

Trí tuệ nhân tạo (AI - Artificial Intelligence) là một nhánh nghiên cứu trong lĩnh vực khoa học máy tính và từ lâu đã được rất nhiều các nhà nghiên cứu quan tâm. Thuật ngữ AI được đặt bởi nhà khoa học máy tính người Mỹ - John McCarthy vào năm 1956 tại Hội nghị Dartmouth. Cho đến thời điểm hiện tại thì có khá nhiều những phát biểu khác nhau về AI bởi các chuyên gia, chẳng hạn như:

  • AI là khoa học nghiên cứu giúp tạo ra máy tính có khả năng suy nghĩ, đầy trí tuệ như tên của chính nó (Haugeland, 1985).

  • AI là khoa học nghiên cứu các hoạt động trí não thông qua các mô hình tính toán (Chaniaka và McDemott, 1985).

  • AI là khoa học nghiên cứu cách để máy tính có thể thực hiện được những công việc mà con người làm tốt hơn máy (Rich và Knight, 1991).

  • AI là khoa học nghiên cứu các mô hình máy tính có thể nhận thức, lập luận và hành động (Winston, 1992).

  • AI là khoa học nghiên cứu các hành vi thông minh mô phỏng các vật thể nhân tạo (Nilsson, 1998)

  • AI là khoa học nghiên cứu các hành vi thông minh nhằm giải quyết các vấn đề được đặt ra đối với các chương trình máy tính (Học viện Kỹ thuật Quân sự).

Như vậy, từ những định nghĩa trên chúng ta có thể rút ra định nghĩa tổng quát rằng trí tuệ nhân tạo hay trí thông minh nhân tạo là trí tuệ được biểu diễn bởi bất kỳ một hệ thống nhân tạo nào. Hệ thống đó sẽ mô phỏng các quá trình hoạt động trí tuệ của con người, bao gồm quá trình học tập, lập luận và tự sửa lỗi. Do đó, trí thông minh nhân tạo liên quan đến cách hành xử, sự học hỏi và khả năng thích ứng thông minh của máy móc nói chung và máy tính nói riêng.

Cách đây vài năm, đối với phần đông chúng ta – những người không nghiên cứu chuyên sâu về AI sẽ cho rằng AI là một phương thức để nhân bản con người bằng máy móc và được ứng dụng trong chế tạo robot. Tuy nhiên AI hiện tại không phải chỉ là những con robot mà nó có thể biểu hiện dưới bất cứ hình dạng nào, thậm chí vô hình vô dạng, nhằm cung cấp lời giải cho các vấn đề của cuộc sống thực tế trên hầu hết các lĩnh vực, chẳng hạn như:

  • Trong lĩnh vực chăm sóc sức khỏe: AI góp phần cải thiện tình trạng sức khỏe bệnh nhân, và giúp giảm chi phí điều trị. Một trong những hệ thống công nghệ chăm sóc sức khỏe tốt nhất phải kể đến là IBM Watson, được mệnh danh là “Bác sĩ biết tuốt” khi mà hệ thống này có khả năng hiểu được các ngôn ngữ tự nhiên và có khả năng phản hồi các câu hỏi được yêu cầu hoặc cho phép bệnh nhân tra cứu thông tin về tinh hình sức khoẻ của mình. IBM Watson có thể lướt duyệt cùng lúc hàng triệu hồ sơ bệnh án để cung cấp cho các bác sĩ những lựa chọn điều trị dựa trên bằng chứng chỉ trong vòng vài giây nhờ khả năng tổng hợp dữ liệu khổng lồ và tốc độ xử lý mạnh mẽ. “Bác sĩ biết tuốt” khai thác dữ liệu bệnh nhân và các nguồn dữ liệu sẵn có khác nhằm tạo ra giả thuyết và từ đó xậy dựng một lược đồ điểm tin cậy giúp “Bác sĩ thật” đưa ra quyết định điều trị cuối cùng. Ngoài ra, ứng dụng AI nổi bậc khác trong lĩnh vực này cần phải kể đến là chatbot - chương trình máy tính trực tuyến để trả lời các câu hỏi và hỗ trợ khách hàng, sắp xếp các cuộc hẹn hoặc trợ giúp bệnh nhân thông qua quá trình thanh toán và các trợ lý y tế ảo cung cấp phản hồi y tế cơ bản.

  • Trong lĩnh vực kinh doanh: Các tác vụ mà con người thực hiện lặp đi lặp lại giờ đây đã được tự động hoá quy trình bằng robot. Các thuật toán Machine Learning được tích hợp trên các nền tảng phân tích và CRM (Customer Relationship Management - quản lý quan hệ khách hàng) để khám phá các thông tin về cách phục vụ khách hàng tốt hơn. Chatbots được tích hợp trên các trang web nhằm cung cấp dịch vụ ngay lập tức cho khách hàng. Một số hệ thống trợ lý ảo nổi tiếng giúp sắp xếp, nhắc cuộc họp, tìm kiếm thông tin như Google Assistant, Alexa, Siri. Hiện nay các hệ thống này đã bắt đầu được tích hợp vào trong các thiết bị gia dụng như máy giặt, tủ lạnh, lò vi sóng, … giúp người sử dụng có thể điều khiển thiết bị bằng câu lệnh thoại.

  • Trong lĩnh vực giáo dục: Công nghệ thực tế ảo làm thay đổi cách dạy và học. Sinh viên có thể đeo kính VR và có cảm giác như đang ngồi trong lớp nghe giảng bài hay nhập vai để chứng kiến những trận đánh giả lập, ngắm nhìn di tích, điều này giúp mang lại cảm xúc và ghi nhớ sâu sắc nội dung học. Hoặc khi đào tạo nghề phi công, học viên đeo kính sẽ thấy phía trước là cabin và học lái máy bay như thật để thực hành giúp giảm thiểu rủi ro trong quá trình bay thật.

  • Trong lĩnh vực tài chính: AI áp dụng cho các ứng dụng tài chính cá nhân như Mint hay Turbo Tax giúp tăng cường các định chế tài chính.

  • Trong lĩnh vực pháp luật: Quá trình khám phá, chọn lọc thông qua các tài liệu trong luật pháp thường áp đảo đối với con người. Tự động hóa quá trình này giúp tiết kiệm thời gian và quá trình làm việc hiệu quả hơn. Các trợ lý ảo giúp trả lời các câu hỏi đã được lập trình sẵn.

  • Trong lĩnh vực sản xuất: Đây là lĩnh vực đi đầu trong việc kết hợp robot vào luồng công việc. Robot công nghiệp được sử dụng để thực hiện các nhiệm vụ đơn lẻ và đã được tách ra khỏi con người. Xe tự động lái Tesla là một ứng dụng điển hình trong lĩnh vực này.

  • Trong lĩnh vực bảo mật thông tin: rất nhiều hệ thống nhận diện và bảo mật thông minh được xây dựng, phải kể đến như FaceID - bảo mật thông qua nhận diện khuôn mặt của Apple, Facebook với khả nhận diện khuôn mặt để gợi ý tag. Bên cạnh các nước phương Tây thì Trung Quốc hiện đang là quốc gia đi đầu trong việc sử dụng AI để nhận diện và quản lý công dân.

Từ những ứng dụng trên ta có thể thấy rằng nói đến AI là nói về não bộ chứ không phải là nói về một cơ thể, là phần mềm chứ không phải là phần cứng.

Dữ liệu lớn

Một cách tổng quát thì dữ liệu là thông tin dưới dạng ký hiệu, chữ viết, chữ số, hình ảnh, âm thanh hoặc dạng tương tự. Từ thế kỷ thứ 3 trước CN, Thư viện Alexandria được coi là nơi chứa đựng toàn bộ kiến thức của loài người. Ngày nay, tổng lượng dữ liệu trên toàn thế giới đủ để chia đều cho mỗi đầu người một lượng nhiều gấp 320 lần lượng dữ liệu mà các sử gia tin rằng Thư viện Alexandria từng lưu trữ – ước tính vào khoảng 120 exabyte. Các nhà thống kê cho rằng, nếu tất cả những dữ liệu này được ghi vào đĩa CD và xếp chồng chúng lên nhau thì sẽ có tới 5 chồng đĩa mà mỗi chồng đều có độ cao bằng khoảng cách từ Trái Đất đến Mặt Trăng.

Sự bùng nổ dữ liệu này chỉ mới xuất hiện gần đây. Cách đây không lâu, vào năm 2000, chỉ một phần tư lượng dữ liệu lưu trữ trên toàn thế giới ở dạng kỹ thuật số, ba phần tư còn lại được người ta lưu trên giấy tờ, phim, và các phương tiện analog khác. Nhưng do lượng dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm lại tăng gấp đôi, làm cho tỉ lệ này nhanh chóng đảo ngược. Hiện nay, chỉ dưới 2% tổng lượng dữ liệu chưa được chuyển sang lưu trữ ở dạng kỹ thuật số.

Dưới đây là một vài ví dụ nhỏ minh hoạ cho sự dùng nổ của dữ liệu hiện nay:

Theo Forbes, lượng dữ liệu mà người dùng tạo ra mỗi ngày là 2.5 tỷ tỷ bytes, một con số rất đáng kinh ngạc và dự đoán con số này sẽ tiếp tục bùng nổ nữa cùng với sự phát triển của Internet vạn vật (IoT – Internet of thing), khi mà hệ thống các thiết bị thông minh được kết nối và tương tác với nhau cũng như tương tác với người dùng, đồng thời thu thập dữ liệu. Dự báo có khoảng 200 tỷ thiết bị như thế vào năm 2020. Giả sử chỉ xét đến thiết bị tìm kiếm bằng giọng nói, hiện tại:

  • Có 33 triệu thiết bị qua giọng nói đang lưu thông.

  • 8 triệu người dùng điều khiển giọng nói mỗi tháng.

  • Các câu lệnh tìm kiếm bằng giọng nói trên Google trong năm 2016 tăng 35 lần so với năm 2008.

Theo thống kê, hiện nay có hơn 7 tỷ người sử dụng internet. Trung bình Google xử lý hơn 40.000 tìm kiếm mỗi giây (tức khoảng 3.5 tỷ tìm kiếm mỗi ngày, nếu tính cả những cổ máy tìm kiếm khác ngoại trừ Google thì con số này lên tới 5 tỷ lượt/ngày, 100 tỷ lượt/tháng) và những con số này sẽ tiếp tục tăng lên theo từng giây.

Rất đông người yêu thích các phương tiện truyền thông xã hội và dĩ nhiên việc sử dụng chúng cũng sẽ tạo ra dữ liệu. Theo báo cáo Data Never Sleép 5.0 của Domo, trên các phương tiện truyền thông cứ mỗi một phút sẽ có (nguồn http://www.internetlivestats.com/google-search-statistics/):

  • 527.760 bức ảnh được chia sẻ bởi người sử dụng Snapchat .

  • 456.000 tweet được gửi lên Twitter.

  • 46.740 bức ảnh được đăng bởi người dùng Instagram.

  • Hơn 120 người có công việc ổn định tham gia LinkedIn.

Với khoảng 2 tỷ người dùng, Facebook vẫn là mạng xã hội lớn nhất hành tinh và dưới đây là các số liệu liên quan đến Facebook (nguồn http://newsroom.fb.com/company-info/):

  • Hơn 900 triệu người thật sự sử dụng Facebook mỗi ngày, 82.8% trong số đó ở ngoài Mỹ và Canada.

  • 307 triệu / 2 tỷ là người Châu Âu.

  • Cứ mỗi giây lại có 5 tài khoản mới được tạo ra.

  • 510.000 bình luận được đăng tải và 293.000 trạng thái được cập nhật mỗi phút.

  • Hơn 300 triệu bức ảnh được tải lên mỗi ngày.

  • 15.000 ảnh GIF được gửi thông qua Facebook Messenger.

Cũng thuộc sở hữu của Facebook, Instagram cũng có những con số ấn tượng:

  • 600 triệu người dùng.

  • 400 triệu người hoạt động mỗi ngày.

  • 100 triệu người sử dụng tính năng Stories mỗi ngày.

Liên quan đến số lượng người dùng và dữ liệu chúng ta không thể không nhắc đến Youtube khi mà cứ mỗi một phút sẽ có khoảng 300 giờ video được đăng tải trên Youtube (nguồn https://www.youtube.com/yt/about/press/).

Trong thời đại công nghệ, việc thông qua các trang web hẹn hò để tìm nửa còn lại không còn là điều xa lạ. Với hơn 20 tỷ lượt kết đôi, Tinder xứng đáng là nhịp cầu công nghệ thành công bậc nhất hiện tại. Cứ mỗi phút trôi qua Tinder có khoảng 990.000 lượt vuốt và hơn 26 triệu lượt hẹn hò mỗi ngày.

Ngoài việc liên kết, trao đổi với nhau qua mạng xã hội, trong công việc mọi người thường sử dụng email, skype để thư từ, liên lạc. Tính đến năm 2019 có khoảng 9 tỷ người sử dụng email và dưới đây là một vài con số thống kê các sự kiện xảy ra trong một phút:

  • Người dùng gửi đi 16 triệu văn bản.

  • 156 triệu email được gửi đi với khoảng 16 triệu văn bản.

  • 103.447.520 thư rác được gửi đi.

  • 154.200 cuộc gọi Skype.

Không còn quá khó khăn trong việc lưu giữ các khoảnh khắc, ngày nay khi mà bất cứ ai cũng có thể sở hữu một chiếc điện thoại thông minh (smartphone) và ai cũng là nhiếp ảnh gia, cứ như thế có hàng nghìn tỷ bức ảnh được cho ra đời và lưu trữ trên điện thoại.

Thông qua những ví dụ vừa nêu có thể chúng ta sẽ nghĩ rằng dữ liệu lớn thuần tuý chỉ là vấn đề về kích cỡ, và nếu điều này là đúng thì dữ liệu bao nhiêu được cho là “lớn”?

Để trả lời câu hỏi này ta quay lại một chút về lịch sử của thuật ngữ “Big Data”. Không giống với AI và ML, Big Data không phải là một ngành khoa học chính thống mà chỉ là một thuật ngữ truyền thông mới xuất hiện trong vài năm trở lại đây. Nó không khác gì thuật ngữ “kỷ nguyên phần mềm” hay “cách mạng công nghiệp”. Mặc dù thuật ngữ này mới xuất hiện nhưng khối lượng dữ liệu tích tụ kể từ khi mạng Internet xuất hiện vào cuối thế kỷ trước cũng không phải là nhỏ từ ví dụ về thư viện Alexandria. Vậy thì câu hỏi đặt ra là tại sao với khối lượng khổng lồ như thế mà thời đó vẫn không gọi là Big Data? Câu trả lời là mặc dù được bao quanh bởi dữ liệu khổng lồ nhưng ở thời điểm đó con người không biết làm gì với chúng ngoài lưu trữ và sao chép. Cho đến khi các nhà khoa học nhận ra rằng trong đống dữ liệu này đang ẩn chứa một khối lượng tri thức khổng lồ. Những tri thức ấy có thể giúp ta hiểu thêm về con người và xã hội. Chẳng hạn như từ danh sách các bộ phim yêu thích của một cá nhân, chúng ta có thể rút ra được sở thích xem phem của người đó và gợi ý những bộ phim cùng thể loại. Hoặc từ danh sách tìm kiếm của cộng đồng mạng chúng ta sẽ biết được vấn đề nóng hổi nhất đang được quan tâm và sẽ tập trung đăng tải nhiều tin tức hơn về vấn đề đó, …

Như vậy, bùng nổ thông tin không phải là lý do duy nhất dẫn đến sự ra đời của cụm từ Big Data mà Big Data chỉ thực sự bắt đầu khi chúng ta hiểu được giá trị của thông tin ẩn chứa trong dữ liệu và có đủ tài nguyên cũng như công nghệ để có thể khai tác chúng trên quy mô lớn. Và không có gì ngạc nhiên khi Máy học chính là thành phần mấu chốt của công nghệ đó.

Máy học và mối quan hệ với Trí tuệ nhân tạo cùng Dữ liệu lớn

Để máy tính có khả năng suy nghĩ và trí tuệ như con người thì đòi hỏi máy tính phải có khả năng “học” mà không cần phải lập trình để thực hiện các tác vụ cụ thể đó. Về phía các nhà nghiên cứu AI, họ muốn xem thử liệu máy tính có thể học dữ liệu như thế nào? Từ đó thuật ngữ Máy học hay Học máy (ML – Machine Learning) được hình thành. Mặc dù không có nhiều định nghĩa như AI nhưng ML lại có 2 định nghĩa khá tường minh như sau:

  • Máy học là ngành học cung cấp cho máy tính khả năng học hỏi mà không cần được lập trình một cách rõ ràng (Arthur Samuel, 1959).

  • Theo Giáo sư Tom Mitchell – Carnegie Mellon University: Máy học là 1 chương trình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với độ đo hiệu suất P nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lường bởi độ đo P tăng từ kinh nghiệm E.

Một vài ví dụ minh hoạ cho định nghĩa của Tom Mitchell:

• Ví dụ 1: Giả sử như ta muốn máy tính xác định một tin nhắn có phải là SPAM hay không thì:

  • Tác vụ T: Xác định 1 tin nhắn có phải SPAM hay không?

  • Kinh nghiệm E: Xem lại những tin nhắn được đánh dấu là SPAM xem có những đặc tính gì để có thể xác định nó là SPAM.

  • Độ đo P: Là phần trăm số tin nhắn SPAM được phân loại đúng.

• Ví dụ 2: Chương trình nhận dạng chữ số viết tay (bao gồm các chữ số từ 0 đến 9)

  • Tác vụ T: nhận dạng được ảnh chứa ký tự số.

  • Kinh nghiệm E: Đặc trưng để phân loại ký tự số từ tập dữ liệu số cho trước.

  • Độ đo P: Độ chính xác của quá trình nhận dạng.

Mối quan hệ giữa ML với AI và Big Data

Trong phần 1 và phần 2 chúng ta luôn thấy sự xuất hiện của ML, đây là lý do vì sao mình không tách riêng mối quan hệ giữa các khái niệm này ra một phần riêng mà để chung trong nội dung của ML. Vậy thì mối liên hệ đó là gì?

Một cách hàn lâm thì AI là ngành khoa học được sinh ra với mục tiêu là làm cho máy tính có được trí thông minh như con người. Mục tiêu này vẫn khá mơ hồ vì không phải ai cũng đồng ý với một định nghĩa thống nhất về trí thông minh. Các nhà khoa học phải định nghĩa một số mục tiêu cụ thể hơn, một trong số đó là việc làm cho máy tính lừa được Turing Test. Turing Test được tạo ra bởi Alan Turing (1912 – 1954), người được xem là cha để của ngành khoa học máy tính hiện đại, nhằm phân biệt xem người đối diện có phả là người hay không.

Như vậy, AI thể hiện một của mục tiêu con người, trong khi ML là một phương tiện được kỳ vọng sẽ giúp con người đạt được mục tiêu đó. Và trên thực tế thì ML đã mang nhân loại đi rất xa trên quãng đường chinh phục AI. Dù có mối quan hệ chặc chẽ với nhau nhưng chúng không hẳn là trùng khớp vì môt bên là mục tiêu (AI), một bên là phương tiện (ML). Chinh phục AI mặc dù vẫn là mục đích tối thượng của ML, nhưng hiện tại ML tập trung vào những mục tiêu ngắn hạn hơn như làm cho máy tính có khả năng nhận thức cơ bản của con người như nghe, nhìn, hiểu được ngôn ngữ, giải toán, lập trình, …, các khả năng này ứng với các lĩnh vực cụ thể trong AI như:

  • Thị giác máy tính (computer vision): mục tiêu của lĩnh vực này là làm cho máy tính có thể nhìn như con người. Những ứng dụng quan trọng có thể kể đến trong lĩnh vực này như là nhận dạng chữ/ chứ số viết tay, nhận dạng khuôn mặt, dáng đi, cử chỉ, phân loại loài hoa, nhãn hiệu, phát hiện đồ vât, …. Từ tập hình ảnh ban đầu, các thuật toán ML sẽ tiến hành xử lý, phân tích để rút ra các đặc trưng chính giúp nhận dạng đối tượng hoặc phân biệt các đối tượng với nhau.

  • Xử lý Ngôn ngữ tự nhiên (Natural Language Processing – NLP): Mục tiêu là giúp cho máy tính có thể hiểu như con người. Dịch máy là một trong những ứng dụng điển hình của NLP, dịch nội dung của một đoạn văn bản từ ngôn ngữ này sang ngôn ngữ khác (Google Translate). Xuất phát từ “Từ điển” hoặc tập các cặp câu song ngữ, tập luật ngữ pháp của mỗi ngôn ngữ được tạo bởi người có chuyên môn về những ngôn ngữ đó, các thuật toán máy học sẽ tiến hành phân tích để tách câu, tách từ, xác định từ loại, phân tích cú pháp để từ đó lấy ra ngữ nghĩa phù hợp rồi ghép lại với nhau và cho ra nội dung ở ngôn ngữ tương ứng. Ngoài ra, tóm tắt văn bản dựa vào các từ khoá của từng lĩnh vực cũng là một bài toán ML rất được quan tâm trong vài năm trở lại đây, khi mà mỗi ngày lượng tin tức cần phải đọc là quá nhiều.

  • Xử lý tiếng nói (Speech Language Processing): nhằm làm cho máy tính có thể nghe được như người. Tổng hộp tiếng nói (text to speech) để đọc sách cho người khiếm thị, tạo sub cho các video (speech to text) để hỗ trợ cho người khiếm thính hoặc hỗ trợ cho việc học ngôn ngữ; nhận dạng giọng nói (speech recognition) giúp phát hiện tội phạm là một số ứng dụng điển hình trong lĩnh vực này.

Thay vì cố gắng “dạy” máy tính cách làm một việc gì đó, chẳng hạn như lái xe hơi, điều mà các chuyên gia AI cần làm là cung cấp “đủ” dữ liệu cho một máy tính để nó có thể tính ra xác suất của tất cả mọi thứ mà người ta muốn tính toán, ví như xác suất người đi đường gặp đèn giao thông màu xanh, màu đỏ, màu vàng, … thì chuẩn xác hơn.

Do đó, nhiệm vụ thực sự của ML trong AI là “học” mà thực chất của việc học này là rút trích thông tin hữu ích cho từng bài toán trong “tập dữ liệu” cho trước. Lúc này mối quan hệ giữa ML và Big Data sẽ được bộc lộ, đó là nếu khối lượng dữ liệu của Big Data càng gia tăng thì ML sẽ phát triển hơn, có khả năng rút trích được nhiều thông tin giá trị hơn hay dự đoán chính xác hơn, ngược lại thì giá trị của Big Data phụ thuộc vào khả năng khai thác tri thức từ dữ liệu của ML, vì nó sẽ thực sự là Big Data khi khối lượng dữ liệu đó mang lại thông tin hữu ích.

Việc sử dụng những khối lượng thông tin theo cách này đòi hỏi chúng ta phải có sự thay đổi trong cách tiếp cận dữ liệu. Một là thu thập và sử dụng thật nhiều dữ liệu thay vì chấp nhận lấy những mẫu thống kê với số lượng nhỏ như các nhà thống kê vẫn làm từ hơn một thế kỷ nay. Hai là không nhất thiết phải kén chọn sàng lọc ra dữ liệu sạch, vì kinh nghiệm thực tiễn cho thấy rằng một chút sai lệch trong thông tin vẫn có thể chấp nhận được, và việc sử dụng một lượng khổng lồ những dữ liệu ô hợp đem lại nhiều ích lợi hơn là dữ liệu tuy chính xác nhưng dung lượng quá ít. Ba là trong nhiều trường hợp, chúng ta không nhất thiết phải cố tìm ra nguyên nhân đằng sau các hiện tượng.Ví dụ, không cần phải cố tìm hiểu chính xác vì sao một cỗ máy bị hỏng, thay vào đó các nhà nghiên cứu có thể thu thập và phân tích thật nhiều dữ liệu về chúng cùng tất cả mọi thứ liên quan, từ đó rút ra quy luật làm cơ sở dự đoán các sự vật, sự việc trong tương lai.

Dưới đây là một số tài liệu mình đã sử dụng để tham khảo trong qua trình viết bài:

Introduction to Machine Learning of Alex Smola and S.V.N. Vishwanathan.

Artificial Intelligence (third edition) of The McGraw-Hill Companies, write by Elaine Rich, Kevin Knight and Shivashankar B Nair.

https://i4iam.files.wordpress.com/2013/08/artificial-intelligence-by-rich-and-knight.pdf

https://en.wikipedia.org/wiki/Artificial_intelligence

https://searchenterpriseai.techtarget.com/definition/AI-Artificial-Intelligence

http://vienthongke.vn/tin-tuc/43-tin-tuc/2176-thoi-dai-cua-du-lieu-lon-big-data

Cảm ơn các bạn đã theo dõi. Hẹn gặp bạn ở những bài viết tiếp theo.


Bài viết khác
comments powered by Disqus