Nội dung chính Khoa học máy tính 12 Cánh diều bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Hệ thống kiến thức trọng tâm bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo) sách Tin học 12 - Định hướng Khoa học máy tính sách Cánh diều. Với các ý rõ ràng, nội dung mạch lạc, đi thẳng vào vấn đề, hi vọng người đọc sẽ nắm trọn kiến thức trong thời gian rất ngắn. Nội dung chính được tóm tắt ngắn gọn sẽ giúp thầy cô ôn tập, củng cố kiến thức cho học sinh. Bộ tài liệu có file tải về. Mời thầy cô kéo xuống tham khảo.

Xem: => Giáo án Tin học 12 - Định hướng khoa học máy tính cánh diều

Xem toàn bộ:

CHỦ ĐỀ BÀI 3: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (Tiếp theo): GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

BÀI 3: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (Tiếp theo)GIỚI THIỆU HỌC MÁY VÀ KHOA HỌC DỮ LIỆU

BÀI 3: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (Tiếp theo)

 

1. Các đặc trưng của dữ liệu lớn

- Khái niệm: Dữ liệu lớn (Big Data) đề cập đến nguồn dữ liệu có khối lượng rất lớn, có tính đa dạng và phức tạp đến mức các công cụ truyền thống khó có thể lưu trữ và xử lí một cách hiệu quả. 

- Các đặc trưng:

+ Dữ liệu lớn có các đặc trưng thường được nêu tóm tắt bằng các chữ V, từ “3V” đến “5V”, thậm chí đến “10V”. 

+ Năm chữ V nói về những đặc trưng thường được đề cập của dữ liệu lớn: 

BÀI 3: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (Tiếp theo)

Hình 1. Năm chữ V của dữ liệu lớn

  • Khối lượng (Volume): Tập dữ liệu được coi là “dữ liệu lớn” có khối lượng ở mức nhiều petabyte hoặc exabyte. 

Ví dụ: Tập dữ liệu về hàng triệu khách hàng của một doanh nghiệp lớn có thể gồm hàng tỉ tệp, mỗi tệp nhiều megabyte.

  • Tốc độ (Velocity): 
  • Dữ liệu được tạo thêm rất nhanh và có thể cần xử lí hàng loạt, nhanh chóng theo thời gian thực để đáp ứng việc ra quyết định kịp thời. 

Ví dụ: Quyết định về mua bán chứng khoán,... 

  • Các nguồn dữ liệu như: thiết bị cảm biến, mạng xã hội và các trang web,... tạo ra luồng dữ liệu lớn và liên tục. Lưu trữ và quản lí một lượng dữ liệu lớn, không ngừng tăng lên hằng ngày, liên quan đến một phạm vi rộng trên khắp thế giới là một thách thức.
  • Tính đa dạng (Variety): 
  • Dữ liệu đến từ nhiều nguồn khác nhau, dưới các dạng khác nhau như văn bản, hình ảnh, âm thanh, video,... 

Ví dụ: Facebook mỗi ngày có thể tạo ra khoảng 500 terabyte dữ liệu. 

  • Tính đa dạng làm tăng độ phức tạp trong việc tổ chức lưu trữ, tìm kiếm, chuyển đổi khuôn dạng.... để các phần mềm phân tích dữ liệu có thể xử lí được. 
  • Tính xác thực (Veracity): 
  • Đề cập đến độ tin cậy và độ chính xác của dữ liệu, bao gồm các yếu tố như: chất lượng dữ liệu, tính toàn vẹn, tính nhất quán và tính đầy đủ. 
  • Tính xác thực rất quan trọng trong việc đảm bảo rằng những hiểu biết sâu sắc được tạo ra từ dữ liệu lớn là chính xác và đáng tin cậy. 
  • Dữ liệu lớn đến từ nhiều nguồn khác nhau làm cho việc đảm bảo tính xác thực là một thách thức. 
  • Giá trị (Value): 
  • Dữ liệu lớn có tiềm năng mang lại những thông tin và trí thức có giá trị, từ đó đưa ra những quyết định mang lại hiệu quả cao. 
  • Xử lí dữ liệu lớn để khai thác được các giá trị tiềm năng cũng là một thách thức. 

Ví dụ: Dự án Bộ gen người HGP có thể coi là một dự án dữ liệu lớn. Kết quả của dự án là vô giá vì nó mở ra một kỉ nguyên mới trong lĩnh vực y tế và chăm sóc sức khoẻ con người. 

Nhận xét: Quản lí và khai phá lượng lớn dữ liệu mang lại các lợi ích tầm chiến lược nhưng có nhiều thách thức.

2. Phân tích dữ liệu, phát hiện tri thức

a) Phân tích dữ liệu

- Phân tích dữ liệu: 

+ Là quá trình kiểm tra, làm sạch, chuyển đổi và lập mô hình dữ liệu với mục đích tìm ra các thông tin hữu ích từ dữ liệu để đưa ra kết luận hoặc dự đoán. 

+ Có thể chia thành hai loại: 

  • Phân tích mô tả: 
  • Là tóm tắt dữ liệu quá khứ và trình bày trực quan, giúp người sử dụng dễ dàng nắm bắt được những thông tin quan trọng cần biết. 
  • Các thông tin rút ra từ tập dữ liệu được biểu diễn bằng sơ đồ, biểu đồ, đồ thị,… giúp người sử dụng dễ nhận ra các mẫu hoặc xu hướng, có cái nhìn rõ ràng, tổng thể về vấn đề cần giải quyết. 
  • Phân tích dự đoán nhằm đưa ra dự đoán (dự báo) hoặc phân loại dữ liệu mới.

Ví dụ: Nhằm điều chỉnh giá bán hàng sao cho lợi nhuận thu được nhiều hơn, từ phân tích dữ liệu có thể đưa ra phỏng đoán “quá mức ngưỡng X đồng, giá bán càng cao thì doanh số càng giảm”. 

 Đây là một giả thuyết thống kê. 

  • Kiểm định giả thuyết thống kê nhằm ra quyết định có thể chấp nhận hay bác bỏ một giả thuyết. 
  • Nếu giả thuyết thống kê nêu trên được chấp nhận thì “mức ngưỡng X đồng là giá bán tốt nhất” là hiểu biết mới được rút ra từ dữ liệu đã có. 

- Dữ liệu chuỗi thời gian (time series):

+ Là chuỗi các điểm dữ liệu được ghi lại theo chu kì thời gian.

Ví dụ: Hằng ngày, hằng tuần, hằng tháng. 

+ Phân tích chuỗi thời gian cho phép dự đoán các điểm dữ liệu trong tương lai, trước khi sự việc xảy ra. 

- Phân tích hồi quy là một kĩ thuật cho phép xác định mối quan hệ phụ thuộc của một giá trị muốn biết với các giá trị một số thuộc tính khác và cho phép dự đoán giá trị muốn biết khi có dữ liệu mới. 

b) Khai phá dữ liệu, phát hiện tri thức 

- Phát hiện hay khám phá tri thức đề cập đến toàn bộ quy trình trích xuất tri thức từ dữ liệu. Khai phá dữ liệu là một bước trong quy trình này. 

- Khai phá dữ liệu: 

+ Là phát hiện các mẫu, các xu hướng trong tập dữ liệu. 

+ Thường dùng các phương pháp giao thoa giữa Học máy và Thống kê. 

- Để trích xuất thông tin hữu ích từ các tập dữ liệu lớn có nhiều kĩ thuật khai phá dữ liệu khác nhau:

+ Phân loại: Gán cho mỗi đối tượng một nhãn phân loại tuỳ theo các thuộc tính đặc trưng của nó.

+ Phân cụm: Chia tập đối tượng thành các cụm dựa trên sự tương tự và khác biệt của các đối tượng.

  • Các đối tượng trong cùng một cụm có các đặc điểm tương tự nhau.
  • Các đối tượng trong các cụm khác nhau thì có đặc điểm khác nhau.

3. Vai trò của máy tính và thuật toán ưu việt với Khoa học dữ liệu

a) Máy tính là công cụ quan trọng trong Khoa học dữ liệu 

- Trước đây, việc phân tích dữ liệu, trích rút thông tin và tri thức chủ yếu do chuyên gia trực tiếp thực hiện. Hiện nay, máy tính đóng vai trò quan trọng trong việc xử lí và phân tích dữ liệu để đạt các mục tiêu của Khoa học dữ liệu:

+ Các giai đoạn của dự án Khoa học dữ liệu như thu thập dữ liệu, chuẩn bị dữ liệu, phân tích dữ liệu đều cần đến máy tính. 

+ Máy tính mang lại khả năng lưu trữ và quản lí dữ liệu hiệu quả. 

- Khoa học dữ liệu đang phát triển mạnh mẽ nhờ có Học máy và Trí tuệ nhân tạo. Trí tuệ nhân tạo nói chung và Học máy nói riêng nghiên cứu phát triển các công cụ, quy trình, thuật toán để mô hình hoá dữ liệu, tự động phát hiện tri thức trong dữ liệu. 

- Sự phát triển của Khoa học dữ liệu:

+ Các công ty lớn như Uber, Google, Facebook và nhiều doanh nghiệp khác đã lập các nhóm nghiên cứu về Khoa học dữ liệu để tăng hiệu quả hoạt động kinh doanh. 

+ Theo Harvard Business Review (tháng 1 năm 2012), làm nhà khoa học dữ liệu là công việc hấp dẫn nhất của thế kỉ XXI. 

+ Nhà khoa học dữ liệu xếp hạng 3 trong các nghề công nghệ theo danh sách xếp hạng việc làm năm 2022 của US News & World Report. 

+ Cục thống kê lao động Mỹ (U.S. Bureau of Labor Statistics) dự đoán từ năm 2020 – 2023 mức tăng trưởng việc làm này là 30-35%. 

b) Máy tính và thuật toán ưu việt giúp phân tích dữ liệu hiệu quả 

- Máy tính chạy các phần mềm phân tích dữ liệu để mô hình hoá dữ liệu, phát hiện tri thức trong dữ liệu. 

- Các siêu máy tính có tốc độ hàng nghìn tỉ phép tính một giây, có bộ nhớ và các ổ đĩa dung lượng rất lớn cho phép quản lí, lưu trữ dữ liệu lớn; các thuật toán ưu việt giúp phân tích, xử lí dữ liệu lớn để phát hiện được tri thức hữu ích. 

- Khoa học máy tính và công nghệ thông tin đã phát triển các giải pháp ưu việt và tạo ra các công cụ hiệu quả để giải quyết những vấn đề mà dữ liệu lớn đặt ra. 

+ Điện toán đám mây: 

  • Dữ liệu lớn lưu trữ trên đám mây tiện lợi cho truy cập và sử dụng mọi lúc mọi nơi, chỉ cần có thiết bị kết nối Internet. 
  • Sử dụng dịch vụ điện toán đám mây, doanh nghiệp có thể tiết kiệm chi phí, không cần đầu tư vào cơ sở hạ tầng. 
  • Điện toán đám mây rất linh hoạt, thích nghi với các thay đổi mở rộng hoặc thu hẹp triển khai các tài nguyên số phù hợp với nhu cầu của tổ chức doanh nghiệp. 
  • Một số dịch vụ điện toán đám mây phổ biến: Amazon Web Services, Microsoft Azure,… 

+ Cơ sở dữ liệu NoSQL:

  • Đề cập đến các giải pháp cơ sở dữ liệu bổ sung để làm việc với dữ liệu không cấu trúc, không được tổ chức để truy vấn theo SQL. 
  • Các thuật toán như: sắp xếp ngoài, tìm kiếm cho phép tổ chức lưu trữ linh hoạt, dễ dàng mở rộng cho lượng dữ liệu lớn và lượng người dùng cao, phù hợp để quản lí và phân tích dữ liệu lớn. 
  • Một số hệ quản trị cơ sở dữ liệu NoSQL được sử dụng nhiều: Amazon DynamoDB, Google MongoDB, IBM Cloudant hay nguồn mở như Apache Hadoop,... 

+ Máy tính cụm (Cluster): 

  • Là một tập hợp các máy tính tích hợp để hoạt động như một máy tính đơn nhất. 
  • Có các tính năng ưu việt như: tính sẵn sàng cao, dễ mở rộng, dễ quản lí, tiết kiệm chi phí hơn so với các máy tính lớn có sức mạnh tương đương. 

+ Các thuật toán song song:

  • Thực hiện nhiều phép tính đồng thời, tiến hành nhiều tiến trình cùng lúc, có thể triển khai trên máy tính cụm. 
  • Các thuật toán song song có tính ưu việt giúp tăng tốc độ tính toán nhiều lần với chi phí thấp hơn so với sử dụng hệ thống phần cứng tương đương.

Ví dụ: Thuật toán sắp xếp nhanh song song chia mảng đầu vào thành các mảng con và thực hiện song song việc sắp xếp những mảng con này. Việc chia một bài toán lớn đòi hỏi tính toán rất nhiều thành các bài toán nhỏ hơn có thể giải đồng thời bằng các thuật toán song song làm giảm đáng kể khoảng thời gian xử lí lượng lớn dữ liệu và có kết quả kịp thời theo yêu cầu sử dụng.

Trên chỉ là 1 phần của giáo án. Giáo án khi tải về có đầy đủ nội dung của bài. Đủ nội dung của học kì I + học kì II

Hệ thống có đầy đủ các tài liệu:

  • Giáo án word (350k)
  • Giáo án Powerpoint (400k)
  • Trắc nghiệm theo cấu trúc mới (200k)
  • Đề thi cấu trúc mới: ma trận, đáp án, thang điểm..(200k)
  • Phiếu trắc nghiệm câu trả lời ngắn (200k)
  • Trắc nghiệm đúng sai (200k)
  • Lý thuyết bài học và kiến thức trọng tâm (200k)
  • File word giải bài tập sgk (150k)
  • Phiếu bài tập để học sinh luyện kiến thức (200k)
  • .....

Nâng cấp lên VIP đê tải tất cả ở tài liệu trên

  • Phí nâng cấp VIP: 900k

=> Chỉ gửi 500k. Tải về dùng thực tế. Nếu hài lòng, 1 ngày sau mới gửi phí còn lại

Cách tải hoặc nâng cấp:

  • Bước 1: Chuyển phí vào STK: 1214136868686 - cty Fidutech - MB(QR)
  • Bước 2: Nhắn tin tới Zalo Fidutech - nhấn vào đây để thông báo và nhận tài liệu

Xem toàn bộ:

Tài liệu giảng dạy

Xem thêm các bài khác

Chat hỗ trợ
Chat ngay