Nội dung chính Khoa học máy tính 12 Chân trời bài F16: Máy tính, thuật toán và Khoa học dữ liệu
Hệ thống kiến thức trọng tâm bài F16: Máy tính, thuật toán và Khoa học dữ liệu sách Tin học 12 - Định hướng Khoa học máy tính Chân trời sáng tạo. Với các ý rõ ràng, nội dung mạch lạc, đi thẳng vào vấn đề, hi vọng người đọc sẽ nắm trọn kiến thức trong thời gian rất ngắn. Nội dung chính được tóm tắt ngắn gọn sẽ giúp thầy cô ôn tập, củng cố kiến thức cho học sinh. Bộ tài liệu có file tải về. Mời thầy cô kéo xuống tham khảo.
Xem: => Giáo án Tin học 12 - Định hướng Khoa học máy tính chân trời sáng tạo
CHỦ ĐỀ F: GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
BÀI F16: MÁY TÍNH, THUẬT TOÁN VÀ KHOA HỌC DỮ LIỆU
1. Vai trò của máy tính đối với sự phát triển của Khoa học dữ liệu
- Sự phát triển của máy tính đóng vai trò quan trọng trong việc cung cấp nền tảng cho sự phát triển của Khoa học dữ liệu:
- Năng lực tính toán mạnh mẽ, lưu trữ lớn, tốc độ xử lí cao, xử lí đa nhiệm và kết nối mạng là các yếu tố quan trọng giúp nâng cao khả năng phân tích và hiểu biết dữ liệu lớn.
- Các thành tựu của phần cứng máy tính như: bộ xử lí đồ hoạ (Graphics Processing Unit – GPU), bộ xử lí tensor (Tensor Processing Unit – TPU), điện toán đám mây, máy tính lượng tử,... đã giúp Khoa học dữ liệu phát triển nhanh chóng và đạt hiệu quả cao hơn trong việc phân tích xử lí dữ liệu lớn.
Bảng 1. Đặc điểm của máy tính đối với
sự phát triển của Khoa học dữ liệu
qua các thời kì
- Hiện nay, các dự án liên quan đến Khoa học dữ liệu thường áp dụng một quy trình chung, được gọi là quy trình Khoa học dữ liệu:
Hình 1. Quy trình Khoa học dữ liệu
Xác định vấn đề: Đặt ra câu hỏi cần trả lời hoặc mục tiêu cụ thể cần giải quyết của dự án.
Thu thập dữ liệu: Tìm kiếm, thu thập hoặc tạo dữ liệu cần thiết để giải quyết vấn đề. Dữ liệu thu thập thường được chia làm hai phần:
+ Phần thứ nhất (gọi là dữ liệu huấn luyện) dùng cho mô hình học máy học.
+ Phần còn lại (gọi là dữ liệu kiểm tra) dùng để đánh giá hiệu suất của mô hình.
Chuẩn bị dữ liệu: Làm sạch dữ liệu, khám phá tri thức ẩn trong dữ liệu, trực quan hoá dữ liệu và chuẩn bị cho việc xây dựng mô hình học máy.
Xây dựng mô hình: Chọn và áp dụng mô hình học máy phù hợp với dự án.
Đánh giá: Đánh giá hiệu suất của mô hình với dữ liệu kiểm tra đã có ở bước thu thập dữ liệu.
Triển khai: Triển khai mô hình vào sử dụng trong môi trường thực tế.
Nhận xét: Máy tính có vai trò quan trọng trong mọi giai đoạn của quy trình khoa học dữ liệu:
- Máy tính được sử dụng để lưu trữ, xử lí và phân tích dữ liệu.
- Các mô hình học máy và khai phá dữ liệu được thực hiện trên các máy tính để tìm kiếm các mẫu và thông tin tiềm ẩn trong dữ liệu.
- Máy tính cũng được sử dụng để tạo ra các mô hình dự đoán và phân loại.
Bảng 2. Vai trò của máy tính đối với
Khoa học dữ liệu
2. Tính ưu việt của sử dụng máy tính và thuật toán trong xử lí dữ liệu lớn
- Thuật ngữ dữ liệu lớn (Big Data) xuất hiện từ những năm 1990 và được sử dụng để mô tả quy mô lớn và phức tạp của dữ liệu, cả về khối lượng và sự đa dạng mà không thể xử lí bằng cách sử dụng phương pháp truyền thống.
- Dữ liệu lớn và Khoa học dữ liệu có mối quan hệ mật thiết:
+ Khoa học dữ liệu sử dụng các kĩ thuật và công cụ để phân tích, khám phá, trích rút thông tin từ dữ liệu lớn.
+ Dữ liệu lớn cung cấp nguồn nguyên liệu phong phú để áp dụng các phương pháp và kĩ thuật trong Khoa học dữ liệu.
- Dữ liệu lớn bao gồm năm yếu tố chính (5V):
+ Volume (Khối lượng) đề cập tới khối lượng dữ liệu rất lớn.
+ Velocity (Tốc độ) đề cập tới dữ liệu được tạo ra rất nhanh.
+ Variety (Đa dạng) đề cập tới các loại dữ liệu khác nhau, bao gồm:
- Dữ liệu có cấu trúc (cơ sở dữ liệu quan hệ).
- Dữ liệu bán cấu trúc (XML, JSON).
- Dữ liệu phi cấu trúc (email, bài đăng trên mạng xã hội, âm thanh, hình ảnh, video).
+ Veracity (Độ tin cậy hay độ xác thực) đề cập đến độ tin cậy và chất lượng của dữ liệu.
+ Value (Giá trị) đề cập tới giá trị mà dữ liệu mang lại.
- Máy tính đóng vai trò quan trọng trong mọi giai đoạn của quy trình Khoa học dữ liệu, bao gồm yêu cầu xử lí dữ liệu lớn:
+ Sử dụng máy tính để xử lí dữ liệu lớn mang lại nhiều ưu điểm đáng kể, từ tốc độ xử lí đến khả năng linh hoạt và đa nhiệm, giúp tăng cường khả năng phân tích, rút trích thông tin, dự báo,…
+ Sử dụng máy tính để xử lí dữ liệu lớn mang lại nhiều ưu việt:
- Tốc độ xử lí: Với khả năng xử lí hàng triệu hoặc thậm chí hàng tỉ phép tính mỗi giây, cho phép máy tính xử lí dữ liệu lớn nhanh chóng, giúp tiết kiệm thời gian so với thực hiện công việc thủ công hoặc bằng các phương pháp truyền thống.
- Thực hiện các mô hình học máy trên dữ liệu lớn: Có thể kiểm thử cũng như điều chỉnh tính hiệu quả và độ chính xác của mô hình học máy trên tập dữ liệu thử nghiệm lớn và đa dạng trên máy tính.
- Khả năng mở rộng: Máy tính có thể được kết hợp thành các mạng máy tính, giúp xử lí dữ liệu ở quy mô lớn hơn.
- Lưu trữ và bảo mật dữ liệu:
- Máy tính cung cấp khả năng lưu trữ và truy xuất dữ liệu lớn từ những nguồn khác nhau, bao gồm lưu trữ trực tuyến.
- Máy tính cung cấp các công cụ để bảo vệ dữ liệu và kiểm soát quyền truy cập, đảm bảo tính an toàn.
- Máy tính có thể xử lí dữ liệu có cấu trúc và phi cấu trúc, dữ liệu văn bản, hình ảnh, âm thanh và dữ liệu thời gian thực.
Xử lí theo thời gian thực: Máy tính cho phép xử lí và phân tích dữ liệu lớn theo thời gian thực. Điều này rất quan trọng trong các ứng dụng như giám sát quy trình công nghiệp, giao dịch tài chính,…
- Trong xử lí dữ liệu lớn, bên cạnh việc sử dụng máy tính, các thuật toán cũng được sử dụng để tăng cường khả năng xử lí:
+ Xử lí song song: Các kĩ thuật dựa trên thuật toán song song cho phép mô hình thực hiện trên nhiều nguồn tính toán, tận dụng sức mạnh của máy tính đa nhân, hệ thống kết nối nhiều máy tính, điện toán đám mây để giảm thời gian và chi phí trong quá trình xử lí dữ liệu.
+ Tự động hoá: Thuật toán giúp tự động hoá nhiều quy trình xử lí dữ liệu, giảm bớt sự phụ thuộc vào các quá trình thủ công.
Ví dụ: Sử dụng các thuật toán để tự động hoá các nhiệm vụ có tính chất lặp lại như làm sạch dữ liệu, đồng bộ hoá dữ liệu giữa các nguồn lưu trữ khác nhau,…
Ví dụ 1:
- Vào năm 2020, GPT-3 của OpenAI đã thu thập khoảng 45 TB dữ liệu thô từ sách, tạp chí, trang web,... với nhiều chủ đề khác nhau. Sau đó, dữ liệu thô được xử lí để tạo ra 570 GB dữ liệu vào cho mô hình học máy. Lượng dữ liệu thô thu thập dùng cho GPT-3 tương đương khoảng 200 000 giờ video Full HD hoặc 15 triệu giờ âm thanh định dạng MP3.
- Các phiên bản khác nhau của GPT-3 sử dụng từ 125 triệu đến 175 tỉ tham số (phụ thuộc vào số tầng trong mạng học sâu của mô hình). Theo ước tính, việc đào tạo mô hình GPT-3 với 175 tỉ tham số cần hàng trăm năm với 1 GPU V100. Để giảm thời huấn luyện mô hình học máy, OpenAI đã sử dụng 1024 GPU NVIDIA A100 để huấn luyện mô hình GPT-3 trong 34 ngày.
Ví dụ 2:
- Protein là nhân tố thiết yếu cho sự sống được hình thành từ các amino axit, sau đó trải qua quá trình gấp xoắn để hình thành cấu trúc 3D phức tạp. Chức năng của protein phụ thuộc chủ yếu vào cấu trúc 3D của nó. Trong nhiều thập kỉ, các nhà nghiên cứu đã giải mã cấu trúc 3D của protein bằng cách sử dụng các kĩ thuật như tinh thể học tia X (X-ray crystallography) hoặc kính hiển vi điện tử lạnh (Cryogenic electron microscopy viết tắt là Cryo-EM) và đã giải được cấu trúc của 170 000 protein trong số khoảng 200 triệu protein. Theo ước tính, để dự đoán cấu trúc một protein dựa trên phương pháp tinh thể học tia X cần từ vài tháng đến hàng năm.
- Vào năm 2020, DeepMind đã phát triển mô hình học máy AlphaFold 2 có khả năng dự đoán cấu trúc protein với độ chính xác cao trong khoảng thời gian từ vài giờ đến vài ngày tuỳ thuộc vào độ phức tạp của protein, cấu hình máy tính và kích thước của mô hình dự đoán. AlphaFold 2 cũng đã được sử dụng để dự đoán cấu trúc protein của virut SARS-CoV-2. Vào năm 2023, các nhà khoa học tại Viện Tin sinh học châu Âu thuộc EMBL (EMBL-EBI), Viện Công nghệ Thụy Sĩ (ETH Zurich) và Google DeepMind đã sử dụng tập dữ liệu AlphaFold DB (chứa khoảng 200 triệu cấu trúc protein dự đoán dựa trên mô hình học máy) và phát triển thuật toán Foldseek Cluster để so sánh mọi cấu trúc protein và tìm ra sự tương đồng giữa các protein của các loài khác nhau. Thuật toán Foldseek Cluster đã gom cụm khoảng 2,3 triệu cụm cấu trúc protein có sự tương đồng về các hình dạng ba chiều. Theo ước tính, thì thuật toán Foldseek Cluster chỉ năm ngày thay vì hàng năm để thực hiện việc gom cụm các cấu trúc protein. Công trình này ngoài việc thực hiện gom cụm hiệu quả mà còn tăng hiểu biết mới vào lịch sử tiến hoá của các protein. Các tác giả đã tìm ra những tương đồng cấu trúc giữa các protein miễn dịch người và những protein tương tự trong vi khuẩn. Ví dụ này cho thấy việc sử dụng máy tính, thuật toán đã thể hiện tính ưu việt về tốc độ, độ chính xác, khả năng mở rộng,… trong xử lí dữ liệu lớn.
Trên chỉ là 1 phần của giáo án. Giáo án khi tải về có đầy đủ nội dung của bài. Đủ nội dung của học kì I + học kì II
Hệ thống có đầy đủ các tài liệu:
- Giáo án word (350k)
- Giáo án Powerpoint (400k)
- Trắc nghiệm theo cấu trúc mới (200k)
- Đề thi cấu trúc mới: ma trận, đáp án, thang điểm..(200k)
- Phiếu trắc nghiệm câu trả lời ngắn (200k)
- Trắc nghiệm đúng sai (200k)
- Lý thuyết bài học và kiến thức trọng tâm (200k)
- File word giải bài tập sgk (150k)
- Phiếu bài tập để học sinh luyện kiến thức (200k)
- .....
Nâng cấp lên VIP đê tải tất cả ở tài liệu trên
- Phí nâng cấp VIP: 900k
=> Chỉ gửi 500k. Tải về dùng thực tế. Nếu hài lòng, 1 ngày sau mới gửi phí còn lại
Cách tải hoặc nâng cấp:
- Bước 1: Chuyển phí vào STK: 1214136868686 - cty Fidutech - MB(QR)
- Bước 2: Nhắn tin tới Zalo Fidutech - nhấn vào đây để thông báo và nhận tài liệu