Nội dung chính Khoa học máy tính 12 Cánh diều bài 2: Giới thiệu về khoa học dữ liệu
Hệ thống kiến thức trọng tâm bài 2: Giới thiệu về khoa học dữ liệu sách Tin học 12 - Định hướng Khoa học máy tính sách Cánh diều. Với các ý rõ ràng, nội dung mạch lạc, đi thẳng vào vấn đề, hi vọng người đọc sẽ nắm trọn kiến thức trong thời gian rất ngắn. Nội dung chính được tóm tắt ngắn gọn sẽ giúp thầy cô ôn tập, củng cố kiến thức cho học sinh. Bộ tài liệu có file tải về. Mời thầy cô kéo xuống tham khảo.
Xem: => Giáo án Tin học 12 - Định hướng khoa học máy tính cánh diều
CHỦ ĐỀ : GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
GIỚI THIỆU HỌC MÁY VÀ KHOA HỌC DỮ LIỆU
BÀI 2: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
1. Khoa học dữ liệu
a) Khái niệm Khoa học dữ liệu
- Thuật ngữ “Khoa học dữ liệu” ban đầu phát sinh trong môi trường kinh doanh thông minh BI (Business Intelligence). Khoa học dữ liệu là bước phát triển tiếp theo của khoa học thống kê, khai phá dữ liệu, phát hiện tri thức trong dữ liệu,...
- Khoa học dữ liệu:
+ Là lĩnh vực liên ngành sử dụng các phương pháp khoa học, quy trình, công cụ của các ngành như toán học và thống kê, khoa học máy tính kết hợp với kiến thức chuyên môn trong các lĩnh vực ứng dụng như kinh doanh, tài chính ngân hàng, y tế, giáo dục,... nhằm rút ra được những hiểu biết sâu sắc từ dữ liệu.
Hình 1. Minh hoạ Khoa học dữ liệu
là lĩnh vực liên ngành
Từ Hình 1 có thể thấy:
- Khoa học dữ liệu nằm ở phần giao của “Toán học và thống kê” với “Khoa học máy tính” và “Tri thức chuyên môn thực tế” của lĩnh vực ứng dụng cụ thể.
- Học máy là một bộ phận của Khoa học máy tính và các phương pháp, công cụ, quy trình của nó được dùng trong Khoa học dữ liệu.
- Để xử lí dữ liệu, cần dùng máy tính (Khoa học máy tính) kết hợp với hiểu biết chuyên môn trong lĩnh vực ứng dụng.
+ Là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị, phát hiện tri thức từ dữ liệu phục vụ mục đích ra quyết định và lập kế hoạch.
- Khoa học dữ liệu giúp tăng hiệu quả, tăng cơ hội thành công, giảm rủi ro thất bại trong các hoạt động của tổ chức doanh nghiệp.
- Các mục tiêu cụ thể của Khoa học dữ liệu:
- Phân tích và trực quan hoá dữ liệu: Xem xét các mẫu, xu hướng trong tập dữ liệu để hiểu dữ liệu và biểu diễn dữ liệu một cách trực quan; giúp người dùng có cái nhìn tổng quan và nhận biết được những yếu tố quan trọng, từ đó phát hiện vấn đề cần giải quyết.
- Xây dựng mô hình dự đoán, dự báo: Sử dụng dữ liệu để xây dựng mô hình có khả năng dự đoán sự kiện tương lai như:
- Sự thay đổi doanh số.
- Xuất hiện rủi ro.
- Biến động về khách hàng.
…
- Tối ưu hoá quyết định: Điều chỉnh quyết định dựa trên dữ liệu, sử dụng các thuật toán tối ưu hoá để đưa ra quyết định tốt nhất.
- Phát hiện tri thức: Tìm ra các mối quan hệ, quy luật ẩn trong dữ liệu, xác định rõ nguyên nhân và kết quả, phát triển kiến thức mới.
b) Các giai đoạn của một dự án Khoa học dữ liệu
Một dự án Khoa học dữ liệu liên quan đến những vấn đề cụ thể mà tổ chức, doanh nghiệp cần giải quyết được chia thành một số giai đoạn sau:
Hình 2. Các giai đoạn của một dự án
Khoa học dữ liệu
- Xác định vấn đề: Hiểu rõ những vấn đề mà tổ chức, doanh nghiệp cần giải quyết. Từ đó, có thể xác định một số giả thuyết cần kiểm tra, đánh giá và quyết định.
- Thu thập dữ liệu:
- Sau khi hiểu rõ vấn đề, cần thu thập dữ liệu liên quan từ nhiều nguồn khác nhau.
- Trong nhiều trường hợp, tập dữ liệu thu thập được thường rất lớn.
- Chuẩn bị dữ liệu:
- Lựa chọn dữ liệu.
- Tích hợp dữ liệu từ nhiều nguồn.
- Làm sạch dữ liệu, xử lí các giá trị còn thiếu, không chính xác, loại bỏ ngoại lệ.
- Biểu diễn dữ liệu dưới dạng phù hợp để sử dụng trong các mô hình phân tích.
- Phân tích và khai phá dữ liệu:
- Áp dụng mô hình trên dữ liệu đã chuẩn bị để chọn lọc một số yếu tố quan trọng nhằm giải quyết vấn đề.
- Phân tích và khai phá dữ liệu nhằm tìm ra các mối quan hệ, quy luật ẩn trong dữ liệu để xây dựng các mô hình dự báo và phát triển kiến thức mới trong lĩnh vực hoạt động của tổ chức, doanh nghiệp.
- Đánh giá và giải thích:
- Sử dụng các tiêu chí cụ thể để đánh giá chất lượng mô hình.
- Giải thích tác động của mô hình đến hoạt động của tổ chức, doanh nghiệp.
- Kiểm tra, đánh giá mô hình để triển khai.
- Ra quyết định và triển khai: Sau các đánh giá nghiêm ngặt, kết quả phân dữ liệu được trình bày cho cấp lãnh đạo quản lí tổ chức, doanh nghiệp để làm cơ sở ra quyết định và triển khai thực tế.
Ví dụ minh hoạ: Lãnh đạo một cảng hàng không nhận thấy số lần máy bay chậm giờ cất cánh có xu hướng tăng là một vấn đề cần giải quyết. Một tổ dự án được giao nhiệm vụ đề xuất phương án cải tiến quy trình nghiệp vụ để giải quyết vấn đề trên. Một nhiệm vụ trong dự án là phân tích dữ liệu nhằm mục đích lập kế hoạch tốt hơn. Việc thực hiện nhiệm vụ này có thể coi là một dự án Khoa học dữ liệu nhỏ.
- Xác định vấn đề: Qua tìm hiểu thông tin sơ bộ, tổ dự án nhận thấy số lần máy bay chậm giờ cất cánh phụ thuộc vào số lượng hành khách qua sân bay và số lượng hành khách qua sân bay biến động tuỳ theo những khoảng thời gian khác nhau.
Dự án cần phân tích dữ liệu để dự báo lượng hành khách qua sân bay trong tương lai. Từ đó, lập kế hoạch ngắn hạn giúp phân bổ tốt hơn nguồn lực để đáp ứng yêu cầu công việc có biến động theo thời gian.
- Thu thập dữ liệu: Tổ dự án cần thu thập các số liệu thống kê liên quan để có thể giải quyết vấn đề đã xác định.
Ví dụ: Số lượng hành khách qua sân bay theo từng thời điểm, số lần máy bay chậm giờ cất cánh và nguyên nhân.
- Chuẩn bị dữ liệu:
- Xác định những thuộc tính đặc trưng nào cần được phân tích.
- Xử lí các số liệu còn thiếu hay xoá bỏ các số liệu trùng lặp, không chính xác.
- Biểu diễn dữ liệu dưới dạng phù hợp để sẵn sàng áp dụng mô hình phân tích dữ liệu. Với ví dụ này, mô hình dữ liệu phù hợp là chuỗi thời gian.
- Phân tích và khai phá dữ liệu: Phân tích dự báo dùng chuỗi thời gian để dự báo số lượng hành khách qua sân bay trong các tháng tiếp theo.
- Đánh giá và giải thích:
- Mô hình dự báo dữ liệu bằng chuỗi thời gian có tham số để xác định độ tin cậy của kết quả dự báo.
- Kết hợp độ tin cậy của mô hình lí thuyết và yêu cầu ứng dụng thực tế sẽ đánh giá được sự phù hợp để sử dụng trong việc lập kế hoạch ngắn hạn.
- Đánh giá và giải thích tác động của việc cải tiến, đổi mới quy trình nghiệp vụ để thuyết phục lãnh đạo của tổ chức, doanh nghiệp ra quyết định triển khai là vấn đề có phạm vi rộng hơn, đòi hỏi phân tích dữ liệu theo một số khía cạnh khác.
2. Một số thành tựu của Khoa học dữ liệu
- Khoa học dữ liệu có nhiều ứng dụng trong kinh tế – xã hội:
- Tài chính – ngân hàng: Khoa học dữ liệu giúp đánh giá rủi ro, phát hiện gian lận, lập mô hình đầu tư, phân khúc khách hàng.
- Chăm sóc sức khoẻ: Khoa học dữ liệu giúp dự đoán dịch bệnh, cải thiện chất lượng chăm sóc bệnh nhân, quản lí dịch vụ y tế, chế tạo thuốc chữa bệnh.
- Sản xuất kinh doanh:
- Khoa học dữ liệu giúp đưa ra các quyết định tầm chiến lược, tối ưu hoá quy trình để sản xuất kinh doanh, cá nhân hoá trải nghiệm của khách hàng và đưa ra khuyến nghị cho khách hàng.
- Trong dịch vụ công nghệ thông tin, Khoa học dữ liệu giúp tối ưu hoá hệ thống thông tin, đảm bảo an ninh mạng,…
- Các hệ thống Trí tuệ nhân tạo như trợ lí ảo được phát triển đều có phần đóng góp của những dự án Khoa học dữ liệu. Những tập dữ liệu lớn được thu thập, phân tích để hiểu rõ các thách thức, xây dựng các mô hình và huấn luyện đạt hiệu quả cho phép sử dụng trong thực tế.
- Một số thành tựu đáng chú ý của Khoa học dữ liệu:
a) Dự án Bộ gen người HGP
- Dự án Bộ gen người HGP (Human Genome Project) kéo dài 13 năm (từ 1990 đến 2003) và tiêu tốn khoảng 3 tỉ USD là một nỗ lực quốc tế lớn nhằm nghiên cứu cấu trúc và chức năng của các gen trong bộ gen người.
- Dự án giúp xác định các biến thể di truyền, tạo nền tảng xác định mối quan hệ giữa các đột biến và đặc điểm sinh học. Kết quả của dự án đã mở ra một kỉ nguyên mới cho lĩnh vực khoa học sức khoẻ.
- Lập bản đồ gen và giải trình tự gen là hai kĩ thuật để nghiên cứu cấu trúc và chức năng của gen.
- Bộ gen người được tạo thành từ khoảng 3 tỉ cặp base:
- Giải trình tự một bộ gen thường sinh ra khoảng một trăm gigabyte dữ liệu.
- Giải trình tự nhiều bộ gen người có thể sinh ra hàng trăm petabyte dữ liệu.
Để phân tích dữ liệu hệ gen người, cần phát triển các thuật toán có tốc độ nhanh và sử dụng các máy tính mạnh.
- Phân tích dữ liệu hệ gen người giúp các nhà nghiên cứu hiểu rõ hơn về cách thức hoạt động của gen, chức năng của gen, mối quan hệ giữa gen và đặc điểm sinh học, sức khoẻ, bệnh tật.
- Trong đại dịch Covid-19, các nhà nghiên cứu đã sử dụng máy giải trình tự gen tiên tiến để nhanh chóng xác định virus SARS-CoV-2 ngay từ đầu đại dịch. Điều này đã cho phép phân tích và hiểu rõ hơn về cách virus gây ra bệnh, từ đó phát triển các phương pháp chẩn đoán, điều trị và phòng ngừa hiệu quả.
b) Các dự án nghiên cứu và khám phá không gian vũ trụ
- Kính thiên văn Kepler, trong 9 năm hoạt động, đã tạo ra khoảng 678 GB dữ liệu, ghi lại độ sáng của khoảng 150 nghìn ngôi sao.
- Các vệ tinh như TESS, K2, Plato thu thập các thông tin về hành tinh như khối lượng, kích thước, mật độ và quỹ đạo, tạo ra khoảng 100 GB dữ liệu mỗi ngày.
Để phân tích lượng lớn dữ liệu như vậy, cần phát triển các thuật toán học máy chuyên biệt và phức tạp. Những thuật toán này giúp phân loại các đặc trưng của hành tinh, phát hiện thay đổi bất thường trong ánh sáng ngôi sao và suy luận về các hành tinh khác trong hệ các ngôi sao dựa trên thay đổi quỹ đạo.
- Đến nay đã phát hiện được khoảng 3200 hệ hành tinh quay quanh các ngôi sao trong tổng số khoảng 200 tỉ ngôi sao thuộc dải Ngân Hà và có khoảng 63 hành tinh được xác định có khả năng nuôi dưỡng sự sống.
c) Hệ thống Giám sát đánh bắt cá toàn cầu
- Hệ thống Giám sát đánh bắt cá toàn cầu (Global Fishing Watch) của Google sử dụng dữ liệu vệ tinh để cung cấp thông tin cho việc ngăn chặn đánh bắt cá bất hợp pháp.
Hình 3. Theo dõi lịch sử hoạt động của tàu biển trên website của Globol Fishing Watch (Nguồn: https://globalfishingwatch.org)
- Mỗi ngày, hàng triệu vị trí của các con tàu trên các tuyến đường thuỷ khắp thế giới được ghi lại, cho phép xác định mục đích chuyến đi của mỗi con tàu kèm với điểm xuất phát của nó từ quốc gia nào. Từ đó cho biết nơi đang diễn ra hoạt động đánh cá theo thời gian thực để có thể xác định tàu nào đánh bắt cá bất hợp pháp và vào thời điểm cụ thể nào.
d) Các mô hình ngôn ngữ lớn
- Các mô hình ngôn ngữ lớn LLM (Large Language Models) là một loại mô hình AI được thiết kế đặc biệt để hiểu ngôn ngữ tự nhiên.
- Một trong những LLM nổi tiếng nhất là GPT-3, có 175 tỉ tham số. Số lượng tham số càng lớn, mô hình càng có thể hiểu và xử lí ngôn ngữ một cách tinh vi hơn.
- GPT đã đạt được thành tựu ấn tượng có tính cách mạng trong xử lí ngôn ngữ tự nhiên. Được đào tạo dựa trên lượng dữ liệu văn bản rất lớn, GPT có thể tạo ra người máy thông minh sánh ngang hoặc có thể vượt con người trong một số nhiệm vụ phức tạp.
e) Mô hình phát hiện gian lận của American Express
- Dịch vụ thẻ tín dụng American Express đã đạt được thành công đáng kể trong việc phát hiện gian lận nhờ có Khoa học dữ liệu:
- Năm 2014, lần đầu tiên American Express triển khai mô hình học máy để phát hiện gian lận đã giúp cải thiện 30% so với các hệ thống cũ.
- Năm 2017, American Express đã phát triển một công cụ xác thực nâng cao sử dụng sinh trắc học để xác định ai đang thực hiện giao dịch thẻ tín dụng. Công cụ này đã giúp giảm được 60% giao dịch gian lận.
Theo báo cáo tháng 2 năm 2021 của Nilson, American Express đã duy trì tỉ lệ gian lận thấp nhất ở Mỹ trong 14 năm liên tiếp.
Trên chỉ là 1 phần của giáo án. Giáo án khi tải về có đầy đủ nội dung của bài. Đủ nội dung của học kì I + học kì II
Hệ thống có đầy đủ các tài liệu:
- Giáo án word (350k)
- Giáo án Powerpoint (400k)
- Trắc nghiệm theo cấu trúc mới (200k)
- Đề thi cấu trúc mới: ma trận, đáp án, thang điểm..(200k)
- Phiếu trắc nghiệm câu trả lời ngắn (200k)
- Trắc nghiệm đúng sai (200k)
- Lý thuyết bài học và kiến thức trọng tâm (200k)
- File word giải bài tập sgk (150k)
- Phiếu bài tập để học sinh luyện kiến thức (200k)
- .....
Nâng cấp lên VIP đê tải tất cả ở tài liệu trên
- Phí nâng cấp VIP: 900k
=> Chỉ gửi 500k. Tải về dùng thực tế. Nếu hài lòng, 1 ngày sau mới gửi phí còn lại
Cách tải hoặc nâng cấp:
- Bước 1: Chuyển phí vào STK: 1214136868686 - cty Fidutech - MB(QR)
- Bước 2: Nhắn tin tới Zalo Fidutech - nhấn vào đây để thông báo và nhận tài liệu