Nội dung chính Khoa học máy tính 12 Cánh diều bài 1: Giới thiệu về học máy
Hệ thống kiến thức trọng tâm bài 1: Giới thiệu về học máy sách Tin học 12 - Định hướng Khoa học máy tính sách Cánh diều. Với các ý rõ ràng, nội dung mạch lạc, đi thẳng vào vấn đề, hi vọng người đọc sẽ nắm trọn kiến thức trong thời gian rất ngắn. Nội dung chính được tóm tắt ngắn gọn sẽ giúp thầy cô ôn tập, củng cố kiến thức cho học sinh. Bộ tài liệu có file tải về. Mời thầy cô kéo xuống tham khảo.
Xem: => Giáo án Tin học 12 - Định hướng khoa học máy tính cánh diều
CHỦ ĐỀ : GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH
GIỚI THIỆU HỌC MÁY VÀ KHOA HỌC DỮ LIỆU
BÀI 1: GIỚI THIỆU VỀ HỌC MÁY
1. Khái niệm Học máy
- Học máy huấn luyện máy tính để nó có thể tự động phát hiện ra các mối quan hệ có trong dữ liệu.
- Học máy có thể giải quyết nhiều loại bài toán khác nhau, tiêu biểu là bài toán phân loại và bài toán phân cụm.
- Để huấn luyện máy tính học từ dữ liệu, người ta dùng một tập dữ liệu gọi là dữ liệu huấn luyện:
- Máy tính thực hiện thuật toán trên tập dữ liệu huấn luyện để có khả năng tự thực hiện những nhiệm vụ tương tự trên tập dữ liệu mới.
- Dữ liệu huấn luyện mô tả các đối tượng trong thế giới thực.
- Mỗi đối tượng tương ứng với một mẫu dữ liệu.
a) Mô hình học máy
- Thuật toán học máy: Từ tập dữ liệu đầu vào, thuật toán học máy rút ra các thông tin liên quan tới dữ liệu, các đặc điểm chung quan trọng,… Từ đó giúp máy tính học cách phân biệt giữa các mẫu dữ liệu khác nhau hoặc nhóm các mẫu dữ liệu thành các cụm nhiều mẫu tương tự nhau.
- Mô hình học máy:
- Các mô hình học máy được tạo ra từ các thuật toán học máy và trải qua quá trình huấn luyện bằng cách sử dụng dữ liệu huấn luyện.
Hình 2. Minh hoạ mô hình học máy
- Thực hiện thuật toán học máy trên tập dữ liệu huấn luyện tức là huấn luyện mô hình học máy.
- Quá trình huấn luyện nhằm tạo ra mô hình học máy để giải quyết một bài toán cụ thể. Áp dụng mô hình cho phần dữ liệu chưa dùng trong huấn luyện để đánh giá mô hình. Mô hình được đưa vào sử dụng thực tế nếu kết quả đánh giá đáp ứng yêu cầu ứng dụng.
b) Quy trình học máy
- Tuỳ theo lĩnh vực ứng dụng và bài toán cụ thể, người ta chọn tập dữ liệu, dùng thuật toán học máy và cách đánh giá kết quả huấn luyện thích hợp.
- Quy trình học máy có thể mô tả như sau:
1. Thu thập dữ liệu:
- Chọn dữ liệu phù hợp với bài toán cụ thể.
- Dữ liệu có thể được chọn từ nhiều nguồn, có khuôn dạng khác nhau, có thể là dữ liệu có cấu trúc ví dụ như các bản ghi trong cơ sở dữ liệu hoặc phi cấu trúc.
- Tập dữ liệu thu thập được là dữ liệu thô, chưa sẵn sàng để sử dụng trong quá trình huấn luyện.
2. Chuẩn bị dữ liệu:
- Làm sạch, loại bỏ nhiễu, bổ sung các giá trị thiếu và chuyển đổi dữ liệu sang một khuôn dạng phù hợp.
- Chia dữ liệu đã chuẩn bị thành hai phần:
- Một phần lớn dữ liệu được dùng làm dữ liệu huấn luyện.
- Phần còn lại dùng làm dữ liệu để đánh giá mô hình.
3. Xây dựng mô hình:
- Chọn thuật toán học máy phù hợp với bài toán và dữ liệu đã chuẩn bị. Có nhiều loại thuật toán học máy như: hồi quy tuyến tính, cây quyết định, mạng nơ ron,…
- Huấn luyện mô hình để mô hình học từ dữ liệu và trở nên thích ứng với bài toán cụ thể đó.
4. Đánh giá mô hình:
- Áp dụng mô hình sau huấn luyện cho phần dữ liệu dùng để đánh giá mô hình.
- Đối chiếu kết quả với tiêu chí đánh giá để xác định mức độ đáp ứng yêu cầu ứng dụng.
- Việc huấn luyện và đánh giá thường được thực hiện nhiều lần cho tới khi mô hình đạt yêu cầu mong muốn. Nếu kết quả đánh giá chưa đạt, cần tiếp tục cải thiện mô hình. Để cải thiện mô hình, có thể:
- Phân chia lại dữ liệu huấn luyện và dữ liệu dùng để đánh giá.
- Bổ sung thêm dữ liệu mới.
- Điều chỉnh các tham số của thuật toán học máy.
- Sử dụng thuật toán học máy khác.
5. Triển khai ứng dụng mô hình: Sử dụng mô hình đã được huấn luyện thành công vào ứng dụng Học máy trong bài toán thực tế.
* Có thể chia Học máy thành hai loại chính:
- Học có giám sát.
- Học không giám sát.
2. Học có giám sát
- Trong học có giám sát, tập dữ liệu huấn luyện gồm các mẫu dữ liệu được liên kết với đầu ra tương ứng, gọi là nhãn.
- Máy tính học để phát hiện ra mối quan hệ giữa các mẫu dữ liệu với nhãn. Sau khi học xong, máy tính có thể đưa ra dự đoán nhãn cho dữ liệu mới.
- Học có giám sát có thể dùng để giải quyết nhiều loại bài toán khác nhau, trong đó có bài toán phân loại.
a) Bài toán phân loại
- Có một số nhãn phân loại cho trước. Việc gán cho mỗi đối tượng một nhãn phân loại tuỳ theo các thuộc tính đặc trưng của nó là bài toán phân loại.
- Hai bài toán nêu trong Hoạt động 1 là bài toán phân loại:
- Bài toán 1 có hai nhãn phân loại là “spam” và “no spam”.
- Bài toán 2 có ba nhãn phân loại là “tốt”, “bình thường” và “xấu”.
Học máy giúp xây dựng mô hình phân loại để phân loại thư rác, phân loại khách hàng vay tín dụng.
Ví dụ: Hình 3 minh hoạ vai trò của Học máy trong phân loại thư rác.
Hình 3. Hệ thống thư điện tử
phân loại thư rác
Trong đó:
- Biểu tượng email màu đỏ thể hiện thư có các thuộc tính đặc trưng của thư rác.
- Biểu tượng email màu xám thể hiện thư không có những thuộc tính đặc trưng của thư rác.
- Mô hình phân loại thư rác đã được huấn luyện thành công bằng học có giám sát gán nhãn “spam” hay “no spam” cho thư mới nhận được.
b) Dữ liệu huấn luyện
- Mỗi đối tượng cần phân loại được mô tả bởi một số thông tin là các thuộc tính đặc trưng của nó.
Ví dụ: Việc phân loại email là “spam” hay “no spam” dựa vào một số thông tin như:
- Địa chỉ người gửi.
- Địa chỉ người nhận.
- Dòng tiêu đề.
- Sự có mặt của những từ đặc trưng cho thư rác.
…
- Dữ liệu huấn luyện là các mẫu dữ liệu về một số email đã biết trước là thư rác và một số email khác không là thư rác.
c) Huấn luyện và đánh giá mô hình
- Máy tính được huấn luyện để sử dụng dữ liệu huấn luyện và tự dự đoán nhãn phân loại theo thuật toán học máy.
- Nhãn phân loại được xác định khi biết giá trị các thuộc tính đặc trưng của đối tượng.
- Áp dụng mô hình cho phần dữ liệu dùng để đánh giá sẽ nhận được dữ liệu kiểm tra.
- So sánh nhãn đã biết với nhãn do mô hình dự đoán để đánh giá mô hình.
- Mục tiêu huấn luyện nhằm giảm thiểu nhãn bị gán sai đến mức ngưỡng chấp nhận được.
3. Học có giám sát
- Học không giám sát được thực hiện với tập dữ liệu ông có nhãn.
- Học không giám sát có thể dùng để huấn luyện máy tính giải quyết nhiều loại bài toán khác nhau, trong đó có bài toán phân cụm.
a) Bài toán phân cụm
- Phân cụm là chia tập đối tượng thành các cụm dựa trên sự tương tự và khác biệt của các đối tượng:
- Các đối tượng trong cùng một cụm có các đặc điểm tương tự nhau.
- Các đối tượng trong các cụm khác nhau thì có đặc điểm khác nhau.
- Học không giám sát giúp xây dựng mô hình phân cụm.
Ví dụ: Hình 4 minh hoạ vai trò của Học máy trong phân cụm các quả. Mô hình phân cụm các quả đã được huấn luyện thành công bằng học không giám sát gom các quả thành ba cụm dựa vào đặc điểm các loại quả.
Hình 4. Ứng dụng Học máy
phân cụm các quả
b) Dữ liệu huấn luyện
- Tập dữ liệu huấn luyện gồm các mẫu dữ liệu mô tả các thuộc tính đặc trưng của đối tượng. Ví dụ: Trường hợp phân cụm các quả:
- Các thuộc tính đặc trưng của mỗi quả là hình dạng, kích thước, màu sắc,…
- Trong dữ liệu không có tên các loại quả, tức là không có nhãn kèm theo.
c) Huấn luyện và đánh giá mô hình
- Dựa trên thông tin về sự tương tự của các mẫu dữ liệu, thuật toán học máy sẽ nhóm các mẫu dữ liệu thành các cụm.
- Có một số cách khác nhau để phân cụm như:
- Dựa trên mật độ các mẫu dữ liệu trong một vùng.
- Dựa trên phân phối xác suất của các mẫu dữ liệu.
- Mức độ tương tự giữa hai mẫu dữ liệu có thể biểu diễn trực quan bằng “khoảng cách” giữa hai mẫu. “
- Thuật toán học máy có thể phân cụm dựa trên khoảng cách giữa các mẫu dữ liệu và khoảng cách từ mẫu dữ liệu đến tâm cụm.
- Khác với học có giám sát, kết quả phân cụm được đánh giá trực tiếp dựa vào tính chất của dữ liệu và yêu cầu phân tích dữ liệu, vì không có nhãn để kiểm tra là đúng hay sai.
4. Một số ứng dụng của Học máy
a) Nhận dạng tiếng nói
- Máy tính có thể nhận dạng tiếng nói nhờ Học máy.
- Dữ liệu đầu vào là các đoạn tiếng nói và nhờ các thuật toán học máy sẽ xây dựng được mô hình nhận dạng tiếng nói.
- Nhận dạng tiếng nói được ứng dụng trong:
- Chuyển lời nói thành văn bản.
- Tìm kiếm bằng lời nói.
- Điều khiển thiết bị thông minh bằng lời nói.
- Dịch vụ trả lời tự động.
- Chatbot trợ lí ảo.
- Xác thực bằng sinh trắc học tiếng nói.
…
Ví dụ: Hình 5 minh hoạ nhận dạng tiếng nói sau đó chuyển thành văn bản trên ứng dụng Google Dịch.
Hình 5. Nhận dạng tiếng nói
trong ứng dụng Google Dịch
b) Nhận dạng chữ viết
- Máy tính có thể nhận dạng chữ viết nhờ Học máy.
- Dữ liệu đầu vào là các kí tự hoặc các câu đã được số hoá và nhờ các thuật toán học máy sẽ xây dựng được mô hình nhận dạng chữ viết.
Ví dụ: Hình 6 minh hoạ một người đang viết ghi chú bằng chữ viết tay trên điện thoại thông minh. Những ghi chú bằng chữ viết tay này sẽ được chuyển thành văn bản và lưu thành tệp văn bản.
Hình 6. Nhận dạng chữ viết tay trên ứng dụng ghi chú của điện thoại
- Nhận dạng chữ viết tay có thể chia thành hai chế độ, “tĩnh” và “động”:
- Ở chế độ tĩnh, cũng gọi là ngoại tuyến (offline), hình ảnh chữ viết tay được camera thu nhận và sau đó máy tính phân tích hình dạng chữ viết tay.
- Ở chế độ động, cũng gọi là trực tuyến (online), người trực tiếp viết chữ lên tấm cảm ứng, máy tính sẽ thu nhận chữ viết cùng lúc với thao tác viết và phân tích hình dạng chữ viết kết hợp với chuyển động, áp lực,… Phân tích chữ viết tay trực tuyến có thể ứng dụng để xác thực sinh trắc học chữ kí.
c) Dịch máy
- Dịch máy sử dụng Học máy để phân tích văn bản và dự đoán khả năng một từ hoặc cụm từ cụ thể trong ngôn ngữ nguồn sẽ là từ hoặc cụm từ tương ứng nào trong ngôn ngữ đích.
Ví dụ:
- Google Dịch là một ví dụ tiêu biểu của ứng dụng dịch máy.
- Kết hợp nhận dạng chữ viết tay, nhận dạng tiếng nói với dịch máy cung cấp nhiều tính năng và ứng dụng đa dạng như:
- Trợ lí ảo Google Assistant có chế độ phiên dịch cho phép trò chuyện với người đối thoại nói bằng nhiều ngôn ngữ khác nhau; phiên dịch văn bản trực tiếp bằng cách hướng camera vào văn bản, người dùng có thể xem kết quả dịch ngay trên màn hình.
- Google Dịch có thể dịch từng từ, từng câu hay toàn bộ một trang web.
- Người dùng Gmail cũng có thể dễ dàng dịch email sang ngôn ngữ mong muốn.
d) Chẩn đoán bệnh
- Máy tính có thể chẩn đoán bệnh nhờ Học máy.
- Dữ liệu để chẩn đoán bệnh là các triệu chứng hoặc kết quả xét nghiệm y tế.
- Các nhãn phân loại là tên bệnh. Sử dụng Học máy để phân tích dữ liệu có thể dự đoán tên bệnh giúp các bác sĩ chẩn đoán nhanh hơn, tốt hơn.
e) Phân tích thị trường
- Học máy không giám sát giúp xây dựng mô hình phân cụm dữ liệu khách hàng của doanh nghiệp:
- Dữ liệu khách hàng được phân cụm theo sự tương tự về giới tính, độ tuổi, nghề nghiệp hay về nhu cầu tiêu dùng, sở thích,…
- Kết quả phân cụm là các nhóm khách hàng mục tiêu thích hợp cho từng loại sản phẩm, dịch vụ. Từ đó, doanh nghiệp rút ra thông tin hữu ích để xây dựng chiến lược tiếp thị, giúp tăng doanh số phần, nâng cao hiệu quả hoạt động sản xuất kinh doanh.
Trên chỉ là 1 phần của giáo án. Giáo án khi tải về có đầy đủ nội dung của bài. Đủ nội dung của học kì I + học kì II
Hệ thống có đầy đủ các tài liệu:
- Giáo án word (350k)
- Giáo án Powerpoint (400k)
- Trắc nghiệm theo cấu trúc mới (200k)
- Đề thi cấu trúc mới: ma trận, đáp án, thang điểm..(200k)
- Phiếu trắc nghiệm câu trả lời ngắn (200k)
- Trắc nghiệm đúng sai (200k)
- Lý thuyết bài học và kiến thức trọng tâm (200k)
- File word giải bài tập sgk (150k)
- Phiếu bài tập để học sinh luyện kiến thức (200k)
- .....
Nâng cấp lên VIP đê tải tất cả ở tài liệu trên
- Phí nâng cấp VIP: 900k
=> Chỉ gửi 500k. Tải về dùng thực tế. Nếu hài lòng, 1 ngày sau mới gửi phí còn lại
Cách tải hoặc nâng cấp:
- Bước 1: Chuyển phí vào STK: 1214136868686 - cty Fidutech - MB(QR)
- Bước 2: Nhắn tin tới Zalo Fidutech - nhấn vào đây để thông báo và nhận tài liệu