Nội dung chính Khoa học máy tính 12 kết nối bài 25: Làm quen với Học máy

Hệ thống kiến thức trọng tâm bài 25: Làm quen với Học máy sách Tin học 12 - Định hướng Khoa học máy tính sách Kết nối tri thức. Với các ý rõ ràng, nội dung mạch lạc, đi thẳng vào vấn đề, hi vọng người đọc sẽ nắm trọn kiến thức trong thời gian rất ngắn. Nội dung chính được tóm tắt ngắn gọn sẽ giúp thầy cô ôn tập, củng cố kiến thức cho học sinh. Bộ tài liệu có file tải về. Mời thầy cô kéo xuống tham khảo.

Xem: => Giáo án Tin học 12 - Định hướng Khoa học máy tính kết nối tri thức

CHỦ ĐỀ 7: GIẢI QUYẾT VẤN ĐỀ VỚI SỰ TRỢ GIÚP CỦA MÁY TÍNH

BÀI 25: LÀM QUEN VỚI HỌC MÁY

1. TÌM HIỂU SƠ LƯỢC VỀ HỌC MÁY

- Với các quy tắc đơn giản như được mô tả trong Hoạt động 1, hoàn toàn có thể xác định các quy tắc đó để xây dựng bộ lọc thư rác một cách thủ công. Tuy nhiên, việc xác định các quy tắc xây dựng bộ lọc thư điện tử bằng cách thủ công có một số bất cập và hạn chế như sau: 

+ Quy tắc được xây dựng thủ công dựa trên từ khoá hoặc mẫu cố định có thể không đủ linh hoạt để phát hiện các loại thư rác mới hoặc biến thể của thư rác, dẫn đến việc bỏ sót hoặc nhầm lẫn trong việc phân loại. 

+ Người dùng cần cập nhật thường xuyên các quy tắc để phản ánh các xu hướng và kĩ thuật mới của thư rác, điều này đòi hỏi thời gian và công sức. 

+ Các quy tắc cứng nhắc có thể dẫn đến việc chặn nhầm các thư điện tử hợp lệ (tức là “dương tính giả”) gây phiền toái cho người dùng. 

+ Ít có khả năng tự động thích nghi với các mẫu thư rác mới và phức tạp. 

+ Việc duy trì và cập nhật quy tắc xây dựng bằng cách thủ công có thể trở nên tốn kém về mặt thời gian và nguồn lực, đặc biệt là cho các tổ chức lớn với lưu lượng thư điện tử lớn. 

Do những hạn chế này, việc xây dựng bộ lọc thư điện tử bằng cách thủ công nói chung tốn nhiều công sức và không hiệu quả. 

 Cần phải có cách tiếp cận xây dựng các bộ lọc thư rác một cách tự động. Học máy được coi là cách tiếp cận tốt nhất hiện nay trong việc xây dựng bộ lọc để phân loại thư điện tử hiệu quả.

- Khái niệm: Học máy là một lĩnh vực của AI tập trung vào việc phát triển các thuật toán và mô hình cho phép máy tính tự học và cải thiện từ dữ liệu để đưa ra dự đoán hoặc quyết định dựa trên dữ liệu mà không cần lập trình rõ ràng. 

- Hai điểm mấu chốt trong khái niệm Học máy: “máy tính tự học từ dữ liệu” và “không cần lập trình rõ ràng”. 

Ví dụ:

+ Lọc thư điện tử:

  • Việc “không cần lập trình rõ ràng” có nghĩa là không cần viết chương trình để hướng dẫn máy tính các quy tắc cụ thể.

Ví dụ: “Một thư điện tử chứa từ X hoặc Y là thư rác”. 

  • Thay vào đó, chỉ cần cung cấp cho máy tính tập dữ liệu các ví dụ về thư rác và thư hợp lệ, máy tính sử dụng dữ liệu này để học những đặc điểm, mẫu hoặc quy luật mà nó sẽ sử dụng để đoán nhận và phân loại thư điện tử mới được gửi tới. 

+ Nhận dạng con ngựa trong hình ảnh:

  • Việc lập trình rõ ràng có thể là viết một chương trình máy tính với các mô tả như “Con vật có 4 chân cao, mặt dài, đôi tai nhọn là con ngựa”. Tuy nhiên, việc mô tả tất cả đặc điểm cụ thể của con ngựa trong mọi trường hợp có thể gặp là không khả thi và không hiệu quả. 

  • Thay vào đó, chỉ cần cung cấp cho máy tính hàng nghìn hình ảnh chứa con ngựa và các con vật khác để máy tính tự học từ dữ liệu này. Máy tính tự xác định các đặc trưng từ dữ liệu và sử dụng chúng để nhận dạng ngựa trong hình ảnh nhận được sau này. 

Ví dụ: “Con ngựa thường có 4 chân cao, mặt dài, đôi tai nhọn”.

Trong cả hai ví dụ, máy tính không biết trước như thế nào là thư rác hoặc như thế nào là con ngựa và cách nhận dạng chúng - nó tự học từ dữ liệu được cung cấp. Đây cũng là điểm mấu chốt nhất trong tất cả các ứng dụng Học máy. Điều này cho phép máy tính giải quyết nhiều bài toán nhờ việc “tự học” từ dữ liệu, không đòi hỏi phải hướng dẫn trực tiếp bằng cách lập trình rõ ràng.

- Một số ví dụ khác của Học máy:

+ Dự báo thời tiết: Máy tính sử dụng dữ liệu thời tiết lịch sử để học cách dự báo thời tiết mà không cần lập trình cụ thể các quy tắc dự báo. 

+ Phân tích ngôn ngữ tự nhiên (NLP): Máy tính tự học cách dịch ngôn ngữ, phân tích cảm xúc và xử lí ngôn ngữ tự nhiên từ dữ liệu văn bản lớn. 

+ Chẩn đoán y khoa: Hệ thống học máy phân tích dữ liệu lâm sàng và hình ảnh y tế để hỗ trợ chẩn đoán và phát hiện sớm bệnh tật. 

+ Tối ưu hoá chuỗi cung ứng: Máy tính học cách tối ưu hoá quản lí kho và dự báo nhu cầu sản phẩm từ dữ liệu lịch sử và xu hướng hiện tại. 

+ Nhận dạng giọng nói: Hệ thống học máy nhận dạng và chuyển đổi giọng nói thành văn bản dựa trên hàng ngàn giờ ghi âm. 

⇒ Những ứng dụng này cho thấy sự linh hoạt và mạnh mẽ của Học máy trong việc tự học và thích ứng từ dữ liệu đa dạng.

- Quy trình Học máy:

Việc xây dựng các ứng dụng Học máy có thể chia thành 5 bước cơ bản như sau:

 LÀM QUEN VỚI HỌC MÁY

Hình 25.2. Quy trình Học máy

+ Thu thập dữ liệu: Tuỳ theo bài toán cần giải quyết, dữ liệu cần thiết để xây dựng mô hình Học máy có thể được lấy từ nhiều nguồn khác nhau, như các cơ sở dữ liệu, tệp tin hoặc thậm chí thông qua việc ghi chép trực tiếp. 

+ Chuẩn bị dữ liệu: Thông thường, dữ liệu thu thập được không phù hợp để có thể sử dụng được ngay. Do vậy, cần thực hiện các thao tác chuẩn bị dữ liệu (còn được gọi là “làm sạch dữ liệu”) bao gồm:

  • Loại bỏ dữ liệu nhiễu.

  • Bổ sung các giá trị thiếu.

  • Chuyển đổi dữ liệu sang định dạng phù hợp.

  • Giảm kích thước dữ liệu (nếu cần). 

Lưu ý: 

  • Đây là hai bước quan trọng, chiếm nhiều thời gian và công sức nhất của quá trình xây dựng ứng dụng Học máy. 

  • Hai bước này có thể phải thực hiện lặp đi lặp lại cho tới khi thu được bộ dữ liệu như mong muốn. 

  • Tập dữ liệu thu được thường được chia thành hai phần: 

  • Dữ liệu huấn luyện (thường chiếm khoảng 70% đến 80%) được dùng để huấn luyện mô hình.

  • Dữ liệu kiểm thử được dùng để đánh giá mô hình. 

+ Chọn thuật toán học máy phù hợp với loại bài toán và dữ liệu thu thập được: 

  • Các loại thuật toán này khá đa dạng như hồi quy tuyến tính, cây quyết định, mạng nơron,... 

  • Về mặt bản chất, thuật toán Học máy sử dụng các mô hình toán học để kết nối các đặc trưng và thông tin liên quan tới tập dữ liệu. 

  • Huấn luyện mô hình: 

  • Thực hiện thuật toán học máy trên tập dữ liệu huấn luyện, giúp máy tính học cách phân biệt giữa các mẫu thuộc các lớp dữ liệu khác nhau. 

  • Kết quả của quá trình này sẽ là một mô hình Học máy để giải quyết một bài toán cụ thể. 

  • Đánh giá mô hình:

  • Áp dụng mô hình Học máy trên tập dữ liệu kiểm thử để đánh giá hiệu suất của mô hình trong việc dự đoán dữ liệu mới. 

  • Dựa trên kết quả đánh giá, mô hình có thể cần được cải thiện, bằng cách bổ sung thêm dữ liệu huấn luyện mới, điều chỉnh các tham số của thuật toán Học máy hoặc sử dụng các thuật toán Học máy khác. 

Lưu ý: Hai bước huấn luyện và đánh giá có thể được thực hiện lặp đi lặp lại cho tới khi thu được mô hình Học máy như mong muốn. Cuối cùng, sử dụng mô hình thu được để giải quyết vấn đề đặt ra, thực hiện dự đoán hay phân cụm trên dữ liệu mới.

2. PHÂN LOẠI VÀ VAI TRÒ CỦA HỌC MÁY TRONG THỰC TẾ

a) Phân loại Học máy 

- Trong Học máy, tập dữ liệu đầu vào gồm hai loại chính: 

+ Dữ liệu có nhãn.

+ Dữ liệu không có nhãn. 

- Dữ liệu được gắn kết với một nhãn hoặc một giá trị đích cụ thể được gọi là dữ liệu có nhãn, trường hợp ngược lại, là dữ liệu không có nhãn: 

+ Nhãn hoặc giá trị đích của dữ liệu thường chỉ ra thông tin quan trọng về đối tượng, thuộc tính hoặc phân loại mà mẫu dữ liệu đó đại diện. 

+ Việc gán nhãn dữ liệu thường được thực hiện bằng cách thủ công. 

+ Dữ liệu có nhãn đóng vai trò rất quan trọng trong quá trình huấn luyện mô hình học máy, vì nó cung cấp thông tin cần thiết cho mô hình để học và đưa ra dự đoán chính xác trên các dữ liệu mới. Việc có dữ liệu được gán nhãn đúng và đa dạng là một yếu tố quyết định để xây dựng mô hình học máy hiệu quả và đáng tin cậy. 

- Tương ứng với hai loại dữ liệu đầu vào là hai phương pháp học máy cơ bản: 

+ Học có giám sát: Được sử dụng để giải quyết bài toán phân loại dữ liệu.

+ Học không giám sát: Được sử dụng để giải quyết bài toán phân cụm dữ liệu.

- Học có giám sát 

+ Khái niệm: Là phương pháp học máy trong đó tập dữ liệu đầu vào là dữ liệu đã được gán nhãn. 

+ Cách hoạt động:

  • Trên cơ sở được “học” từ dữ liệu có nhãn, máy tính có khả năng mô hình hoá mối quan hệ giữa dữ liệu đầu vào với đầu ra tương ứng (pha huấn luyện mô hình). 

  • Khi đưa một dữ liệu mới chưa biết vào, máy tính sẽ thực hiện việc xác định các đặc trưng dữ liệu, từ đó đưa ra phản hồi (dự đoán) dữ liệu đó cùng loại với dữ liệu nào được gán nhãn (pha sử dụng mô hình). 

Ví dụ: Hình 25.3 mô tả một hệ thống học có giám sát, với dữ liệu là các hình ảnh được gán nhãn (Con ngựa hay Không phải ngựa), để xác định xem dữ liệu mới được đưa vào là một con ngựa hay là một loại động vật khác. 

 LÀM QUEN VỚI HỌC MÁY

Hình 25.3. Hai pha của mô hình 
học có giám sát (phân loại dữ liệu)

+ Ứng dụng: Học có giám sát là phương pháp học máy được sử dụng rộng rãi nhất. Nó có nhiều ứng dụng trong thực tế như:

  • Xây dựng bộ lọc thư rác.

  • Nhận dạng hình ảnh.

  • Nhận dạng chữ viết tay.

  • Nhận dạng tiếng nói.

- Học không giám sát 

+ Khái niệm: Là phương pháp học máy sử dụng dữ liệu không có nhãn. 

+ Cách hoạt động: Sử dụng thông tin về mối quan hệ tương tự hay khác biệt, cũng như dựa trên xác suất đồng xuất hiện của các đối tượng hoặc các biến có trong dữ liệu, các thuật toán và mô hình học trong phương pháp này sẽ thực hiện việc mô hình hoá cấu trúc hoặc mô tả các thông tin ẩn chứa trong dữ liệu. 

+ Ứng dụng: 

  • Thường được ứng dụng để phân chia dữ liệu thành các nhóm dựa trên sự tương đồng của các mẫu dữ liệu. 

Ví dụ: trong Hình 25.4, mô hình học không giám sát thực hiện việc phân nhóm các con vật dựa trên hình ảnh của chúng. 

 LÀM QUEN VỚI HỌC MÁY

Hình 25.4. Mô hình học không giám sát (phân cụm dữ liệu)

  • Một số bài toán khác có thể áp dụng học không giám sát:

  • Xác định các phân khúc khách hàng dựa trên lịch sử mua hàng của họ.

  • Phát hiện bất thường trong các giao dịch thẻ tín dụng để xác định gian lận.

  • Xác định các chủ đề khác nhau hoặc xác định chủ đề chính được thảo luận trong một tập hợp các bài báo.

b) Vai trò của Học máy 

- Học máy có vai trò quan trọng trong nhiều công việc và ứng dụng thực tế. Nó hỗ trợ khai phá các loại dữ liệu đa dạng, có quy mô lớn, bao gồm cả các dữ liệu không ngừng thay đổi theo thời gian, để trích xuất được những thông tin và tri thức hữu ích.

- Một số ví dụ về vai trò của Học máy:

+ Lọc thư rác: 

  • Học máy giúp xây dựng mô hình có khả năng phân loại thư điện tử là thư rác hoặc thư thường dựa trên các đặc điểm của thư gửi tới, như từ khoá, cấu trúc thư và nhiều yếu tố khác. 

  • Học máy giúp giảm thời gian và công sức của người dùng trong việc đánh dấu thư rác, đồng thời cải thiện hiệu suất lọc thư theo thời gian bằng cách học hỏi từ dữ liệu và cập nhật mô hình. 

+ Chẩn đoán bệnh: 

  • Học máy sử dụng dữ liệu về tình trạng sức khoẻ của bệnh nhân cùng kết quả xét nghiệm và các cơ sở dữ liệu bệnh lí khác để xây dựng mô hình chẩn đoán bệnh. Mô hình này còn có thể dự báo tình trạng sức khoẻ và đề xuất phương án điều trị phù hợp cho bệnh nhân. 

  • Mô hình Học máy có thể học từ hàng ngàn lần chẩn đoán cho nhiều bệnh nhân khác nhau trước đó, giúp bác sĩ đưa ra quyết định dựa trên dữ liệu một cách chính xác và nhanh chóng hơn. 

+ Phân tích thị trường: 

  • Học máy có thể phân tích dữ liệu thị trường từ nhiều nguồn khác nhau để xác định xu hướng, dự báo biến động giá cả, trợ giúp hình thành các chiến lược kinh doanh dựa trên các mô hình dự đoán. 

  • Học máy giúp người đầu tư và nhà kinh doanh hiểu rõ hơn về thị trường, tăng khả năng đưa ra quyết định đầu tư dựa trên thông tin và các phân tích kĩ thuật. 

+ Nhận dạng tiếng nói: Học máy giúp xây dựng các mô hình âm thanh để biểu diễn những đặc trưng của tiếng nói, giúp máy tính có thể học và nhận dạng các biểu hiện âm thanh của từng đơn vị tiếng (phoneme), từ đó tạo ra biểu diễn số hoá của âm thanh. Những đặc điểm âm thanh cá nhân trong các mô hình âm thanh còn giúp cải thiện khả năng nhận dạng và phân biệt tiếng nói của những người nói khác nhau.

+ Nhận dạng chữ viết: 

  • Học máy giúp xây dựng mô hình hình học cho phép xác định hình dạng, kích thước, góc xoay của các kí tự trong hình ảnh chữ viết tay. 

  • Những năm gần đây, sự phát triển của học sâu (một lĩnh vực của Học máy) cho phép học và trích xuất các đặc trưng phức tạp từ hình ảnh chữ viết tay, giúp cải thiện đáng kể khả năng nhận dạng chữ viết tay. 

+ Dịch tự động: 

  • Học máy sử dụng dữ liệu về bản dịch và bản gốc trong các ngôn ngữ khác nhau để xây dựng mô hình dịch tự động. Mô hình này có khả năng dịch văn bản, tiếng nói từ ngôn ngữ này sang ngôn ngữ khác. 

  • Khả năng dịch tự động của máy tính giúp hạn chế rào cản ngôn ngữ trong giao tiếp, phát triển hợp tác và trao đổi thông tin mọi lĩnh vực, đặc biệt trong giáo dục, đào tạo và nghiên cứu khoa học. 

Nhận xét: Trong các công việc trên, cũng như trong nhiều lĩnh vực khác, vai trò quan trọng của Học máy được thể hiện ở nhiều góc độ khác nhau: 

  • Giúp xử lí một lượng lớn lớn dữ liệu trong thời gian thực một cách nhanh chóng và hiệu quả để xác định các mẫu và xu hướng quan trọng có trong dữ liệu.

  • Tự động hoá các nhiệm vụ phức tạp mà trước đây cần sự can thiệp của con người.

- Do có khả năng học từ dữ liệu, Học máy có thể giúp các chuyên gia và các nhà nghiên cứu từng bước xây dựng và bổ sung tri thức. 

- Nhờ khả năng không ngừng bổ sung dữ liệu và tự động cập nhật mô hình đã được huấn luyện, Học máy ngày càng có vai trò không thể thiếu trong các ứng dụng mà dữ liệu có quy mô và chủng loại đa dạng, không ngừng thay đổi theo thời gian, như sự xuất hiện các mẫu thư rác mới, các triệu chứng bệnh mới, hay các bản dịch ngôn ngữ mới,…

=> Giáo án Khoa học máy tính 12 Kết nối bài 25: Làm quen với Học máy

Thông tin tải tài liệu:

Phía trên chỉ là 1 phần, tài liệu khi tải về là file word, có nhiều hơn + đầy đủ đáp án. Xem và tải: Kiến thức trọng tâm Khoa học máy tính 12 kết nối tri thức - Tại đây

Tài liệu khác

Tài liệu của bạn

Tài liệu mới cập nhật

Tài liệu môn khác

Chat hỗ trợ
Chat ngay