Một trong lĩnh vực mới mẻ của trí tuệ nhân tạo AI, Thị giác máy tính – Computer Vision đang ngày càng trở nên phổ biến vì khả năng tự động hóa các nhiệm vụ trực quan như cách hệ thống thị giác của con người hoạt động. Với sự trợ giúp của hình ảnh và video kỹ thuật số cũng như các mô hình học sâu Deep Learning, máy móc ngày càng xác định và phân loại chính xác các đối tượng, qua đó trở thành trợ thủ đắc lực của các nhà sản xuất.
Thị giác máy tính – Computer Vision là gì?
Thị giác máy tính (Computer Vision) là lĩnh vực khoa học máy tính tập trung vào việc tái tạo hoặc mô phỏng các phần phức tạp của hệ thống thị giác con người và cho phép máy tính xác định và xử lý các đối tượng trong đồ họa hình ảnh và video giống như cách con người quan sát và cảm nhận thế giới trực quan. Computer Vision có lịch sử hình thành từ những năm 50 và thực sự bùng nổ khi Internet phát triển vào những năm 1990. Tuy vậy, do thời đó chưa có nhiều điều kiện phát triển, thị giác máy tính tỏ ra hạn chế và bị lãng quên một thời gian dài.
Ngày nay, sự tương tác của một số yếu tố đang dẫn đến sự phục hưng của thị giác máy tính:
- Phần cứng được thiết kế đặc biệt cho thị giác và phân tích máy tính phổ biến hơn trước đây.
- Một số lượng khổng lồ dữ liệu đồ họa, ước tính hơn 3 tỷ hình ảnh và video được chia sẻ trực tuyến mỗi ngày
- Các thuật toán mới như mạng nơ-ron tích tụ có thể tận dụng các khả năng được cung cấp bởi phần cứng và phần mềm.
- Điện toán hiện nay có giá cả phải chăng hơn và dễ dàng có sẵn.
Những tiến bộ này đã đưa tầm nhìn của máy tính đi xa một cách đáng kinh ngạc. Tỷ lệ nhận dạng và phân loại đối tượng đã tăng từ 50% lên 99% trong vòng chưa đầy 10 năm – và các hệ thống ngày nay có thể nhanh chóng nhận ra và phản ứng với các đầu vào trực quan chính xác hơn cả con người.
Đến năm 2022, thị trường phần cứng và thị giác máy tính dự kiến đạt 48,6 tỷ USD
Những năm trở lại đây, việc áp dụng Deep Learning / Machine Learning đã giúp Computer Vision có những bước triển nhảy vọt, vượt xa khỏi việc tái tạo và mô phỏng thị giác con người.
Xem thêm: Thị giác máy tính (Computer Vision) và ứng dụng thực tế trong sản xuất và đời sống
Thị giác máy tính Computer Vision hoạt động như thế nào?
Công nghệ thị giác máy tính có xu hướng mô phỏng cách thức hoạt động của bộ não con người khi quan sát thế giới trực quan. Nhưng bộ não của chúng ta giải quyết vấn đề nhận dạng đối tượng trực quan như thế nào? Một trong những giả thuyết phổ biến nói rằng bộ não con người dựa vào các khuôn mẫu (patterns) để giải mã các đối tượng riêng lẻ trong từng trường hợp. Khái niệm này được sử dụng để tạo ra các hệ thống Computer Vision.
Các thuật toán thị giác máy tính mà chúng ta sử dụng ngày nay dựa trên nhận dạng khuôn mẫu. Con người đào tạo máy tính dựa trên một lượng lớn dữ liệu trực quan — máy tính xử lý hình ảnh, gắn nhãn các đối tượng trên chúng và tìm các mẫu trong các đối tượng đó. Ví dụ: nếu bạn gửi một triệu hình ảnh về hoa, máy tính sẽ phân tích chúng, xác định các mẫu giống với tất cả các bông hoa và vào cuối quá trình này, sẽ tạo ra một mô hình “hoa”. Do đó, máy tính sẽ có thể phát hiện chính xác xem một hình ảnh cụ thể có phải là một bông hoa hay không mỗi khi ai đó gửi ảnh để phân tích.
Golan Levin, trong bài viết Xử lý hình ảnh và Thị giác máy tính, cung cấp các chi tiết kỹ thuật về quy trình mà máy móc tuân theo trong việc phân tích hình ảnh. Nói tóm lại, máy móc diễn giải hình ảnh như một chuỗi pixel, mỗi pixel có một bộ giá trị màu riêng. Ví dụ, dưới đây là hình ảnh của Abraham Lincoln. Độ sáng của mỗi pixel trong hình ảnh này được biểu thị bằng một số 8 bit, nằm trong khoảng từ 0 (đen) đến 255 (trắng). Những con số này là những gì phần mềm nhìn thấy khi bạn nhập một hình ảnh. Dữ liệu này được cung cấp làm đầu vào cho thuật toán thị giác máy tính sẽ chịu trách nhiệm phân tích và ra quyết định sâu hơn.
Xem thêm: 6 ứng dụng của Computer Vision giúp giải quyết các thách thức trong lĩnh vực xây dựng
Sự phát triển của Computer Vision với sự ra đời của Deep Learning
Deep Learning là gì?
Deep Learning – Học sâu là một lĩnh vực phụ của học máy Machine Learning và sử dụng mạng nơ-ron. Cơ bản, Học sâu dạy cho máy móc học. Máy được cho phép cải thiện khả năng của nó một cách độc lập và không có sự can thiệp của con người. Điều này đạt được bằng cách trích xuất và phân loại các mẫu từ dữ liệu và thông tin hiện có. Đến lượt mình, kiến thức thu được có thể tương quan với dữ liệu và được liên kết trong một bối cảnh xa hơn. Cuối cùng, máy có thể đưa ra quyết định dựa trên các liên kết.
Trên cơ sở thông tin hiện có và mạng nơ-ron, hệ thống có thể liên kết nhiều lần những gì đã học với nội dung mới và do đó sẽ học lại. Kết quả là máy có thể đưa ra dự báo hoặc quyết định và đặt câu hỏi về chúng. Quyết định được xác nhận hoặc thay đổi trong dựa vào dữ liệu sẽ thực hiện một hành động mới. Do đó, con người không còn can thiệp vào quá trình học tập thực tế của Deep Learning. Cách thức hoạt động của nó được truyền cảm hứng trong nhiều lĩnh vực bằng cách mô phỏng chính cách bộ não con người tiếp nhận kiến thức.
Với Deep Learning, thị giác máy tính phát triển vượt bậc
Trước khi Deep Learning ra đời, các tác vụ mà thị giác máy tính có thể thực hiện rất hạn chế và đòi hỏi nhiều nỗ lực và mã hóa thủ công của các nhà phát triển và người vận hành. Ví dụ: nếu bạn muốn thực hiện nhận dạng khuôn mặt, bạn sẽ phải thực hiện các bước sau:
- Tạo cơ sở dữ liệu: Bạn phải chụp các hình ảnh riêng lẻ của tất cả các đối tượng mà bạn muốn theo dõi ở một định dạng cụ thể.
- Chú thích hình ảnh: Sau đó, đối với mỗi hình ảnh riêng lẻ, bạn sẽ phải nhập một số điểm dữ liệu chính, chẳng hạn như khoảng cách giữa hai mắt, chiều rộng của sống mũi, khoảng cách giữa môi trên và mũi và hàng chục phép đo khác xác định các đặc điểm riêng biệt của mỗi người.
- Chụp ảnh mới: Tiếp theo, bạn sẽ phải chụp ảnh mới, cho dù từ ảnh chụp hay nội dung video. Và sau đó bạn phải thực hiện lại quá trình đo lường, đánh dấu các điểm chính trên hình ảnh. Bạn cũng phải tính đến góc ảnh được chụp.
Sau tất cả công việc thủ công này, ứng dụng cuối cùng sẽ có thể so sánh các phép đo trong hình ảnh mới với các phép đo được lưu trữ trong cơ sở dữ liệu của Computer Vision và cho bạn biết liệu nó có tương ứng với bất kỳ cấu hình nào mà nó đang theo dõi hay không. Trên thực tế, có rất ít sự tham gia của tự động hóa và hầu hết công việc được thực hiện thủ công. Tất nhiên, điều này rất dễ xảy ra sai sót từ lỗi con người.
Với học máy Machine Learning, các nhà phát triển không còn cần phải viết mã thủ công từng quy tắc vào các ứng dụng thị giác của mình. Thay vào đó, họ lập trình “các tính năng”, các ứng dụng nhỏ hơn có thể phát hiện các pattern cụ thể trong hình ảnh. Sau đó, họ sử dụng một thuật toán học thống kê như hồi quy tuyến tính (linear regression), hồi quy logistic (logistic regression) hoặc máy vectơ hỗ trợ (SVM) để phát hiện các mẫu và phân loại hình ảnh và phát hiện các đối tượng trong đó.
Học sâu cung cấp một cách tiếp cận khác về cơ bản để thực hiện học máy. Học sâu dựa trên mạng nơ-ron, một chức năng có mục đích chung có thể giải quyết bất kỳ vấn đề nào có thể biểu diễn thông qua các yêu cầu xem xét của Computer Vision. Khi bạn cung cấp một mạng nơ-ron có nhiều thông tin được gắn nhãn về một loại dữ liệu cụ thể, nó sẽ có thể trích xuất các mẫu chung giữa các ví dụ đó và biến đổi nó thành một phương trình toán học giúp phân loại các phần thông tin trong tương lai.
Ví dụ: việc tạo một ứng dụng nhận dạng khuôn mặt với Deep Learning chỉ yêu cầu bạn phát triển hoặc chọn một thuật toán được cấu trúc sẵn và đào tạo nó với các ví dụ về khuôn mặt của những người mà nó phải phát hiện. Đưa ra đủ ví dụ (rất nhiều ví dụ), mạng nơ-ron sẽ có thể phát hiện khuôn mặt mà không cần hướng dẫn thêm về các tính năng hoặc phép đo.
Học sâu là một phương pháp rất hiệu quả để thực hiện thị giác máy tính. Trong hầu hết các trường hợp, việc tạo ra một thuật toán Deep Learning thích hợp để thu thập một lượng lớn dữ liệu đào tạo được gắn nhãn và điều chỉnh các tham số như loại và số lớp của mạng nơ-ron và đào tạo tham số Epochs. So với các loại học máy trước đây, học sâu vừa dễ dàng hơn vừa nhanh hơn để phát triển và triển khai.
Hầu hết các ứng dụng thị giác máy tính hiện nay như phát hiện ung thư, ô tô tự lái và nhận dạng khuôn mặt đều sử dụng học sâu. Học sâu và mạng nơ-ron sâu đã chuyển từ lĩnh vực khái niệm sang các ứng dụng thực tế nhờ tính khả dụng và những tiến bộ trong tài nguyên phần cứng và điện toán đám mây.
Kết luận
Thị giác máy tính Computer Vision đang có một bước phát triển rõ rệt trong kỷ nguyên 4.0 . Với việc kết hợp với các dữ liệu từ Deep Learning thu thập được từ hoạt động sản xuất hàng ngày, Computer Vision hoàn toàn có những tiềm năng trở thành trợ thủ đắt lực của các nhà sản xuất, cung cấp sự hỗ trợ về mọi mặt trong nhà máy. Với tiềm năng phát triển không ngừng nghỉ, thị giác máy tính kết hợp Deep Learning hoàn toàn có thể là tiền đề cho sự bùng nổ của trí tuệ nhân tạo mô phỏng tinh vi chính bộ não con người trong tương lai không xa.