Học máy trên nền tảng dữ liệu trong môi trường kinh doanh

Các nguồn dữ liệu của doanh nghiệp

Chúng ta vốn đã quen thuộc với hệ thống cơ sở dữ liệu truyền thống của doanh nghiệp, bao gồm các cơ sở truy cập dữ liệu, hạ tầng phần cứng, phần mềm phục vụ cho việc kinh doanh, hệ thống tài chính và hệ thống nguồn nhân lực của công ty. Bên cạnh đó còn có kho dữ liệu có chức năng như một bộ tổng hợp của cơ sở dữ liệu doanh nghiệp để làm cơ sở cho công tác báo cáo và sự thấu hiểu sâu sắc hoạt động kinh doanh của doanh nghiệp. Hệ thống truyền thống này có khá nhiều công cụ có thể tương tác thông qua các giao diện, chẳng hạn như ngôn ngữ truy vấn có cấu trúc (SQL) hay hệ thống bảng điều khiển trực quan hóa (visualization dashboard) như Tableau.

Khối dữ liệu phân kỳ, đa chiều của doanh nghiệp bao gồm các dữ liệu liên quan đến quản trị quan hệ khách hàng (CRM), tiếp thị, quy hoạch nguồn lực doanh nghiệp (ERP), nguồn nhân lực, quản trị chuỗi cung ứng (SCM) và dữ liệu nghiên cứu. Ngoài ra, còn có các dữ liệu khác đến từ các nguồn ít tính truyền thống hơn như phân tích quy trình nội bộ, dữ liệu khách hàng, dữ liệu mạng xã hội, và dữ liệu từ hệ thống kỹ thuật, chẳng hạn như từ các camera và cảm biến.

Hình 1 – Các nguồn dữ liệu của doanh nghiệp

Bên cạnh đó, hoạt động kinh doanh cũng thúc đẩy nhiều nguồn dữ liệu phi truyền thống, bao gồm việc sử dụng các kỹ thuật phân tích tiên tiến và phân tích bản chất từ dữ liệu truyền thống của doanh nghiệp để tạo ra các nguồn dữ liệu dẫn xuất (derived data), trong đó có các chỉ số đánh giá vận hành của doanh nghiệp, chẳng hạn như KPI.

Một trong những nguồn tiềm năng cho dữ liệu dẫn xuất chính là các nguồn thông tin phi cấu trúc như các văn bản và các trao đổi. Người ta thường tiêu hóa một lượng lớn thông tin qua việc đọc các văn bản hoặc lắng nghe các trao đổi. Năng lực máy tính liên quan đến việc xử lý các văn bản phi cấu trúc và các câu thoại được gọi là năng lực xử lý ngôn ngữ tự nhiên (NLP). NLP gần đây đã trở nên mạnh mẽ hơn trước nhờ vào học máy và đã đạt đến khả năng ngang tầm con người ở nhiều tác vụ xử lý ngôn ngữ. Những hoạt động kinh doanh đã bão hòa thông tin với các nguồn dữ liệu có thể lợi dụng NLP để chiết tách các dữ liệu có giá trị từ các văn bản. Các văn bản này có thể là những gì được viết trên truyền thông xã hội, các báo cáo cũ/lịch sử, các tài liệu thu thập được ở hình thức PPT, PDF hay Word.

Một nguồn tiềm năng khác cho các dữ liệu dẫn xuất đến từ các thông tin phi văn bản như các bức ảnh hoặc các clip. Với các nguồn dữ liệu này, các kỹ thuật nhận dạng mẫu, chẳng hạn như thị giác máy tính, được tăng cường bởi học máy có thể được sử dụng để tạo ra các khả năng đáng kể cho hoạt động kinh doanh. Thị giác máy tính và kỹ thuật nhận dạng khác đã được áp dụng để phân tích rất nhiều các dữ liệu đa phương tiện như các bức ảnh, clip được thu thập từ các thông tin đại chúng cho hoạt động kinh doanh.

Quản lý dữ liệu phức hợp của doanh nghiệp nhằm chuẩn bị cho học máy

Để tạo ra giá trị cho hoạt động kinh doanh từ các nguồn dữ liệu phức hợp và phân kỳ thì việc có khả năng truy cập được đến chúng là chưa đủ. Doanh nghiệp cần hiểu cách thu thập dữ liệu từ những nguồn trên, thay đổi hình thức của chúng để phù hợp với mục đích sử dụng, và loại bỏ các dữ liệu chất lượng thấp hoặc chưa hoàn chỉnh.

Hình 2 – Các thao tác cơ bản với dữ liệu thô

Một khi các dữ liệu được thu thập, chúng cũng cần được quản lý với các thông tin về xuất xứ dữ liệu, được bảo đảm độ tin cậy và trách nhiệm giải trình để có thể sử dụng cho học máy và các phân tích tiên tiến trên chúng.

“Thao tác nghề mộc” với dữ liệu (Data carpentry)

Dữ liệu được thu thập từ các nguồn dữ liệu của doanh nghiệp có thể là dữ liệu dạng văn bản, dữ liệu phi cấu trúc hoặc có cấu trúc thô. Chúng cần được hệ thống một cách cẩn thận nhằm tích hợp, ghép nối dữ liệu của các nguồn với nhau. Việc này được gọi tên bởi thuật ngữ “thao tác nghề mộc” cho dữ liệu (data carpentry). Sở dĩ gọi như vậy là vì quá trình xử lý, hệ thống lại dữ liệu gốc bao gồm rất nhiều thao tác tương tự như các thao tác trong nghề mộc, như cắt (loại bỏ khối dữ liệu không phù hợp mục đích), bào (loại bỏ một lớp dữ liệu bên ngoài để nhìn ra các thông tin bản chất), biến đổi hình dạng, và ghép nối, tích hợp các khối dữ liệu thuộc các nguồn khác nhau với nhau. Các thao tác này giúp tạo nên một cấu trúc tốt hơn cho dữ liệu thu thập được để chuẩn bị cho các công cụ phân tích, khai phá dữ liệu hoặc các công cụ học máy. 

Do tính chất phân kỳ và đa dạng của dữ liệu, doanh nghiệp cần có các nhân sự có năng lực áp dụng các phương pháp tính toán, công cụ đa dạng nhằm thực hiện các thao tác trên. Theo nhiều chuyên gia về khoa học dữ liệu, khâu “thao tác nghề mộc” dữ liệu và khâu tích hợp dữ liệu thường bị các doanh nghiệp, tổ chức đánh giá không đúng mức về giá trị, sự cần thiết, cũng như độ phức tạp của chúng trong cả quá trình vận dụng học máy. Một yếu tố quan trọng cần được lưu ý khi thao tác, tích hợp dữ liệu là nhóm nhân sự thực hiện những việc này cần có kiến thức chuyên ngành kinh doanh liên quan, bên cạnh sự am hiểu các kỹ thuật thao tác dữ liệu thuần túy. Điều này sẽ giúp cho việc căn chỉnh cũng như xác định các mối tương quan giữa các nguồn dữ liệu khác nhau một cách phù hợp.

Làm sạch dữ liệu

Các dữ liệu từ kho dữ liệu doanh nghiệp là các dữ liệu được kiểm soát, thường có tính cấu trúc và chất lượng cao. Bên cạnh đó, các dữ liệu từ các bên thứ ba hoặc từ các nguồn thông tin công cộng thường có độ tin cậy thấp và cần được làm sạch một cách cẩn thận để bảo đảm là chúng đạt được sự hoàn chỉnh và không bị lỗi. Việc làm sạch dữ liệu thường bao gồm việc loại bỏ các dữ liệu xấu, sửa chữa các dữ liệu chưa hoàn chỉnh, và thậm chí có thể là biến đổi chúng. Các dữ liệu lỗi sẽ tạo ra các kết quả không mong muốn (sai) trong quá trình huấn luyện và vận hành học máy cho dữ liệu. Doanh nghiệp cần chuẩn bị trước các bộ lọc dữ liệu cũng như các công cụ phát hiện sớm dữ liệu bất thường để nhận dạng tự động các dữ liệu nằm ngoài phạm vi thông thường của hoạt động kinh doanh.

Phân lớp dữ liệu

Dữ liệu trước khi được đưa vào kho chứa dữ liệu doanh nghiệp cần được “làm phẳng”, tái cấu trúc, và phân lớp. Theo cách này, dữ liệu từ mỗi nguồn dữ liệu được làm phẳng tương ứng thành một bảng thông tin và trở thành một lớp dữ liệu. Sau đó cần thực thi việc làm sạch dữ liệu và tổ chức thống nhất cấu trúc của hệ thống các lớp dữ liệu nhằm tạo thuận lợi cho việc phân tích các mối liên hệ giữa chúng.

 Hình 3 –Phân tích liên hệ giữa các lớp dữ liệu 

Khối lập phương dữ liệu

Trong xử lý dữ liệu, có một hình thức cấu trúc dữ liệu hiệu quả nhưng phức tạp hơn việc phân lớp dữ liệu, đó chính là tạo các khối lập phương dữ liệu. Khối lập phương dữ liệu là hình thức trình bày dữ liệu dưới hình thức các mảng nhiều chiều (có thể lớn hơn 3 chiều) hoặc các tensor (một kiểu dữ liệu mảng nhiều chiều xuất phát từ khái niệm tensor trong vật lý, trong đó mô tả mối quan hệ của tập hợp một số đối tượng đại số trong một không gian vector cho trước). Người ta thường dùng các khối lập phương dữ liệu để thể hiện các thông tin, thường là các thống kê, cần quan tâm. Việc thể hiện dữ liệu bằng mô hình lập phương dữ liệu giúp lợi dụng các khái niệm sẵn có và dễ hiểu về các tác vụ với khối lập phương như tách lớp, mảng (slice), cắt khối (dice), tập trung vào một thanh (drill down), xoay (pivot) để tăng tính truyền đạt và thống nhất khi nói về các tác vụ xử lý dữ liệu. 

Hình 4 – Khối lập phương dữ liệu

Phân tích, khám phá dữ liệu đa chiều của doanh nghiệp

Với một khối lượng lớn dữ liệu được tích hợp trong các khối lập phương dữ liệu, các lớp dữ liệu và kho chứa dữ liệu, cần có các thủ tục phân tích, khám phá dữ liệu cẩn thận trước khi sử dụng chúng vào việc vận hành học máy cho các hoạt động kinh doanh, vì việc hiểu sâu sắc dữ liệu là điều rất quan trọng để xây dựng mô hình học máy phù hợp. Các phương pháp để khám phá dữ liệu bao gồm: Khám phá sử dụng tính toán thống kê, khám phá thông qua trực quan hóa, và các phương pháp khám phá dành cho các loại dữ liệu phi cấu trúc (chẳng hạn như văn bản).

Trong phương pháp thống kê, người ta thường bắt đầu việc hiểu dữ liệu bằng cách phân loại dữ liệu dựa trên tính chất, các thuộc tính thông tin và giới hạn giá trị của dữ liệu. Kế tiếp, việc tính toán các giá trị trung bình, giá trị giữa, độ lệch chuẩn và các chỉ số thống kê khác được thực hiện nhằm chọn một mô hình dự báo dữ liệu hoặc khai phá dữ liệu phù hợp. Việc hiểu được “hình dáng” dữ liệu, hay nói cách khác là phân phối của dữ liệu cũng là một bước rất cần thiết để chuẩn bị trước khi bước vào giai đoạn học máy. Bước cuối cùng của phương pháp thống kê là khám phá mối quan hệ giữa các đặc tính trong các lớp dữ liệu khác nhau, chẳng hạn như quan hệ tương quan giữa các biến, hoặc phân tích phương sai, hiệp phương sai giữa hai mẫu, hoặc nhiều mẫu với nhau.

Hình 5 –  Ví dụ về phân phối của dữ liệu bán hàng theo thời tiết

Phương pháp trực quan hóa có thể giúp làm nổi bật các thông tin, tính chất chính của dữ liệu, hoặc sự tương quan giữa các tính chất. Trực quan hóa giúp nhìn ra hình dạng của dữ liệu, hình dung được biên độ hay mức độ của một xu hướng và nhận dạng các dữ liệu lỗi. Một trong những thế mạnh của trực quan hóa là giúp nhận ra mối quan hệ tiềm ẩn giữa các tính chất trong cùng một lớp hoặc xuyên suốt các lớp dữ liệu.

Hình 6 –  Ví dụ về các đồ thị trực quan hóa

Huấn luyện, xác nhận và kiểm tra mô hình học máy

Mô hình thống kê và học máy có vài điểm chung và trong nhiều trường hợp có kết hợp với nhau trong việc khai phá dữ liệu cho kinh doanh. Một cách tổng quát thì học máy thường bao hàm mô hình thống kê như một trong những cách tiếp cận của nó. Cả hai kỹ thuật đều dựa vào việc phân tích dữ liệu để học và sau đó hình thành nên mô hình cụ thể có khả năng phân tích, dự báo kết quả kinh doanh dựa vào các dữ liệu đầu vào mới.

Hình 7 –  Mô hình thống kê và mô hình học máy

Trong quá trình khai phá dữ liệu, các mô hình học máy và thống kê chuyển hóa các kiến thức được học (dữ liệu) qua việc chỉnh định các tham số bên trong của chúng. Mô hình thống kê chỉnh định tham số các hàm toán học tường minh thông qua các giải thuật thống kê. Các tham số có thể được chỉnh định dựa trên việc khớp giá trị của toàn bộ tập dữ liệu mẫu, hoặc trên một số dữ liệu mẫu tương ứng. Mô hình học máy sử dụng giải thuật chỉnh định lặp và dữ liệu huấn luyện để chỉnh định các tham số bên trong mô hình nhằm đạt được kết quả dự báo tối ưu. Các tham số của mô hình học máy thường có dạng vector nhiều thành phần (mạng nơ ron) hoặc tập hợp các hệ số ngẫu nhiên (cây quyết định).

Các khâu xây dựng mô hình học máy

Phương pháp luận cơ bản của việc xây dựng mô hình học máy bao gồm 3 khâu: huấn luyện, xác nhận, và kiểm tra. Khâu huấn luyện thực hiện việc chỉnh định lặp các tham số bên trong mô hình từ sai số huấn luyện. Ở khâu huấn luyện, cần lựa chọn cẩn thận dữ liệu đầu vào, dữ liệu đầu ra và các siêu tham số điều khiển quá trình huấn luyện. Các siêu tham số này sẽ chi phối việc các tham số bên trong mô hình được chỉnh định như thế nào từ sai số huấn luyện và sai số của khâu xác nhận sau đó.

Hình 8 –  Các khâu xây dựng mô hình học máy

Khâu xác nhận, đánh giá mô hình học máy được cụ thể hóa bởi việc đánh giá tính bền vững, ổn định của mô hình và việc tính các chỉ tiêu chất lượng, chẳng hạn như độ chính xác, sai số trung bình bình phương, sai số toàn phương trung bình…. Đánh giá tính ổn định, bền vững của mô hình, xem xét đáp ứng của mô hình với các tập dữ liệu mới mà chúng chưa từng biết đến trong quá trình huấn luyện trước đó. Cần chú ý là giá trị các tập dữ liệu mới này cũng nằm trong giới hạn giá trị của các tập dữ liệu được sử dụng khi huấn luyện. Một cách đánh giá, xác nhận cũng hay được dùng là so sánh đáp ứng của mô hình học máy hiện tại với đáp ứng của một mô hình thống kê truyền thống, chẳng hạn như mô hình hồi quy (đặc biệt thích hợp với bài toán phân loại).

Khâu kiểm tra mô hình thực hiện việc kiểm tra độ chính xác của mô hình với tập dữ liệu mới có giá trị có thể vượt ra ngoài giới hạn của các tập dữ liệu được dùng trong khâu huấn luyện và xác nhận. Để mô hình có thể được sử dụng cho hoạt động kinh doanh thực tiễn, các chỉ tiêu chất lượng của khâu kiểm tra cần có mức độ tương đương hoặc tốt hơn so với của khâu xác nhận.

 Kỹ thuật xác nhận chéo

Trong các kỹ thuật phân bố dữ liệu cho hai khâu huấn luyện và xác nhận, kỹ thuật xác nhận chéo hay được sử dụng để bảo đảm tính bền vững và ổn định của mô hình. Kỹ thuật này chia dữ liệu mẫu thành k tập con và tiến hành việc huấn luyện, xác nhận k lần, trong đó mỗi lần sử dụng một tập con cho việc xác nhận và các tập con còn lại cho việc huấn luyện. Đôi khi kỹ thuật này còn được gọi là kỹ thuật xác nhận chéo k nếp gấp. Kỹ thuật này có thể giúp chọn ra mô hình học máy tối ưu và các siêu tham số phù hợp.

Hình 9 – Kỹ thuật xác nhận chéo

Thực hiện: Huỳnh Ngọc

Tham khảo:

Grant Scott, “Machine Learning in a Data-Driven Business Environment,” Online Course, IEEE Learning Network, 2020.

Chia sẻ: