Từ quan hệ nhân quả đến tương quan

Haisự chuyển đổi nêu trên về cách chúng ta nghĩ về dữ liệu – từ một số sang toànbộ và từ ngăn nắp sang lộn xộn –dẫn đến sự chuyển đổi thứ 3: từ quan hệ nhânquả sang mối tương quan. Việc này cho thấy sự dịch chuyển từ cách thức luônluôn cố gắng hiểu rõ những lý do sâu xa hơn phía sau cách thế giới hoạt độngsang nghiên cứu mối liên kết giữa các hiện tượng và sử dụng điều đó để hiểu rõhơn sự vật, sự việc.
Tấtnhiên, biết được nguyên nhân của mọi việc luôn là điều con người ta mong muốn. Vấnđề ở đây là tìm ra được nguyên nhân này là điều cực kỳ khó, và nhiều lần, khichúng ta nghĩ rằng mình đã thành công, nhưng hóa ra lại chả có gì ngoài sự ảotưởng tự khen mà thôi. Kinh tế học hành vi đã chứng minh rằng con người đượchuấn luyện để tìm ra nguyên nhân, lý do thậm chí ở nơi chúng không tồn tại. Dovậy, chúng ta cần đặc biệt cảnh giác đừng để định kiến nhận thức lừa dối mình; đôikhi, chúng ta phải để dữ liệu lên tiếng.
Hãylấy UPS, công ty chuyển phát, làm ví dụ. UPS tiến hành lắp đặt thiết bị cảmbiến trên nhiều bộ phận của ôtô nhằm xác định độ nóng hoặc kiểu dao động màtrước kia có liên quan đến tình trạng hư hỏng của các bộ phận này. Bằngcách này, công ty có thể dự đoán được những hưhỏng trước khi chúng xảy ra và thay thế phụ tùng vào thời điểm thích hợp thayvì trên đường đi.
Dữliệu không cho biết mối quan hệ chính xác giữa độ nóng hoặc kiểu dao động và sựhư hỏngcủa phụ tùng, chúng cũng không cho UPS biết tại sao bộ phận xe lại hưhỏng, nhưng chúng cho công ty biết những gì cần làm trong thời gian tới và giúpcông ty khảo sát những vấn đề có thể xảy ra với các bộ phận của xe hoặc với cảchiếc xe.
Mộtphương pháp tiếp cận tương tự đang được sử dụng để điều trị bệnh ở người. Cácnhà nghiên cứu tại Canada đang phát triển phương pháp tiếp cận bigdata nhằm pháthiện hiện tượng nhiễm trùngở trẻ sinh non trước khi triệu chứng rõ ràng xuấthiện.
Bằngcách chuyển đổi 16 dấu hiệu quan trọng, kể cả nhịp tim, huyết áp, nhịp thở, và hàmlượng ôxy trong máu, thành luồng thông tin với hơn 1.000 điểm dữ liệu/giây, cácnhà nghiên cứu có thể tìm thấy mối tương quan giữa những thay đổi rất nhỏ với nhữngvấn đề nghiêm trọng hơn. Kỹ thuật này sẽ cho phép bác sĩ hành động sớm hơn đểcứu sống bệnh nhân.
Theothời gian, việc ghi lại kết quả quan sát cũng giúp các sĩ hiểu rõ đâu là nguyênnhân thực sự. Nhưng khi sức khỏe của trẻ sơ sinh bị đe dọa, việc biết rõ điềugì có thể xảy ra quan trọng hơn rất nhiều so với việc hiểu rõ lý do tại sao.
Thuốcchữa bệnh là một ví dụ khác về việc tại sao, với big data, nhận biết mối tươngquan có thể mang lại giá trị to lớn, thậm chí khi các nguyên nhân cơ bản vẫnchưa rõ ràng. Tháng 2/2009, Google đã gây chấn giới chăm sóc y tế. Trong ấnphẩm đăng trên tuần báo khoa học ,các nhà nghiên cứu của Google tuyên bố rằng hoàn toàn có thể theo dõi được cácđợt bộc phát bệnh cúm theo mùa mà không cần sử dụng gì ngoài cơ sở dữ liệu lưutrữ của cỗ máy tìm kiếm Google.
TạiMỹ, mỗi ngày Google xử lý hơn 1 tỷ kết quả tìm kiếm và lưu trữ lại toàn bộ.Công ty đã chọn 50 triệu từ khóa được tìm kiếm nhiều nhất trong giai đoạn2003-2008, và so sánh chúng với dữ liệu bệnh cúm trong lịch sử lấy từ Trung tâmKiểm soát và Phòng ngừa Dịch bệnh (CDC).
Ýtưởng là tìm ra xem liệu tỷ lệ tìm kiếm có trùng khớp với các đợt bộc phát bệnhcúm hay không – nói cách khác là tìm xem sự gia tăng tần suất tìm kiếm trênGoogle tại một khu vực địa lý nhất định có mối tương quan thế nào với dữ liệucủa CDC về các đợt bộc phát bệnh cúm tại khu vực đó.
CDCtheo dõi số lần bệnh nhân đến bệnh viện và cơ sở y tế khám bệnh trên toàn quốc,nhưng thông tin mà CDC công bố thường có độ trễ 1-2 tuần –khoảng thời giantrong trường hợp xảy ra dịch. Trong khi đó, hệ thống của Google hoạt động trongthời gian gần sát với thực tế.
Googlekhông cho rằng có thể biết được câu hỏi nào là chỉ số tốt nhất. Thay vào đó, Googlexử lý toàn bộ các thuật ngữ bằng một thuật toán giúp xếp loại mức độ tương quangiữa thuật ngữ này và các cơn bộc phát bệnh cúm. Sau đó, hệ thống này cố gắngkết hợp các thuật ngữ để tìm xem liệu chúng có giúp cải tiến mô hình hay không.Cuối cùng, sau khi xử lý gần nửa tỉ phép tính, Google nhận thấy 45 thuật ngữ -các từ như “đau đầu” và “chảy nước mũi” –có mối tương quan chặt chẽ với dữ liệucủa CDC về các đợt bộc phát bệnh cúm. Toàn bộ 45 thuật ngữ này đều liên quanđến bệnh cúm ở khía cạnh nào đó. Nhưng với 1 tỷ kết quả tìm kiếm mỗi ngày, đểđoán được kết quả nào hiệu quả nhất và chỉ thử nghiệm các kết quả này mà thôilà một nhiệm vụ bất khả thi.
Hơnnữa, dữ liệu không hoàn hảo. Do dữ liệu chưa bao giờ được dùng phục vụ mục đíchnêu trên, nên lỗi chính tả và các cụm từ không đầy đủ xuất hiện phổ biến. Nhưngkích cỡ và quy mô của dữ liệu mang lại lợi ích nhiều hơn những gì do tính lộnxộn gây ra.
Tấtnhiên, kết quả chỉ đơn giản là mối tương quan. Dữ liệu không cho biết gì về lýdo tại sao một người nào đó lại tiến hành tìm kiếm thông tin. Có phải vì ngườinày cảm thấy mệt mỏi hoặc nghe thấy tiếng hắt hơi của đồng nghiệp ngồi bên cạnh,hoặc cảm thấy lo lắng sau khi đọc tin tức? Hệ thống của Google không biết, vàcũng không quan tâm.
Thựctế, tháng 12 năm ngoái, dường như hệ thống của Google đã ước tính quá mức số canhiễm cúm tại Mỹ. Đây được coi như lời nhắc nhở rằng mọi dự đoán chỉ mang tính xácsuất và không phải lúc nào cũng đúng, nhất là khi cơ sở để đưa ra dự đoán – kếtquả tìm kiếm trên Internet –luôn thay đổi và dễ chịu tác động của yếu tố bênngoài như báo cáo trên phương tiện truyền thông. Hơn nữa, big data có thể chỉcho biết đôi điều về xu hướng chung những gì đang diễn ra và hệ thống củaGoogle cũng chỉ làm điều đó mà thôi.
Cập nhật tin Đầu Tư, Bất Động Sản, tin nhanh kinh tế chứng khoán, kiến thức Doanh Nghiệp tại Fanpage.
Theo dõi Nhịp Cầu Đầu Tư

Tin cùng chuyên mục
-
Phi Vũ
-
Công Sang
-
Cẩm Tú
-
Tuấn Thịnh
-
Hằng Nga
Tin nổi bật trong ngày
Tin mới
-
Trần Chung