Phương pháp tiếp cận "N = tất cả"

Thứ Năm | 06/06/2013 17:09

Việc khai thác nguồn dữ liệu lớn hơn và nhiều hơn có nghĩa là chúng ta có thể cho phép một vài sai lỗi xuất hiện.

Xuyênsuốt chiều dài lịch sử, con người làm việc với một số lượng tương đối nhỏ dữliệu do sự nghèo nàn về công cụ thu thập, tổ chức, lưu trữ và phân tích thôngtin. Con người sàng lọc thông tin xuống đến mức tối thiểu nhất do vậy, họ cóthể kiểm tra chúng dễ dàng hơn.

Đâylà đặc điểm nổi trội của thống kê học đương đại, lần đầu tiên xuất hiện vàocuối thế kỷ 19 và cho phép xã hội hiểu rõ thực tại phức tạp thậm chí khi có rấtít dữ liệu. Ngày nay, môi trường kỹ thuật đã biến đổi 179 độ. Vẫn và sẽ luôn cógiới hạn về lượng dữ liệu chúng ta có thể quản lý, nhưng giới hạn này đã giảmrất nhiều so với trước kia và sẽ còn giảm theo thời gian.

Cáchthức con người giải quyết vấn đề nắm bắt thông tin trong quá khứ là ví dụ nổibật. Khi việc thu thập dữ liệu tốn kém và việc xử lý chúng rất khó khăn và tốnnhiều thời gian, thì lấy mẫu là vị cứu tinh.

Việclấy mẫu hiện đại dựa trên ý tưởng rằng, trong một phạm vi biên độ sai lỗi nhấtđịnh, người ta có thể suy luận ra một điều gì đó về tổng thể từ một tập hợp conmiễn sao mẫu được lựa chọn ngẫu nhiên.

Dovậy, việc tiếp xúc cử tri sau khi họ bỏ phiếu vào đêm bầu cử thường chọn ngẫunhiên một nhóm vài trăm người để dự đoán thái độ và hành vi bầu cử của cả nước.Đối với những câu hỏi đơn giản và dễ hiểu, quy trình này phát huy hiệu quả.Nhưng sẽ thất bại khi chúng ta muốn chú trọng vào các nhóm nhỏ.

Điềugì sẽ xảy ra nếu người đi thăm dò ý kiến muốn biết phụ nữ độc thân dưới 30 tuổisẽ bỏ phiếu cho ứng cử viên nào ? Phụ nữ Mỹ gốc Á dưới 30 tuổi tốt nghiệp đạihọc thì sao? Đột nhiên, việc lấy mẫu ngẫu nhiên gần như vô ích vì có thể chỉmột vài người trong nhóm chọn mẫu có đặc điểm nêu trên, quá ít để đưa ra mộtđánh giá có ý nghĩa về việc bộ phận cư dân sẽ bỏ phiếu như thế nào.

Nhưngnếu chúng ta thu thập toàn bộ dữ liệu - “n=tất cả” để sửdụng thuật ngữ thống kê – vấn đề rắc rối sẽ không còn.

Vídụ này cho thấy một thiếu sót khác về việc sử dụng một số thay vì toàn bộ dữliệu. Trước kia, khi con người chỉ thu thập chút ít dữ liệu, họ thường phảiquyết định ngay từ đầu về việc sẽ thu thập những gì và sẽ sử dụng như thế nào.

Ngàynay, khi thu thập toàn bộ dữ liệu, chúng ta không cần biết trước sẽ dùng chúngvào việc gì. Tất nhiên, không phải lúc nào cũng có thể thu thập được toàn bộ dữliệu, nhưng việc hiểu được một hiện tượng chứ không phải chỉ một mẫu ngày càngcó tính khả thi cao hơn.

Bigdata không chỉ là vấn đề tạo ra các mẫu lớn hơn mà còn là vấn đề khai thác dữliệu sẵn có càng nhiều càng tốt về những gì đang được nghiên cứu. Chúng ta vẫncần số liệu thống kê; chúng ta chỉ không còn phải lệ thuộc vào số mẫu vật nhỏbé mà thôi.

Tuynhiên, vẫn cần thực hiện thỏa hiệp trao đổi. Khi chúng ta tăng quy mô theo tầmquan trọng, chúng ta có thể phải từ bỏ dữ liệu dễ hiểu, được chọn lựa cẩn trọngvà chấp nhận nguồn dữ liệu lộn xộn.

Ýtưởng này đi ngược lại cách thức con người đã và đang nỗ lực làm việc với dữliệu trong nhiều thế kỷ qua. Nhưng sự ám ảnh về tính chính xác và xác thực làkết quả của một môi trường với nguồn thông tin giới hạn.

Khikhông sẵn có nhiều dữ liệu, các nhà nghiên cứu phải đảm bảo rằng những con số màhọ nỗ lực thu thập được càng chính xác càng tốt. Việc khai thác nguồn dữ liệulớn hơn và nhiều hơn có nghĩa là chúng ta có thể cho phép một vài sai lỗi xuấthiện (với điều kiện là dữ liệu không hoàn toàn sai), đổi lại, lợi ích thu đượclà hiểu rõ bản chất sự việc.

Hãyxem xét công việc biên dịch ngôn ngữ. Dường như máy tính có thể làm tốt côngviệc này do chúng có thể lưu trữ rất nhiều thông tin và sử dụng những thông tinnày một cách nhanh chóng. Nhưng nếu ai đó chỉ cần thay thế một số từ trong cuốntừ điển Pháp-Anh, công việc biên dịch sẽ trở thành cơn ác mộng.

Ngônngữ vốn phức tạp. Bước đột phá trong lĩnh vực này diễn ra trong những năm 1990khi IBM tiến hành nghiên cứu chuyên sâu hoạt động biên dịch cơ học thống kê. IBMđã cung cấp cho quốc hội Canada các bản dịch bằng cả tiếng Anh và tiếng Pháp,đưa chúng vào một máy tính và lập trình để máy tính có thể đưa ra cặp từ nào cóý nghĩa tương đương nhất trong 2 ngôn ngữ (nguồn-đích). Quá trình này đã biếnđổi công việc biên dịch thành vấn đề của xác suất và toán học, nhưng sau bướctiến ban đầu này, quá trình này đã tạm ngừng hoạt động.

Sauđó, Google nhảy vào lĩnh vực này. Thay vì sử dụng một lượng tương đối nhỏ cácbản dịch chất lượng cao, người khổng lồ tìm kiếm này đã sử dụng nhiều dữ liệuhơn, nhưng từ môi trường Internet lộn xộn hơn – “dữ liệu nơi hoang dã”. Google hấpthụ bản dịch từ các trang web công ty, tài liệu bằng mọi thứ tiếng ở Liên minhchâu Âu, thậm chí cả các bản dịch từ dự án khổng lồ về sao chụp (scan) các cuốnsách. Google phân tích hàng tỉ chứ không phải trang triệu các trang ký tự. Kếtquả là bản dịch của Google khá tốt – tốt hơn sản phẩm của IBM –và có thể biêndịch được 65 ngôn ngữ.

f | Chia sẻ bài viết

Cập nhật tin Đầu Tư, Bất Động Sản, tin nhanh kinh tế chứng khoán, kiến thức Doanh Nghiệp tại Fanpage.

Theo dõi Nhịp Cầu Đầu Tư

TAGS: dữ liệu , biên dịch , thu thập , bản dịch , Google , ngôn ngữ , lấy mẫu , IBM , thống kê , con người , bỏ phiếu

Phương pháp tiếp cận "N = tất cả"

Tin cùng chuyên mục

Tin nổi bật trong ngày

Tin mới

Sự kiện