Người Việt Nam chọn mật khẩu như thế nào?

(vào đây để kiểm tra xem thông tin cá nhân của bạn có bị lộ hay không - công cụ này do anh Quân Nguyễn Đức xây dựng)

Trong số 160 triệu tài khoản VNG bị lộ có gần 75 triệu tài khoản là của những người có thể xác định được chính xác ngoài đời. Gắn với 75 triệu tài khoản này là hơn 22 triệu mật khẩu (vì ý tưởng lớn gặp nhau, người ta hay chọn mật khẩu giống nhau -- các bạn có biết là có website hẹn hò chuyên ghép đôi những người chọn cùng mật khẩu?)

Các mật khẩu này được mã hóa với một thuật toán rất dễ bị bẻ gãy (dành cho dân trong nghề: thuật toán MD5, một round duy nhất, không salt gì cả). Tôi tin đây là vụ lộ mật khẩu của người Việt Nam lớn nhất từ xưa đến nay và việc bẻ khóa các mật khẩu này sẽ cung cấp một nguồn thông tin hiếm hoi về cách mà người Việt Nam chọn những bí mật riêng tư nhất của mình. Việc phân tích các mật khẩu sẽ giúp chúng ta biết được mật khẩu nào yếu và từ đó chọn cho mình mật khẩu tốt nhất. Và đương nhiên ai mà không muốn biết thằng Tèo nhà hàng xóm chọn mật khẩu như thế nào?

Tôi sử dụng phần mềm hashcat, với một vài tinh chỉnh nhỏ, không đáng kể. Tôi sử dụng chiếc laptop cùi bắp Macbook Pro đời 2015. Nói chung là tôi không có làm gì đặc biệt, những gì tôi làm ai cũng có thể làm được. Tôi bắt đầu bẻ khóa vào trưa thứ bảy và đến chiều chủ nhật thì dừng lại vì laptop nóng quá tôi sợ nó chết :-). Tôi tìm được hơn 37% mật khẩu của 75 triệu tài khoản kể trên.

Tôi thấy người Việt chọn mật khẩu rất tếu. Có bác nào nhà nuôi lợn nên chọn mật khẩu là lonlonlonlonlonlonlonlonlonlon. Cũng có bác nuôi cú đặt mật khẩu là cucucucucucucucucucu. Đây chắc hẳn là con cú dài nhất nước ta.

Một vài thống kê vui khác:

* anhyeuem là mật khẩu phổ biến thứ 5, có đến hơn 900.000 người chọn mật khẩu này, trong khi chỉ có hơn 90.000 người chọn emyeuanh. Chứng tỏ đàn ông yêu nhiều hơn đàn bà.

* Rất nhiều đàn ông nghĩ họ đẹp trai: có đến 95.749 tài khoản sử dụng từ "deptrai". Chỉ có vài phụ nữ nghĩ họ đẹp gái: chỉ có 1517 tài khoản sử dụng từ "depgai".

* Nhưng rất nhiều người nghĩ họ xinh (xinh mà không đẹp nghĩa là sao??): có 106014 tài khoản có từ "xinh" trong mật khẩu (và tôi đã loại trừ các từ như xinhayquenanh).

* Dữ liệu cho thấy có nhiều người dùng ở Sài Gòn hơn các Hà Nội, nhưng chỉ có 10.000 người chọn Sài Gòn làm bí mật, so với 20.000 chọn Hà Nội.

* Có đến 108 "boyhanoi", nhưng lại không có em "gaiphoco" nào cả. Chỉ có 396 "chandai" nhưng lại có đến 32726 "daigia".

* Đang đói bụng nên tôi thử tìm xem... Chỉ có 29 người thích ăn nem nướng, nhưng có đến 327 người thích bún chả.

* Có 23 người thích phở tái, nhưng chỉ có 1 người thích phở chín! Số người thích phở bò là 380, gấp đôi số người thích phở gà!

* Số người thích "bunrieu" là 184, chỉ là con số nhỏ so với 1934 người thích "hutieu".

Ai nghĩ ra cái gì cần tìm thì báo lại cho tôi biết nhé ;-).


Cập nhật ngày 1/5/2018:
* Sửa một lỗi trong hai thống kê "Mật khẩu dài nhất" và "Mật khẩu phổ biến nhất": thay vì thống kê trên toàn bộ số tài khoản bị lộ mật khẩu (124 triệu tài khoản), tôi đã chỉnh lại để thống kê trên 34 triệu tài khoản có thông tin xác định được danh tính mà thôi.
* Thay vì chỉ hiện 1.000 mật khẩu dài nhất và phổ biến nhất, tôi chỉnh lại cho hiện 10.000.

Cập nhật ngày 2/5/2018:
* Số tài khoản có thông tin cá nhân tăng từ 34 triệu lên 75 triệu vì tôi tính luôn những tài khoản có tên và ngày sinh. Tôi thấy tính như vầy chính xác hơn.

Comments

Quang Nguyễn said…
Không liên quan tới VNG nhưng tiện thể cho mình hỏi là tại sao các Ngân hàng không cho thêm 1 option để khách hàng chọn thêm hình thức xác thực Google Authentication F2A vào ATM nhỉ, mình nghĩ nếu có thêm lựa chọn này thì ít bị chôm mã PIN ATM hơn.
AJack Ti said…
Cảm ơn anh Thái vì cái top của anh làm em vui cả ngày hôm nay rồi =))
Tran Tien Thanh said…
Muốn email riêng cho Thái thì Email vào đâu Thái nhỉ ?
Huy Quang said…
Thích phong cách viết của anh vãi chường :)))
Cường Phan said…
Mình quan tâm đến cơ sơ dữ liệu này. Nếu không phiền mình xin 1 bản copy từ bạn được không?
Email mình là cuongtphan@gmail.com
Mong nhận được hồi âm từ bạn.
Thai Duong said…
Tran Tien Thanh: email của tôi là thaidn@gmail.com.
sao tai ve duoc ak
quangntenemy said…
Crack password của 75 triệu tài khoản như vậy có hợp pháp ko bạn?
Thai Duong said…
quangntenemy: just so you know i wouldn't bite your bait :-)

btw does your nickname stand for Kẻ Thù Nguyễn Tử Quảng =)?
Dân ngoại đạo, vừa nghe "Say" buồn rười rượi (by Dương Ngọc Thái, of course) vừa đọc bài viết thống kê súc tích chút hài hài. Cảm giác vui buồn khó tả.

Làm thế nào mà bạn Thái có thể đa tài như vậy? Ngưỡng mộ!
Trung Dinh said…
lol did you intend to prepare the dictionary rules to include words cucucucucucucucu and lonlonlonlonlonlon... for the crack? very nice stats! :)
công sáng said…
quá dữ toàn dân chơi
Thai Duong said…
Trung: no i didn't. hashcat did that by itself.
Znhan said…
Con cu dai nhat nuoc :)