Nhiều bạn nhắn tin hỏi mình về việc chọn ngành nghề, thường bao giờ mình cũng khuyên hãy theo đuổi những gì bạn thích. Còn trong trường hợp bạn không thích gì đặc biệt hết mà lại mạnh về các môn tự nhiên, thì hãy học Data Science (DS) đi. Vì sao à? Vì đây là ngành nghề hấp dẫn nhất thế kỉ 21 này, được trả lương cao ngất ngưởng này (theo Burch Works, 2018: trung bình ~100,000$/năm cho junior, link bài viết phía dưới), vì thị trường đang cực kì khan hiếm lượng nhân lực này. Nghe giang hồ đồn thổi, có công ty nọ ở Việt Nam săn lùng một Data Scientist với mức lương khởi điểm 3000$ mà không thể tìm nổi ấy

;)Bạn đã thấy hào hứng chưa? Nếu bạn muốn biết thêm về việc học DS ở Đức thì xem bài viết trước của mình nhé.Còn trong bài này, thể theo yêu cầu của nhiều bạn, mình sẽ cung cấp những tài liệu mình thường hay sử dụng cho việc tự học, củng cố thêm kiến thức trên lớp của mình.

I. Học lập trình:Một Data Scientist (DStist) không thể không biết lập trình, dù không cần thiết phải giỏi như một lập trình viên nhưng phải đủ khả năng viết được những chương trình cơ bản. Từ khi nhập học tới giờ, từ một đứa mà kiến thức lập trình là con số 0 tròn trình, mình đã học qua R, Java, Python, SQL (kì tới sẽ có cả NoSQL nữa). Học tới đâu là sử dụng luôn tới đấy nên thường mình phải tự học thêm rất nhiều để có thể hiểu được logic và cú pháp của ngôn ngữ lập trình đó. Ngôn ngữ quan trọng nhất, phổ biến nhất dành cho DStist là Python với thư viện khổng lồ. Xếp sau Python là R, rất mạnh về phân tích thống kê. Năm ngoái mình được Khoa Toán thuê viết một App (ShinyApp) tương tác dành cho một dự án nghiên cứu của Bang sử dụng ngôn ngữ này.Vậy học lập trình ở đâu?

  1. https://www.tutorialspoint.com/

Trang này thì gi gỉ gì gi cái gì cũng có, thích học gì có ngay cái đó. Còn nhớ năm ngoái mình cực kỳ đuối khi các thầy bắt học thêm Java, với lý do rằng DStist thường hay phải làm việc trực tiếp với lập trình viên, vậy thì phải học để có thể trò chuyện với nhau được. Mình đã phải đọc thêm sách, đi học thêm phụ đạo, rồi lại đọc mòn mỏi trên trang này để theo kịp các bạn trên lớp. Kết quả là cuối kì, mình tự viết được cả trò chơi và thậm chí còn lập trình được công thức toán thống kê cho thư viện Java đấy.

2. https://codingbat.com/Đây là nơi mình luyện viết code, từ những ứng dụng đơn giản nhất chỉ vài ba dòng. Trình độ của mình đã lên rất nhanh sau khi hoàn thành phân nửa số bài tập trên này.

3. https://www.datacamp.com/Mình chưa sử dụng trang này bao giờ, nhưng được quảng cáo khá nhiều. Trên này có các khóa học miễn phí R và Python thiết kế riêng cho DS. Thích hợp cho những ai mới bắt đầu.

4. https://www.udemy.com/courses/development/programming-languages/

5. https://www.codecademy.com/catalog/subject/allĐây là hai trang do bạn bè mình giới thiệu. Có mấy bạn không đi học phụ đạo Java được đã trả tiền theo học trên này. Vì thường xuyên có giảm giá sâu nên khóa học không quá đắt đỏ. Và điểm lợi thế là sẽ có chứng nhận cuối khóa, có thể củng cố thêm cho hồ sơ xin học hoặc xin việc của bạn.

II. Học thống kê:Đã làm việc với dữ liệu là phải hiểu lý thuyết thống kê, chí ít cũng phải biết tới những khái niệm cơ bản như lấy mẫu (sampling), trung bình (mean), trung vị (median), độ lệch chuẩn (standard deviation), hồi quy tuyến tính (linear regression),… Nếu muốn trở thành DStist thì còn phải biết tới kiến thức thống kê nâng cao, liên quan tới machine learning. Một điều tuyệt vời là những cuốn sách thống kê hay ho nhất, tổng hợp nhất lại miễn phí, nhằm đáp ứng nhu cầu học tập về dữ liệu ngày càng cao. Hai cuốn sách mà tất cả các giáo sư Khoa Toán của mình đều sử dụng là:

  1. The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome H. Friedman, 2001)

Cuốn này hơn 700 trang, chia làm 18 chương, sử dụng R trong phân tích thống kê. Bản thân mình thấy sách quá hay, minh họa đầy đủ, giải thích kĩ càng, đọc tới đâu có thể copy code đến đấy để tự thử nghiệm. Dĩ nhiên bạn không cần phải đọc hết sách. Đụng tới khái niệm thống kê nào thì tra cứu tương ứng trong sách cũng được.https://web.stanford.edu/~hastie/Papers/ESLII.pdf2. An Introduction to Statistical Learning: With Applications in R ( Trevor Hastie, Robert Tibshirani, Daniela Witten, Gareth James, 2013)Cuốn này cũng hay, hơn 400 trang, chia làm 10 chương, cũng dùng R. Ai ngại đọc cuốn trên thì có thể bắt đầu với cuốn này.https://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdfIII. Học Data Science – Nâng cao:Sau khi có chút kiến thức cơ bản về lập trình và thống kê rồi thì bạn có thể sử dụng các trang sau để tìm hiểu thêm về các mảng chính của DS như artificial intelligence, computer vision, machine learning, Big Data Analytics, Business Intelligence…

  1. https://towardsdatascience.com/

Đây là trang tổng hợp cực kì nhiều bài viết chất lượng từ các giáo sư và chuyên gia trong ngành. Có rất nhiều bài hướng dẫn chi tiết từng bước cho trình độ beginner. Mình thường đọc trên trang này về machine learning và artificial intelligence (AI). Không chỉ có những phân tích rất cặn kẽ về mặt lý thuyết, nhiều bài viết còn cung cấp ví dụ minh họa và đính kèm cả code để bạn đọc tự thử nghiệm. Ví dụ bài viết sau về Deep Learning là của một giáo sư ở Barcelona, toàn bộ Code có trong Notebook trên Google Colab. Vì chạy trên Cloud nên bạn không cần cài đặt gì mà có thể lập tức chạy chương trình ngay được, cực kì phù hợp cho những ai muốn xem qua trước và không muốn mất công cài đặt này nọ.https://towardsdatascience.com/deep-learning-for-beginners-practical-guide-with-python-and-keras-d295bfca4487

2. https://www.datascienceweekly.org/Một bạn người Na Uy trên Tandem giới thiệu cho mình về trang này, bảo rằng đang tự học machine learning ở đây. Thế là mình cũng đăng ký nhận Newsletter từ mấy hôm trước. Mỗi tuần, mình nhận được một email tổng hợp các bài viết nổi bật trong ngành. Như vậy để mình luôn nắm bắt được những xu hướng mới nhất và cập nhật những tiến bộ công nghệ mới.

3. https://www.kaggle.com/Một đồng nghiệp người Ấn Độ chỉ cho mình trang này quá hay luôn. Đây là nơi bạn học hỏi bằng cách thực hành qua các dự án, các cuộc thi và thử thách quốc tế. Các công ty, tổ chức treo giải thưởng có khi lên tới cả 100,000$ cho đội nào chiến thắng. Chẳng hạn hiện giờ có 20 cuộc thi đấu song song, và đã có hàng ngàn đội đăng kí tham gia. Trên này cũng có các micro-courses hoàn toàn miễn phí từ Python cho tới Deep Learning dành cho beginner.https://www.kaggle.com/learn/overview

4. https://www.coursera.org/browse/data-science

Và cuối cùng, dĩ nhiên là trên coursera cũng có khóa học miễn phí dành cho DS. Khi nào có thời gian, bạn thử đăng ký xem sao.Trên đây là những hướng dẫn chung dành cho những ai muốn tìm hiểu về Data Science và học những kĩ năng cơ bản trước. Hi vọng giúp được các bạn đang quan tâm. Mình sẽ tiếp tục cập nhật thêm nhé.Blog Mai Knowshttps://www.facebook.com/maiknowsnow/
Link tham khảo về lương của DStist:https://www.burtchworks.com/2018/07/09/2018-data-scientist-salary-report-highlights/Nguồn ảnh:https://www.datanami.com/2018/09/17/improving-your-odds-with-data-science-hiring/

by Mai Trần

LEAVE A REPLY

Please enter your comment!
Please enter your name here