Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Clean Data #1

Open
VinhDevNguyen opened this issue May 19, 2021 · 2 comments
Open

Clean Data #1

VinhDevNguyen opened this issue May 19, 2021 · 2 comments
Assignees

Comments

@VinhDevNguyen
Copy link
Owner

Report problem

Sau khi phân tích dữ liệu thì tao thây một vài thứ như sau:

  1. Số lượng Unknown khá nhiều
    • smoking_status (Chiếm 30.650%)
      never smoked       36.675
      Unknown            30.650
      formerly smoked    17.150
      smokes             15.525
      Name: smoking_status, dtype: float64
      
    • Residence_type (Chiếm 49.675%)
      Unknown    49.675
      Urban      25.450
      Rural      24.875
      Name: Residence_type, dtype: float64
      
    Tao nghĩ cái này có thể ảnh hưởng tới model (ảnh hưởng nhiều là đằng khác chăng 🤔 )
  2. Liệu việc drop column height có ảnh hưởng? 🤔
  3. Tương tự như việc gán đại giá trị 0 cho những dữ liệu NaN của feature hypertensionheart_disease liệu có ảnh hưởng? (Theo tao nghĩ là không vì cả 2 feature trên đều không thiếu quá nhiều dữ liệu nhưng vẫn ghi ra để anh em có cái thảo luận)

Hiện chưa nghĩ ra được phương pháp nào để giải quyết những vấn đề trên. Anh em thảo lụân thêm bên dưới comment nhé!

@VinhDevNguyen
Copy link
Owner Author

@dxv2k
Copy link
Collaborator

dxv2k commented May 20, 2021

  • Use Label Encoding instead of One-Hot
  • Round up age, from float to int
  • Check work_type :
    • age & work_type must be fit together
      E.g: work_type = children -> age <= 15 and vice versa
    • If age is not in children category -> random fill work_type based on given work_type
  • bmi:
    Below 18.5 Underweight
    18.5—24.9 Normal
    25.0—29.9 Overweight
    30.0 and Above Obese

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants