Tập dữ liệu python là gì?

Một trong những khía cạnh chính của máy học được giám sát viên đánh giá và xác nhận mô hình. Khi bạn đánh giá hiệu quả dự đoán của mô hình của bạn, điều cần thiết là quá trình này không thuận lợi. Use

$ conda install -c anaconda scikit-learn=0.23
7 Từ thư viện dữ liệu Scikit-learning, bạn có thể chia sẻ bộ dữ liệu của mình thành các tập hợp nhằm giảm thiểu khả năng sai lệch trong quá trình đánh giá và xác nhận của bạn.
$ conda install -c anaconda scikit-learn=0.23
7 từ thư viện khoa học dữ liệu scikit-learning, bạn có thể chia tập dữ liệu của mình thành các tập hợp con để giảm thiểu khả năng sai lệch trong quy trình đánh giá và xác thực của bạn

Nội dung chính Hiển thị

Trong hướng dẫn này, bạn sẽ học

  • Tại sao bạn cần phải phân chia bộ dữ liệu của mình trong máy học được giám sát phân chia tập dữ liệu của bạn trong học máy có giám sát
  • Tập hợp bất kỳ tập hợp con nào của tập dữ liệu bạn cần để đánh giá không thiên vị về mô hình của bạn tập hợp con của tập dữ liệu bạn cần để đánh giá khách quan về mô hình của mình
  • Cách sử dụng
    $ conda install -c anaconda scikit-learn=0.23
    
    7 để phân chia dữ liệu của bạn_______07 để phân chia dữ liệu của bạn
  • Cách kết hợp
    $ conda install -c anaconda scikit-learn=0.23
    
    7 với các phương pháp dự đoán phương pháp dự đoán

Ngoài ra, bạn sẽ nhận được thông tin về các công cụ liên quan từ

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0

Tầm quan trọng của việc phân tách dữ liệu

Học máy được giám sát là về việc tạo ra các mô hình ánh xạ chính xác mà các đầu vào đã cho (các biến độc lập hoặc dự đoán) cho các đầu ra đã cho (các biến phụ thuộc hoặc phản hồi). dự đoán) cho các đầu ra nhất định (biến phụ thuộc hoặc phản hồi)

Cách bạn đo lường mức độ chính xác của mô hình của bạn phụ thuộc vào loại vấn đề mà bạn đang cố gắng giải quyết. Trong phân tích hồi quy, bạn thường sử dụng hệ số xác định, lỗi bình phương trung bình gốc, lỗi tuyệt đối trung bình hoặc số lượng tương tự. Đối với các loại vấn đề, bạn thường áp dụng độ chính xác, độ chính xác, thu hồi, điểm F1 và các số liên quan duy nhất

Các giá trị có thể chấp nhận đã được đo lường chính xác độ thay đổi từ trường này sang trường khác. Bạn có thể tìm thấy những giải thích chi tiết từ bảng thống kê số liệu của Jim, Quora và nhiều tài nguyên khác

Điều quan trọng nhất cần hiểu là bạn thường cần đánh giá không thiên vị để sử dụng đúng các biện pháp này, đánh giá hiệu quả dự đoán của mô hình của bạn và xác nhận mô hình. đánh giá không thiên vị để sử dụng đúng các biện pháp này, đánh giá hiệu suất dự đoán của mô hình của bạn và xác thực mô hình

Điều này có nghĩa là bạn có thể đánh giá hiệu quả dự đoán của một mô hình với cùng một dữ liệu bạn đã sử dụng để đào tạo. Bạn cần đánh giá mô hình với dữ liệu mới đã được mô hình nhìn thấy trước đây. Bạn có thể thực hiện điều đó bằng cách phân tách bộ dữ liệu của bạn trước khi bạn sử dụng nó. dữ liệu mới mà mô hình chưa từng thấy trước đây. Bạn có thể thực hiện điều đó bằng cách tách tập dữ liệu của mình trước khi sử dụng

Đào tạo, xác nhận và kiểm tra

Chia sẻ dữ liệu của bạn là điều cần thiết để đánh giá không thiên vị về hiệu quả dự đoán. Trong hầu hết các trường hợp, nó đủ để chia dữ liệu của bạn một cách ngẫu nhiên thành ba tập hợp con

  1. Bộ đào tạo được áp dụng để đào tạo, hoặc phù hợp với mô hình của bạn. Ví dụ. bạn sử dụng tập huấn luyện để tìm các mức tối ưu hoặc hệ số quan trọng, để hồi quy tuyến tính, hồi quy logistic hoặc mạng thần kinh. được áp dụng để đào tạo, hoặc điều chỉnh, mô hình của bạn. Ví dụ: bạn sử dụng tập huấn luyện để tìm các trọng số hoặc hệ số tối ưu cho hồi quy tuyến tính, hồi quy logistic hoặc mạng thần kinh

  2. Bộ xác nhận đã được sử dụng để đánh giá mô hình không có vị trí trong quá trình điều chỉnh siêu phân tích. Ví dụ. Khi bạn muốn tìm số lượng tế bào thần kinh tối ưu trong mạng lưới thần kinh hoặc hạt nhân tốt nhất cho máy màn hình hỗ trợ, bạn hãy thử trải nghiệm các giá trị khác nhau. Đối với mỗi thiết lập được xem xét bởi các siêu phân tích, bạn phù hợp với mô hình với bộ đào tạo và đánh giá hiệu suất của nó với bộ xác thực. được sử dụng để đánh giá mô hình không thiên vị trong quá trình điều chỉnh siêu tham số. Ví dụ: khi bạn muốn tìm số nơ-ron tối ưu trong mạng nơ-ron hoặc hạt nhân tốt nhất cho máy vectơ hỗ trợ, bạn thử nghiệm với các giá trị khác nhau. Đối với mỗi cài đặt được xem xét của siêu tham số, bạn điều chỉnh mô hình bằng tập huấn luyện và đánh giá hiệu suất của mô hình bằng tập xác thực

  3. The test is required for a đánh giá không thiên vị của mô hình cuối cùng. Bạn không nên sử dụng nó để phù hợp hoặc xác nhận. là cần thiết để đánh giá khách quan về mô hình cuối cùng. Bạn không nên sử dụng nó để điều chỉnh hoặc xác nhận

Trong những trường hợp ít phức tạp hơn, khi bạn không phải điều chỉnh các siêu âm, bạn sẽ ổn định khi chỉ làm việc với các bộ đào tạo và kiểm tra

Missing and too power

Việc chia sẻ một bộ dữ liệu cũng có thể rất quan trọng để phát hiện nếu mô hình của bạn gặp phải một trong hai vấn đề rất phổ biến, được gọi là thiếu ngắn và quá mức

  1. Underfits thường là hậu quả của một mô hình không thể gói gọn các mối quan hệ giữa dữ liệu. Ví dụ, điều này có thể xảy ra khi cố gắng thực hiện các mối quan hệ phi tuyến với mô hình tuyến tính. Các mô hình thiếu vắng có thể sẽ kém hiệu quả với cả bộ đào tạo và thử nghiệm. thường là hệ quả của việc một mô hình không thể đóng gói các mối quan hệ giữa dữ liệu. Ví dụ: điều này có thể xảy ra khi cố gắng biểu diễn các mối quan hệ phi tuyến tính bằng một mô hình tuyến tính. Các mô hình không phù hợp có thể sẽ có hiệu suất kém với cả tập huấn luyện và tập kiểm tra

  2. Thao tác quá mức diễn ra khi một mô hình có cấu trúc quá phức tạp và tìm hiểu cả các mối quan hệ hiện có giữa dữ liệu và tiếng ồn. Các mô hình như vậy thường có khả năng miêu tả xấu. Mặc dù chúng hoạt động tốt với dữ liệu đào tạo, nhưng chúng thường mang lại hiệu quả kém so với dữ liệu (thử nghiệm) chưa thấy. thường diễn ra khi một mô hình có cấu trúc quá phức tạp và học cả các mối quan hệ hiện có giữa dữ liệu và nhiễu. Những mô hình như vậy thường có khả năng khái quát hóa kém. Mặc dù chúng hoạt động tốt với dữ liệu đào tạo, nhưng chúng thường mang lại hiệu suất kém với dữ liệu (thử nghiệm) không nhìn thấy được

Bạn có thể tìm thấy một lời giải thích chi tiết hơn về thiếu vắng và quá mức trong hồi quy tuyến tính trong Python

Điều kiện tiên quyết cho việc sử dụng $ conda install -c anaconda scikit-learn=0. 23 7

Bây giờ bạn đã hiểu sự cần thiết phải phân chia một bộ dữ liệu để thực hiện đánh giá mô hình không có vị trí và xác định thiếu hoặc quá mức, bạn đã sẵn sàng tìm hiểu cách phân chia bộ dữ liệu của riêng bạn

You will use version 0. 23,1 of Scikit-learning or

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2. Nó có nhiều gói cho khoa học dữ liệu và máy học, nhưng đối với hướng dẫn này, bạn sẽ tập trung vào gói
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
3, cụ thể là chức năng
$ conda install -c anaconda scikit-learn=0.23
7. scikit-learning, hoặc
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2. Nó có nhiều gói dành cho khoa học dữ liệu và máy học, nhưng đối với hướng dẫn này, bạn sẽ tập trung vào gói
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
3, cụ thể là hàm
$ conda install -c anaconda scikit-learn=0.23
7

You could install

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2 với
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
6.
$ conda install -c anaconda scikit-learn=0.23
4

Nếu bạn sử dụng Anaconda, thì có lẽ bạn đã cài đặt nó. Tuy nhiên, nếu bạn muốn sử dụng một môi trường mới, hãy chắc chắn rằng phiên bản của bạn chỉ được định nghĩa hoặc sử dụng miniconda, thì bạn có thể cài đặt

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2 từ Đám mây Anaconda với
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
8.
$ conda install -c anaconda scikit-learn=0.23

Bạn cũng sẽ cần Numpy, nhưng bạn không được cài đặt riêng. Bạn sẽ nhận được nó cùng với

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2 nếu bạn đã cài đặt nó. Nếu bạn muốn làm mới kiến ​​thức numpy của mình, thì hãy xem tài liệu chính thức hoặc kiểm tra xem MA, không có vòng lặp. Anar array set with Numpy

Áp dụng $ conda install -c anaconda scikit-learn=0. 23 7

You must enter

$ conda install -c anaconda scikit-learn=0.23
7 và Numpy trước khi bạn có thể sử dụng chúng, vì vậy bạn có thể bắt đầu với các câu lệnh
$ conda install -c anaconda scikit-learn=0.23
02

>>>

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split

Bây giờ bạn đã nhập tất cả, bạn có thể sử dụng chúng để chia dữ liệu thành bộ đào tạo và bộ kiểm tra. Bạn sẽ phân chia đầu vào và bắt đầu ra cùng một lúc, với một cuộc gọi chức năng duy nhất

With

$ conda install -c anaconda scikit-learn=0.23
7, bạn cần cung cấp các chuỗi mà bạn muốn chia cũng như bất kỳ đối số tùy chọn nào. Nó trả về một danh sách các mảng numpy, các chuỗi khác hoặc ma trận thưa thớt Scipy nếu thích hợp.
$ conda install -c anaconda scikit-learn=0.23
0

$ conda install -c anaconda scikit-learn=0.23
44 là chuỗi danh sách, mảng numpy, gấu trúc dữ liệu hoặc các đối tượng giống như mảng tương tự dữ liệu bạn muốn chia sẻ. Tất cả các đối tượng này giống nhau được tạo nên bộ dữ liệu và phải có cùng độ dài. là chuỗi các danh sách, mảng NumPy, khung dữ liệu gấu trúc hoặc các đối tượng giống như mảng tương tự chứa dữ liệu bạn muốn tách. Tất cả các đối tượng này cùng nhau tạo nên tập dữ liệu và phải có cùng độ dài

Trong các ứng dụng học máy được giám sát, bạn thường làm việc với hai chuỗi như vậy

  1. A array two direction with input (
    $ conda install -c anaconda scikit-learn=0.23
    
    05)
  2. Một mảng với đầu ra (______006)

$ conda install -c anaconda scikit-learn=0.23
47 là các đối số từ khóa tùy chọn mà bạn có thể sử dụng để có được hành vi mong muốn. là các đối số từ khóa tùy chọn mà bạn có thể sử dụng để có hành vi mong muốn
  • $ conda install -c anaconda scikit-learn=0.23
    
    48 is the number of size of the training file. Nếu bạn cung cấp
    $ conda install -c anaconda scikit-learn=0.23
    
    09, thì nó phải nằm giữa
    $ conda install -c anaconda scikit-learn=0.23
    
    00 và
    $ conda install -c anaconda scikit-learn=0.23
    
    01 và sẽ xác định Tỷ lệ hiệu lực của bộ dữ liệu được sử dụng để thử nghiệm. Nếu bạn cung cấp
    $ conda install -c anaconda scikit-learn=0.23
    
    02, thì nó sẽ đại diện cho tổng số mẫu đào tạo. Default value is
    $ conda install -c anaconda scikit-learn=0.23
    
    03. là số xác định kích thước của tập huấn luyện. Nếu bạn cung cấp _____009, thì nó phải nằm trong khoảng từ ____000 đến ______001 và sẽ xác định tỷ lệ của tập dữ liệu được sử dụng để thử nghiệm. Nếu bạn cung cấp ____002, thì nó sẽ đại diện cho tổng số mẫu đào tạo. Giá trị mặc định là
    $ conda install -c anaconda scikit-learn=0.23
    
    03
  • $ conda install -c anaconda scikit-learn=0.23
    
    94 is the number of verify size of the check file. Nó rất giống với
    $ conda install -c anaconda scikit-learn=0.23
    
    08. Bạn nên cung cấp
    $ conda install -c anaconda scikit-learn=0.23
    
    08 hoặc
    $ conda install -c anaconda scikit-learn=0.23
    
    04. Nếu không được đưa ra, thì phần chia sẻ mặc định của bộ dữ liệu sẽ được sử dụng để thử nghiệm là
    $ conda install -c anaconda scikit-learn=0.23
    
    08 hoặc 25 phần trăm. là số xác định kích thước của bộ kiểm tra. Nó rất giống với
    $ conda install -c anaconda scikit-learn=0.23
    
    08. Bạn nên cung cấp ________ 008 hoặc ____ 004. Nếu không được cung cấp, thì phần chia sẻ mặc định của tập dữ liệu sẽ được sử dụng để thử nghiệm là
    $ conda install -c anaconda scikit-learn=0.23
    
    08 hoặc 25 phần trăm
  • $ conda install -c anaconda scikit-learn=0.23
    
    99 là đối tượng kiểm tra ngẫu nhiên trong quá trình phân tách. Nó có thể là một
    $ conda install -c anaconda scikit-learn=0.23
    
    02 hoặc một ví dụ là
    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    01. Default value is
    $ conda install -c anaconda scikit-learn=0.23
    
    03. là đối tượng kiểm soát ngẫu nhiên hóa trong quá trình chia tách. Nó có thể là một_______002 hoặc một thể hiện của_______501. Giá trị mặc định là
    $ conda install -c anaconda scikit-learn=0.23
    
    03
  • >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    53 là đối tượng boolean (
    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    04 theo mặc định) xác định có nên trộn tệp dữ liệu trước khi áp dụng phân chia hay không. là đối tượng Boolean (
    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    04 theo mặc định) xác định xem có xáo trộn tập dữ liệu trước khi áp dụng phân tách hay không
  • >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    55 là một đối tượng giống như mảng, nếu không phải là
    $ conda install -c anaconda scikit-learn=0.23
    
    03, xác định cách sử dụng phân tách tầng. là một đối tượng giống như mảng, nếu không phải ______003, xác định cách sử dụng phân chia theo tầng

Bây giờ, time time to try split data. Bạn sẽ bắt đầu bằng cách tạo một bộ dữ liệu đơn giản để làm việc. Bộ dữ liệu sẽ chứa các đầu vào trong hai chiều mảng

$ conda install -c anaconda scikit-learn=0.23
05 and start out in a array_
$ conda install -c anaconda scikit-learn=0.23
06

>>>

$ conda install -c anaconda scikit-learn=0.23
0
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split

Bây giờ bạn đã nhập tất cả, bạn có thể sử dụng chúng để chia dữ liệu thành bộ đào tạo và bộ kiểm tra. Bạn sẽ phân chia đầu vào và bắt đầu ra cùng một lúc, với một cuộc gọi chức năng duy nhất

>>>

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
  1. Bây giờ bạn đã nhập tất cả, bạn có thể sử dụng chúng để chia dữ liệu thành bộ đào tạo và bộ kiểm tra. Bạn sẽ phân chia đầu vào và bắt đầu ra cùng một lúc, với một cuộc gọi chức năng duy nhất. Phần đào tạo của trình tự đầu tiên (______005)
  2. With
    $ conda install -c anaconda scikit-learn=0.23
    
    7, bạn cần cung cấp các chuỗi mà bạn muốn chia cũng như bất kỳ đối số tùy chọn nào. Nó trả về một danh sách các mảng numpy, các chuỗi khác hoặc ma trận thưa thớt Scipy nếu thích hợp. Phần thử nghiệm của trình tự đầu tiên (
    $ conda install -c anaconda scikit-learn=0.23
    
    05)
  3. $ conda install -c anaconda scikit-learn=0.23
    
    04 là chuỗi danh sách, mảng numpy, gấu trúc dữ liệu hoặc các đối tượng giống như mảng tương tự dữ liệu bạn muốn chia sẻ. Tất cả các đối tượng này giống nhau được tạo nên bộ dữ liệu và phải có cùng độ dài. Phần đào tạo của trình tự thứ hai (______006)
  4. Trong các ứng dụng học máy được giám sát, bạn thường làm việc với hai chuỗi như vậy. Phần thử nghiệm của trình tự thứ hai (
    $ conda install -c anaconda scikit-learn=0.23
    
    06)

A array two dimensions with input (

$ conda install -c anaconda scikit-learn=0.23
05)

An an array with head (

$ conda install -c anaconda scikit-learn=0.23
06)
$ conda install -c anaconda scikit-learn=0.23
07 là các đối số từ khóa tùy chọn mà bạn có thể sử dụng để có được hành vi mong muốn.
$ conda install -c anaconda scikit-learn=0.23
08 is the number of size of the training file. Nếu bạn cung cấp
$ conda install -c anaconda scikit-learn=0.23
09, thì nó phải nằm giữa
$ conda install -c anaconda scikit-learn=0.23
00 và
$ conda install -c anaconda scikit-learn=0.23
01 và sẽ xác định Tỷ lệ hiệu lực của bộ dữ liệu được sử dụng để thử nghiệm. Nếu bạn cung cấp
$ conda install -c anaconda scikit-learn=0.23
02, thì nó sẽ đại diện cho tổng số mẫu đào tạo. Default value is
$ conda install -c anaconda scikit-learn=0.23
03.
$ conda install -c anaconda scikit-learn=0.23
04 is con số xác định kích thước của kiểm tra tập tin. Nó rất giống với
$ conda install -c anaconda scikit-learn=0.23
08. Bạn nên cung cấp
$ conda install -c anaconda scikit-learn=0.23
08 hoặc
$ conda install -c anaconda scikit-learn=0.23
04. Nếu không được đưa ra, thì phần chia sẻ mặc định của bộ dữ liệu sẽ được sử dụng để thử nghiệm là
$ conda install -c anaconda scikit-learn=0.23
08 hoặc 25 phần trăm

>>>

$ conda install -c anaconda scikit-learn=0.23
7

Với sự thay đổi này, bạn đã nhận được một kết quả khác với trước đây. Trước đó, bạn đã có một bộ đào tạo với chín mục và thử nghiệm với ba mục. Bây giờ, nhờ cuộc tranh luận

$ conda install -c anaconda scikit-learn=0.23
88, bộ đào tạo có tám mục và bộ thử nghiệm có bốn mục. Bạn có thể nhận được kết quả tương tự với
$ conda install -c anaconda scikit-learn=0.23
89 vì 33 phần trăm trong số mười hai là bốn

Có một sự khác biệt rất quan trọng hơn giữa hai ví dụ cuối cùng. Bây giờ bạn đã nhận được cùng một kết quả mỗi khi bạn chạy chức năng. Điều này là bạn đã cố định chương trình tạo ngẫu nhiên số với

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
00

Hình dưới đây để xem những gì diễn ra khi bạn gọi

$ conda install -c anaconda scikit-learn=0.23
7

Các mẫu dữ liệu được trộn ngẫu nhiên và sau đó chia thành các bộ đào tạo và kiểm tra theo kích thước bạn đã xác định

Bạn có thể thấy rằng

$ conda install -c anaconda scikit-learn=0.23
06 có sáu số không và sáu cái. Tuy nhiên, bộ thử nghiệm có ba số không trong bốn mục. Nếu bạn muốn (xấp xấp xỉ) giữ nguyên tỷ lệ của các giá trị
$ conda install -c anaconda scikit-learn=0.23
06 thông qua các bộ đào tạo và kiểm tra, thì hãy vượt qua
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
04. Điều này sẽ cho phép phân tách các tầng

>>>

$ conda install -c anaconda scikit-learn=0.23
8

Bây giờ

$ conda install -c anaconda scikit-learn=0.23
79 và
$ conda install -c anaconda scikit-learn=0.23
81 có cùng tỷ lệ số không và các số không như mảng
$ conda install -c anaconda scikit-learn=0.23
06 ban đầu

Việc phân tách các tầng được mong muốn trong một số trường hợp, chẳng hạn như khi bạn phân loại một bộ dữ liệu mất cân bằng, một bộ dữ liệu có sự khác biệt đáng kể về số lượng mẫu thuộc về các lớp khác nhau. tập dữ liệu không cân bằng, tập dữ liệu có sự khác biệt đáng kể về số lượng mẫu thuộc các lớp khác nhau

Cuối cùng, bạn có thể tắt trộn dữ liệu và phân tách ngẫu nhiên với

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
08

>>>

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0

Bây giờ bạn có một sự phân chia trong đó hai phần ba mẫu đầu tiên trong các mảng

$ conda install -c anaconda scikit-learn=0.23
05 và
$ conda install -c anaconda scikit-learn=0.23
06 ban đầu được chỉ định cho bộ đào tạo và thứ ba cuối cùng cho bộ thử nghiệm. Uncombleed. Un Random Random

Học máy được giám sát với $ conda install -c anaconda scikit-learn=0. 23 7

Now now, time to see

$ conda install -c anaconda scikit-learn=0.23
7 hành động khi giải quyết các vấn đề học tập có giám sát viên. Bạn sẽ bắt đầu với một vấn đề hồi quy quy nhỏ có thể được giải quyết bằng hồi quy tuyến tính trước khi xem xét một vấn đề lớn hơn. Bạn cũng sẽ thấy rằng bạn cũng có thể sử dụng
$ conda install -c anaconda scikit-learn=0.23
7 để phân loại

Ví dụ đơn giản về hồi quy tuyến tính

Trong ví dụ này, bạn sẽ áp dụng những gì bạn đã học được cho đến nay để giải quyết vấn đề hồi quy nhỏ. Bạn có thể học cách tạo bộ dữ liệu, chia chúng thành các tập hợp tập luyện và kiểm tra và sử dụng chúng để hồi quy tuyến tính

Như mọi khi, bạn sẽ bắt đầu bằng cách nhập các gói, chức năng hoặc lớp cần thiết. You will need Numpy,

$ conda install -c anaconda scikit-learn=0.23
054 và
$ conda install -c anaconda scikit-learn=0.23
7

>>>

$ conda install -c anaconda scikit-learn=0.23
05

Bây giờ bạn đã nhập mọi thứ bạn cần, bạn có thể tạo hai mảng nhỏ,

$ conda install -c anaconda scikit-learn=0.23
05 và
$ conda install -c anaconda scikit-learn=0.23
06, để có thể hiện các quan sát và sau đó chia chúng thành các bộ đào tạo và thử nghiệm giống như bạn đã làm trước đây

>>>

$ conda install -c anaconda scikit-learn=0.23
0

Bộ dữ liệu của bạn có hai mươi quan sát, hoặc ________ 35 -________ 36 cặp. You only argument

$ conda install -c anaconda scikit-learn=0.23
00, vì vậy bộ dữ liệu được chia thành một tập huấn luyện với mười hai quan sát và một bộ thử nghiệm với tám quan sát

Bây giờ bạn có thể sử dụng bộ đào tạo để phù hợp với mô hình

>>>

$ conda install -c anaconda scikit-learn=0.23
1
$ conda install -c anaconda scikit-learn=0.23
054 tạo ra đối tượng đại diện cho mô hình, trong khi
$ conda install -c anaconda scikit-learn=0.23
02 đào tạo, hoặc phù hợp với mô hình và trả về nó. Với hồi quy tuyến tính, phù hợp với mô hình có nghĩa là xác định các đánh giá đánh chặn tốt nhất (
$ conda install -c anaconda scikit-learn=0.23
03) và độ dốc (____104) của đường hồi quy

Mặc dù bạn có thể sử dụng

$ conda install -c anaconda scikit-learn=0.23
75 và
$ conda install -c anaconda scikit-learn=0.23
79 để kiểm tra mức độ phù hợp, nhưng đây không phải là một hành động tốt nhất. Một ước tính không thiên vị về hiệu suất dự đoán của mô hình của bạn dựa trên dữ liệu thử nghiệm

>>>

$ conda install -c anaconda scikit-learn=0.23
2
$ conda install -c anaconda scikit-learn=0.23
07 Trả về hệ thống số xác định hoặc R², cho dữ liệu được truyền. Tối đa của nó là
$ conda install -c anaconda scikit-learn=0.23
08. Giá trị R² càng cao, phù hợp càng tốt. Trong trường hợp này, dữ liệu đào tạo mang lại hệ thống số cao hơn một chút. Tuy nhiên, R² được tính toán với dữ liệu thử nghiệm là thước đo không thiên vị về hiệu quả dự đoán mô hình của bạn. hệ số xác định, hoặc R², cho dữ liệu được thông qua. Tối đa của nó là
$ conda install -c anaconda scikit-learn=0.23
08. Giá trị R² càng cao thì càng phù hợp. Trong trường hợp này, dữ liệu huấn luyện mang lại hệ số cao hơn một chút. Tuy nhiên, R² được tính bằng dữ liệu thử nghiệm là thước đo khách quan về hiệu suất dự đoán của mô hình của bạn

Đây là cách nó hiển thị trên một biểu tượng

Hướng dẫn how do you split a dataset in python? - làm thế nào để bạn chia một tập dữ liệu trong python?

Các chấm màu xanh lá cây đại diện cho ________ 35 -____ 36 cặp được sử dụng để đào tạo. Đường màu đen, được gọi là đường hồi quy ước tính, được xác định bởi kết quả của sự phù hợp mô hình. đánh chặn và tốc độ dốc. Vì vậy, nó chỉ phản ánh các vị trí của các chấm màu xanh lá cây

Các đại diện dấu chấm trắng để thử nghiệm. Bạn sử dụng chúng để ước tính hiệu suất của mô hình (dòng hồi quy) với dữ liệu không được sử dụng để đào tạo

Ví dụ hồi quy

Bây giờ bạn đã có sẵn để chia sẻ một bộ dữ liệu lớn hơn để giải quyết vấn đề quy hồi. Bạn sẽ sử dụng bộ dữ liệu giá nhà Boston nổi tiếng, được bao gồm trong

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2. Bộ dữ liệu này có 506 mẫu, 13 biến đầu vào và giá trị nhà là đầu ra. You can get it by
$ conda install -c anaconda scikit-learn=0.23
12

Đầu tiên, nhập

$ conda install -c anaconda scikit-learn=0.23
7 và
$ conda install -c anaconda scikit-learn=0.23
12

>>>

$ conda install -c anaconda scikit-learn=0.23
3

Bây giờ bạn đã nhập cả hai chức năng, bạn có thể kích hoạt dữ liệu với

>>>

$ conda install -c anaconda scikit-learn=0.23
4

Như bạn có thể thấy,

$ conda install -c anaconda scikit-learn=0.23
12 với đối số
$ conda install -c anaconda scikit-learn=0.23
16 trả về một tuple với hai mảng numpy
  1. An array two dimensions with input
  2. An array a array with top

Bước tiếp theo là phân chia dữ liệu giống như trước

>>>

$ conda install -c anaconda scikit-learn=0.23
5

Bây giờ bạn đã có bộ đào tạo và kiểm tra. Dữ liệu đào tạo được chứa trong

$ conda install -c anaconda scikit-learn=0.23
75 và
$ conda install -c anaconda scikit-learn=0.23
79, while data to test is in
$ conda install -c anaconda scikit-learn=0.23
77 và
$ conda install -c anaconda scikit-learn=0.23
81

Khi bạn làm việc với bộ dữ liệu lớn hơn, nó thường thuận tiện hơn để vượt qua quy định đào tạo hoặc kiểm tra theo tỷ lệ

$ conda install -c anaconda scikit-learn=0.23
21 có nghĩa là khoảng 40 phần trăm các mẫu sẽ được gán cho dữ liệu thử nghiệm và 60 phần trăm còn lại sẽ được gán cho dữ liệu đào tạo

Cuối cùng, bạn có thể sử dụng tập huấn luyện (

$ conda install -c anaconda scikit-learn=0.23
75 và
$ conda install -c anaconda scikit-learn=0.23
79) để phù hợp với mô hình và bộ thử nghiệm (
$ conda install -c anaconda scikit-learn=0.23
77 và
$ conda install -c anaconda scikit-learn=0.23
81) để đánh giá mô hình không đúng vị trí. Trong ví dụ này, bạn sẽ áp dụng ba thuật toán hồi quy nổi tiếng để tạo các mô hình phù hợp với dữ liệu của bạn
  1. Hồi quy tuyến tính với
    $ conda install -c anaconda scikit-learn=0.23
    
    26
  2. Độ dốc tăng cường độ với
    $ conda install -c anaconda scikit-learn=0.23
    
    27
  3. Rừng ngẫu nhiên với
    $ conda install -c anaconda scikit-learn=0.23
    
    28

Quá trình này khá giống với ví dụ trước

  1. Nhập các lớp bạn cần. các lớp bạn cần
  2. Tạo các trường hợp mô hình bằng cách sử dụng các lớp này. các thể hiện mô hình bằng cách sử dụng các lớp này
  3. Phù hợp với các trường hợp mô hình với
    $ conda install -c anaconda scikit-learn=0.23
    
    02 bằng cách sử dụng tập huấn luyện. các phiên bản mô hình với
    $ conda install -c anaconda scikit-learn=0.23
    
    02 bằng cách sử dụng tập huấn luyện
  4. Đánh giá mô hình với
    $ conda install -c anaconda scikit-learn=0.23
    
    07 bằng cách sử dụng kiểm tra tập tin. mô hình với
    $ conda install -c anaconda scikit-learn=0.23
    
    07 sử dụng bộ kiểm tra

Tại đây, code theo các bước được mô tả ở trên cho cả ba thuật toán hồi quy

>>>

$ conda install -c anaconda scikit-learn=0.23
6

Bạn đã sử dụng bộ dữ liệu đào tạo và kiểm tra của mình để phù hợp với ba mô hình và đánh giá hiệu suất của chúng. Thước đo độ chính xác thu được với

$ conda install -c anaconda scikit-learn=0.23
07 là hệ số xác định. Nó có thể được tính toán với bộ đào tạo hoặc thử nghiệm. Tuy nhiên, như bạn đã học, điểm số thu được với bộ kiểm tra có thể hiển thị ước tính hiệu quả không thiên vị

Như đã đề cập trong tài liệu, bạn có thể cung cấp các đối số tùy chọn cho

$ conda install -c anaconda scikit-learn=0.23
26,
$ conda install -c anaconda scikit-learn=0.23
27 và
$ conda install -c anaconda scikit-learn=0.23
28.
$ conda install -c anaconda scikit-learn=0.23
27 và
$ conda install -c anaconda scikit-learn=0.23
28 Sử dụng tham số
$ conda install -c anaconda scikit-learn=0.23
09 cho cùng một lý do mà
$ conda install -c anaconda scikit-learn=0.23
7 không. để đối phó với tính ngẫu nhiên trong thuật toán và đảm bảo khả năng tái tạo

Đối với một số phương pháp, bạn cũng có thể cần Tính năng xác định. Trong những trường hợp như vậy, bạn nên phù hợp với các bộ cân bằng dữ liệu đào tạo và sử dụng chúng để chuyển dữ liệu kiểm tra

Ví dụ phân loại

You can't use

$ conda install -c anaconda scikit-learn=0.23
7 để giải quyết các vấn đề phân loại giống như cách bạn làm để phân tích hồi quy. Trong học máy, các loại vấn đề phân loại liên quan đến việc đào tạo tạo một mô hình để áp dụng nhãn hoặc phân loại các giá trị đầu vào và sắp xếp bộ dữ liệu của bạn thành các danh mục. vấn đề phân loại giống như cách bạn làm để phân tích hồi quy. Trong học máy, các vấn đề phân loại liên quan đến việc đào tạo một mô hình để áp dụng nhãn hoặc phân loại các giá trị đầu vào và sắp xếp tập dữ liệu của bạn thành các danh mục

Trong hồi quy hướng dẫn logistic trong Python, bạn sẽ tìm thấy một ví dụ về một nhiệm vụ nhận dạng chữ viết tay. Ví dụ cung cấp một minh chứng khác về việc chia dữ liệu vào các bộ đào tạo và kiểm tra để tránh sai lệch trong quá trình đánh giá

Các chức năng xác nhận khác nhau

Gói

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0 cung cấp rất nhiều chức năng liên quan đến lựa chọn và xác thực mô hình, bao gồm cả những điều sau đây
  • xác thực chéo
  • Học đường
  • Điều chỉnh siêu đồng tính

Xác thực chéo là một tập hợp các kỹ thuật kết hợp các biện pháp biện pháp về hiệu quả dự đoán để có được ước tính mô hình chính xác hơn

Một trong các phương pháp nhận dạng chéo được sử dụng rộng rãi là xác thực chéo K gấp K. Trong đó, bạn chia sẻ tệp dữ liệu của mình thành K (thường là năm hoặc mười) tập con, hoặc nếp gấp, có kích thước bằng nhau và sau đó thực hiện các quy trình đào tạo và kiểm tra một lần. Mỗi lần, bạn sử dụng một nếp gấp khác như bộ kiểm tra và tất cả các nếp gấp còn lại như tập huấn luyện. Điều này cung cấp các biện pháp biện pháp K về hiệu suất dự kiến ​​và sau đó bạn có thể phân tích quá trình biến đổi trung bình và quá trình phát triển của chúng. các nếp gấp, có kích thước bằng nhau và sau đó thực hiện quy trình huấn luyện và kiểm tra k lần. Mỗi lần, bạn sử dụng một nếp gấp khác làm tập kiểm tra và tất cả các nếp gấp còn lại làm tập huấn luyện. Điều này cung cấp k phép đo hiệu suất dự đoán và sau đó bạn có thể phân tích giá trị trung bình và độ lệch chuẩn của chúng

You can't verify cross with

$ conda install -c anaconda scikit-learn=0.23
41,
$ conda install -c anaconda scikit-learn=0.23
42,
$ conda install -c anaconda scikit-learn=0.23
43 và một số lớp và chức năng khác nhau từ
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0

Một đường công học tập, đôi khi được gọi là đường công đào tạo, cho thấy điểm dự đoán của bộ đào tạo và xác nhận phụ thuộc vào số lượng mẫu đào tạo. You can't use

$ conda install -c anaconda scikit-learn=0.23
45 để có được sự phụ thuộc này, điều này có thể giúp bạn tìm thấy kích thước tối ưu của bộ đào tạo, chọn HyperParameter, so sánh các mô hình, v. v

Điều chỉnh siêu tham số, còn được gọi là siêu tham số tối ưu hóa, là quá trình xác định bộ siêu âm tốt nhất để xác định mô hình máy học của bạn.

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0 cung cấp cho bạn một số tùy chọn cho mục đích này, bao gồm
$ conda install -c anaconda scikit-learn=0.23
47,
$ conda install -c anaconda scikit-learn=0.23
48,
$ conda install -c anaconda scikit-learn=0.23
49 và các tùy chọn khác. Chia sẻ dữ liệu của bạn cũng rất quan trọng để điều chỉnh siêu phân tích

Kết luận

Bây giờ bạn đã biết tại sao và làm thế nào để sử dụng

$ conda install -c anaconda scikit-learn=0.23
7 từ
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2. Bạn đã học được rằng, để ước tính tính không thiên vị về hiệu suất dự đoán của mô hình máy học, bạn nên sử dụng dữ liệu đã được sử dụng để phù hợp với mô hình. Đó là lý do tại sao bạn cần chia sẻ bộ dữ liệu của mình thành đào tạo, kiểm tra và trong một số trường hợp, tập hợp xác thực.
$ conda install -c anaconda scikit-learn=0.23
7 từ
>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
2. Bạn đã học được rằng, để ước tính khách quan về hiệu suất dự đoán của các mô hình máy học, bạn nên sử dụng dữ liệu chưa được sử dụng để điều chỉnh mô hình. Đó là lý do tại sao bạn cần chia tập dữ liệu của mình thành tập huấn luyện, kiểm tra và trong một số trường hợp, tập hợp con xác thực

Trong hướng dẫn này, bạn đã học được cách

  • Sử dụng
    $ conda install -c anaconda scikit-learn=0.23
    
    7 để được đào tạo và kiểm tra bộ
    $ conda install -c anaconda scikit-learn=0.23
    
    7 để nhận tập huấn luyện và kiểm tra
  • Kiểm tra kích thước của các tập tin hợp nhất với các tham số
    $ conda install -c anaconda scikit-learn=0.23
    
    08 và
    $ conda install -c anaconda scikit-learn=0.23
    
    04
    $ conda install -c anaconda scikit-learn=0.23
    
    08 và
    $ conda install -c anaconda scikit-learn=0.23
    
    04
  • Xác định tính ngẫu nhiên của các phân tách của bạn với tham số
    $ conda install -c anaconda scikit-learn=0.23
    
    09randomness của các phân tách của bạn với tham số
    $ conda install -c anaconda scikit-learn=0.23
    
    09
  • Thu được phân tách tầng với tham số
    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    05phân tách phân tầng với tham số
    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    
    05
  • Sử dụng
    $ conda install -c anaconda scikit-learn=0.23
    
    7 như một phần của các thủ tục học máy được giám sát giám sát thủ tục học máy

Bạn cũng đã thấy rằng mô-đun

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
0 cung cấp một số công cụ khác để xác thực mô hình, bao gồm xác thực chéo, đường cong học tập và điều chỉnh siêu đồng hồ

Nếu bạn có câu hỏi hoặc nhận xét, sau đó xin vui lòng đặt chúng vào phần bình luận bên dưới

Train_test_split trong Python là gì?

Train_test_split() Hàm. Phương thức Train_Test_Split() được sử dụng để chia dữ liệu của chúng tôi thành các bộ đào tạo và thử nghiệm. Đầu tiên, chúng ta cần chia dữ liệu của mình thành các tính năng (x) và nhãn (y). DataFrame được chia thành X_Train, X_Test, Y_Train và Y_Test. Bộ x_train và Y_Train được sử dụng để đào tạo và cài đặt mô hình. được sử dụng để chia dữ liệu của chúng tôi thành các tập huấn luyện và kiểm tra . Trước tiên, chúng tôi cần chia dữ liệu của mình thành các tính năng (X) và nhãn (y). Khung dữ liệu được chia thành X_train, X_test, y_train và y_test. Bộ X_train và y_train dùng để huấn luyện và điều chỉnh mô hình.

Phương pháp nào được sử dụng để phân chia dữ liệu?

Phân chia dựa trên phương pháp của các điểm hỗ trợ (SP), ban đầu được phát triển để tìm kiếm các điểm đại diện tối ưu của phân phối liên tục. Chúng tôi điều chỉnh SP để lấy mẫu từ bộ dữ liệu bằng thuật toán hàng xóm gần nhất của tuần tự. điểm hỗ trợ (SP) , ban đầu được phát triển để tìm điểm đại diện tối ưu của phân phối liên tục. Chúng tôi điều chỉnh SP để lấy mẫu con từ tập dữ liệu bằng thuật toán hàng xóm gần nhất tuần tự.

Làm thế nào bạn nên chia một bộ dữ liệu thành các bộ thử nghiệm và đào tạo?

Biến số phân chia phổ biến nhất là 80. 20. Đó là 80% dữ liệu đi vào tập huấn luyện và 20% dữ liệu đi vào thử nghiệm. Trước khi chia dữ liệu, hãy đảm bảo rằng bộ dữ liệu đủ lớn. Phân chia tàu/thử nghiệm hoạt động tốt với bộ dữ liệu lớn