Câu hỏi phỏng vấn thao tác dữ liệu Python

Một cơ chế để chọn một loạt các mục từ các loại trình tự như danh sách, bộ dữ liệu, chuỗi, v.v. được gọi là cắt lát

x[1, 2, 3, 4, 5]

x[0. 2] → [1,2]

x[2. ] → [3,4,5]

19. Chỉ mục tiêu cực trong Python là gì?

Chuỗi Python có thể được lập chỉ mục theo số dương và số âm

Đối với chỉ mục dương, 0 là chỉ mục đầu tiên, 1 là chỉ mục thứ hai, v.v.

Đối với chỉ số âm, (-1) là chỉ số cuối cùng và (-2) là chỉ số cuối cùng thứ hai, v.v.

20. Làm thế nào bạn có thể chuyển đổi một số thành một chuỗi?

Để chuyển đổi một số thành một chuỗi, hãy sử dụng hàm sẵn có str()

Nếu bạn muốn biểu diễn bát phân hoặc thập lục phân, hãy sử dụng hàm sẵn có oct() hoặc hex()

21. chức năng phạm vi là gì?

Hàm range() trả về một dãy số, bắt đầu từ 0 theo mặc định và tăng dần theo 1 (theo mặc định) và dừng trước một số đã chỉ định

x = phạm vi (6)

cho n trong x

in(n)

Đầu ra là 0, 1, 2, 3, 4, 5

22. Làm thế nào để bạn tạo số ngẫu nhiên trong Python?

Thư viện. nhập ngẫu nhiên

cú pháp. ngẫu nhiên. ngẫu nhiên()

đầu ra. Trả về một số dấu phẩy động ngẫu nhiên trong phạm vi [0,1)

23. Sự khác biệt giữa toán tử / và // trong Python là gì?

// là toán tử Phân chia tầng

Nó được sử dụng để chia hai toán hạng với kết quả là thương chỉ hiển thị các chữ số trước dấu thập phân

10/3 = 3. 33333

10 // 3 = 3

24. Việc sử dụng chức năng phân tách trong Python là gì?

Công dụng của hàm split trong Python là nó ngắt một chuỗi thành các chuỗi ngắn hơn bằng cách sử dụng dấu tách đã xác định

Nó đưa ra một danh sách tất cả các từ có trong chuỗi

25. Sự khác biệt giữa một danh sách và một tuple là gì?

26. Sự khác biệt giữa một mảng và một danh sách là gì?

27. Làm thế nào bạn sẽ chuyển đổi một danh sách thành một mảng?

Điều này được thực hiện bằng cách sử dụng numpy. mảng()

Hàm này của thư viện numpy lấy một danh sách làm đối số và trả về một mảng chứa tất cả các phần tử của danh sách

28. Ưu điểm của mảng NumPy so với danh sách Python là gì?

NumPy thuận tiện hơn

Bạn nhận được rất nhiều phép toán vectơ và ma trận, đôi khi cho phép một người tránh được công việc không cần thiết

Bạn nhận được rất nhiều hàm tích hợp với NumPy để tìm kiếm nhanh, thống kê cơ bản, đại số tuyến tính, biểu đồ, v.v.

29. Biến toàn cục và biến cục bộ trong Python là gì?

30. Giải thích sự khác biệt giữa Python 2 và Python 3?

31. Hiểu từ điển trong Python là gì?

Hiểu từ điển là một cách để tạo từ điển trong Python

Nó tạo một từ điển bằng cách hợp nhất hai bộ dữ liệu ở dạng danh sách hoặc mảng

cuộnNumbers =[122, 233, 353, 456]

tên = ['alex', 'bob', 'can', 'don']

Từ điển mới={ tôi. j cho (i,j) trong zip (rollNumbers,names)}

Kết quả là {(122, 'alex'), (233, 'bob'), (353, 'can'), (456, 'don')

32. Bạn sẽ sắp xếp từ điển bằng Python như thế nào?

Từ điển. phím(). Chỉ trả về các khóa theo thứ tự tùy ý

Từ điển. giá trị(). Trả về một danh sách các giá trị

Từ điển. mặt hàng(). Trả về tất cả dữ liệu dưới dạng danh sách các cặp khóa-giá trị

Sắp xếp(). Phương thức này nhận một đối số bắt buộc và hai đối số tùy chọn

33. Làm thế nào để bạn đảo ngược một chuỗi trong Python?

Tên chuỗi = 'trăn'

Tên chuỗi [. -1]

Đầu ra là 'nohtyp'

34. Làm cách nào để kiểm tra xem một chuỗi Python có chứa một chuỗi khác không?

“Lập trình Python” chứa “Lập trình”

Đầu ra là Đúng

“Lập trình Python” chứa “Ngôn ngữ”

Đầu ra là Sai

Gấu trúc — 18 câu hỏi

35. Làm cách nào để tạo khung dữ liệu từ danh sách?

fruit_sales = pd. DataFrame([[35, 21], [41, 34]], các cột=[‘Táo’, ‘Chuối’],index=[‘Doanh số 2017’, ‘Doanh số 2018’])

36. Làm cách nào để tạo khung dữ liệu từ từ điển?

động vật = pd. Khung dữ liệu ({'Bò'. [12, 20], ‘Dê’. [22, 19]}, index=[‘Năm 1’, ‘Năm 2’])

37. Làm cách nào để nhập csv?

nhập gấu trúc dưới dạng pd

cr_data = pd. read_csv(“tín dụng_rủi ro_bộ dữ liệu. csv”)

38. Làm cách nào để xuất csv?

nhập gấu trúc dưới dạng pd

loài vật. to_csv(“bò_và_dê. csv”)

39. Làm thế nào để bạn chọn các cột từ khung dữ liệu?

Chọn cột 'mô tả' từ khung dữ liệu 'đánh giá'

đánh giá[‘mô tả’]

40. Làm cách nào để bạn chọn các hàng từ khung dữ liệu?

Chọn hàng đầu tiên từ khung dữ liệu 'đánh giá'

đánh giá. iloc[0]

41. Làm cách nào để bạn chọn cả hàng và cột từ khung dữ liệu?

Chọn hàng đầu tiên của cột 'mô tả' từ khung dữ liệu 'đánh giá'

đánh giá[‘mô tả’]. iloc[0]

42. Làm thế nào để bạn chọn các hàng dựa trên các chỉ số?

Chọn các hàng 1, 2, 3, 5 và 8 từ khung dữ liệu 'đánh giá'

chỉ số = [1, 2, 3, 5, 8]

sample_reviews = đánh giá. loc[chỉ số]

43. Làm thế nào để bạn tìm thấy giá trị trung bình?

Tìm trung vị của cột 'điểm' từ khung dữ liệu 'đánh giá'

đánh giá['điểm']. Trung bình()

44. Làm thế nào để bạn tìm thấy các giá trị duy nhất?

Tìm tất cả các quốc gia duy nhất trong cột 'quốc gia' từ khung dữ liệu 'đánh giá'

đánh giá[‘quốc gia’]. duy nhất()

45. Làm thế nào để bạn tìm thấy số lượng các giá trị duy nhất?

Tìm số lượng quốc gia duy nhất trong cột 'quốc gia' từ khung dữ liệu 'đánh giá'

đánh giá[‘quốc gia’]. value_counts()

46. Làm thế nào để bạn nhóm trên một biến cụ thể?

Tìm số lượng cột 'taster_twitter_handle' từ khung dữ liệu 'đánh giá'

đánh giá. groupby(‘taster_twitter_handle’). kích thước()

47. Làm cách nào để bạn áp dụng các hàm sau khi nhóm trên một biến cụ thể?

Tìm mức tối thiểu và tối đa của 'giá' cho cột 'đa dạng' khác nhau từ khung dữ liệu 'đánh giá'

đánh giá. nhóm ('đa dạng'). ['giá bán']. agg([tối thiểu, tối đa])

48. Làm cách nào để lấy kiểu dữ liệu của một biến cụ thể?

Lấy kiểu dữ liệu của cột 'điểm' từ khung dữ liệu 'đánh giá'

đánh giá['điểm']. gõ

49. Làm thế nào để bạn thả cột?

Bỏ các cột 'điểm' và 'quốc gia' khỏi khung dữ liệu 'đánh giá'

đánh giá. drop(['điểm', 'quốc gia'], axis=1, inplace=True)

50. Làm thế nào để bạn giữ các cột?

Giữ các cột 'điểm' và 'quốc gia' khỏi khung dữ liệu 'đánh giá'

đánh giá = đánh giá[[‘điểm’, ‘quốc gia’]]

51. Làm thế nào để bạn đổi tên một cột?

Đổi tên 'khu vực_1' thành 'khu vực' và 'khu vực_2' thành 'ngôn ngữ'

đánh giá. đổi tên(cột=dict(khu vực_1=’khu vực’, khu vực_2=’ngôn ngữ’))

52. Làm thế nào để bạn sắp xếp một khung dữ liệu dựa trên một biến?

Sắp xếp 'khu vực_1' theo thứ tự giảm dần

đánh giá[‘khu vực_1’]. sort_values(tăng dần=Sai)

Hình dung — 8 câu hỏi

53. Làm thế nào để bạn vẽ một biểu đồ đường?

nhập seaborn dưới dạng sns

sns. sơ đồ đường kẻ (data=loan_amnt)

54. Làm thế nào để bạn vẽ một biểu đồ thanh?

nhập seaborn dưới dạng sns

sns. barplot(x=cr_data[‘cb_person_default_on_file’], y=cr_data[‘loan_int_rate’])

55. Làm thế nào để bạn vẽ bản đồ nhiệt?

nhập seaborn dưới dạng sns

sns. bản đồ nhiệt (num_data. Corr(), annot=True)

56. Làm thế nào để bạn vẽ biểu đồ phân tán?

nhập seaborn dưới dạng sns

sns. biểu đồ phân tán(x=cr_data[‘loan_amnt’], y=cr_data[‘person_ income’])

57. Làm thế nào để bạn vẽ biểu đồ phân phối?

nhập seaborn dưới dạng sns

sns. distplot(a=cr_data[‘person_ income’], label=”person_ income”, kde=False)

58. Làm thế nào để bạn thêm nhãn x và nhãn y vào biểu đồ?

nhập matplotlib. pyplot dưới dạng plt

plt. xlabel(“cred_hist_length”)

plt. ylabel(“loan_amnt”)

59. Làm thế nào để bạn thêm tiêu đề vào biểu đồ?

nhập matplotlib. pyplot dưới dạng plt

plt. title(“Tỷ lệ int_rate trung bình”)

60. Làm thế nào để bạn thêm chú giải vào biểu đồ?

nhập matplotlib. pyplot dưới dạng plt

plt. huyền thoại()

Làm sạch dữ liệu — 5 câu hỏi

61. Làm thế nào để bạn xác định các giá trị còn thiếu?

Chức năng được sử dụng để xác định giá trị còn thiếu là thông qua. isnull()

Đoạn mã dưới đây cung cấp tổng số điểm dữ liệu bị thiếu trong khung dữ liệu

missing_values_count = sf_permits. isnull(). Tổng()

62. Làm thế nào để bạn quy gán giá trị thiếu giá trị quy nạp?

Thay thế các giá trị bị thiếu bằng 0/trung bình

df[‘thu nhập’]. điền(0)

df[‘thu nhập’] = df[‘thu nhập’]. fillna((df[‘thu nhập’]. bần tiện()))

63. Mở rộng quy mô dữ liệu là gì?

Chia tỷ lệ chuyển đổi dữ liệu bằng công thức = (giá trị — giá trị tối thiểu) / (giá trị tối đa — giá trị tối thiểu)

từ sklearn. tiền xử lý nhập MinMaxScaler

bộ chia tỷ lệ = MinMaxScaler()

original_data = pd. DataFrame(kickstarters_2017[‘usd_goal_real’])

scaled_data = pd. Khung dữ liệu (bộ chia tỷ lệ. fit_transform( original_data))

Dữ liệu gốc

Giá trị tối thiểu. 0. 01

Gia trị lơn nhât. 166361390. 71

Dữ liệu được chia tỷ lệ

Giá trị tối thiểu. 0. 0

Gia trị lơn nhât. 1. 0

64. Chuẩn hóa dữ liệu là gì?

Chia tỷ lệ chuyển đổi dữ liệu bằng công thức = (giá trị — trung bình) / độ lệch chuẩn

từ sklearn. nhập tiền xử lý StandardScaler

bộ chia tỷ lệ = StandardScaler()

original_data = pd. DataFrame(kickstarters_2017[‘usd_goal_real’])

scaled_data = pd. Khung dữ liệu (bộ chia tỷ lệ. fit_transform( original_data))

Dữ liệu gốc

Giá trị tối thiểu. 0. 01

Gia trị lơn nhât. 166361390. 71

Dữ liệu được chia tỷ lệ

Giá trị tối thiểu. -0. 10

Gia trị lơn nhât. 212. 57

65. Làm thế nào để bạn xử lý ngày tháng trong python?

Để chuyển đổi ngày từ Chuỗi thành Ngày

nhập ngày giờ

nhập gấu trúc dưới dạng pd

df[‘Date_parsed’] = pd. to_datetime(df[‘Date’], format=”%m/%d/%Y”)

Học máy - 15 câu hỏi

66. Hồi quy logistic là gì?

Hồi quy logistic là một thuật toán học máy để phân loại. Trong thuật toán này, xác suất mô tả các kết quả có thể xảy ra của một thử nghiệm đơn lẻ được mô hình hóa bằng hàm logistic

67. Cú pháp cho hồi quy logistic là gì?

Thư viện. sklearning. linear_model. Hậu CầnHồi Quy

xác định mô hình. lr = LogisticRegression()

người mẫu vừa vặn. mô hình = lr. phù hợp (x, y)

Phỏng đoán. dự đoán = mô hình. dự đoán_proba(kiểm tra)

68. Làm thế nào để bạn phân chia dữ liệu trong đào tạo/kiểm tra?

Thư viện. sklearning. model_selection. tàu_test_split

cú pháp. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0. 33, random_state=42)

69. cây quyết định là gì

Cho một dữ liệu gồm các thuộc tính cùng với các lớp của nó, cây quyết định tạo ra một chuỗi các quy tắc có thể được sử dụng để phân loại dữ liệu

70. Cú pháp cho phân loại cây quyết định là gì?

Thư viện. sklearning. cây. Quyết ĐịnhCâyPhân Loại

xác định mô hình. dtc = Quyết địnhTreeClassifier()

người mẫu vừa vặn. mô hình = dtc. phù hợp (x, y)

Phỏng đoán. dự đoán = mô hình. dự đoán_proba(kiểm tra)

71. Rừng ngẫu nhiên là gì?

Bộ phân loại rừng ngẫu nhiên là một công cụ ước tính meta phù hợp với một số cây quyết định trên các mẫu phụ khác nhau của bộ dữ liệu và sử dụng giá trị trung bình để cải thiện độ chính xác dự đoán của mô hình và kiểm soát quá khớp. Cỡ mẫu con luôn giống với cỡ mẫu đầu vào ban đầu nhưng các mẫu được lấy thay thế

72. Cú pháp cho phân loại rừng ngẫu nhiên là gì?

Thư viện. sklearning. hòa tấu. Công cụ phân loại rừng ngẫu nhiên

xác định mô hình. rfc = RandomForestClassifier()

người mẫu vừa vặn. mô hình = rfc. phù hợp (x, y)

Phỏng đoán. dự đoán = mô hình. dự đoán_proba(kiểm tra)

73. Tăng cường độ dốc là gì?

Tăng cường độ dốc là một kỹ thuật học máy cho các vấn đề hồi quy và phân loại, tạo ra một mô hình dự đoán dưới dạng một tập hợp các mô hình dự đoán yếu, điển hình là cây quyết định. Nó xây dựng mô hình theo kiểu khôn ngoan theo từng giai đoạn giống như các phương pháp tăng cường khác và nó tổng quát hóa chúng bằng cách cho phép tối ưu hóa hàm mất mát khả vi tùy ý

74. Cú pháp cho trình phân loại tăng cường độ dốc là gì?

Thư viện. sklearning. hòa tấu. GradientBoostingPhân loại

xác định mô hình. gbc = GradientBoostingClassifier()

người mẫu vừa vặn. mô hình = gbc. phù hợp (x, y)

Phỏng đoán. dự đoán = mô hình. dự đoán_proba(kiểm tra)

75. SVM là gì?

Máy vectơ hỗ trợ là biểu diễn dữ liệu huấn luyện dưới dạng các điểm trong không gian được phân tách thành các danh mục bằng một khoảng cách rõ ràng càng rộng càng tốt. Các ví dụ mới sau đó được ánh xạ vào cùng một không gian đó và được dự đoán thuộc về một danh mục dựa trên việc chúng rơi vào phía nào của khoảng trống

76. Sự khác biệt giữa KNN và KMeans là gì?

KNN

Thuật toán phân loại có giám sát

Phân loại điểm dữ liệu mới theo số k hoặc điểm dữ liệu gần nhất

KMeans

Thuật toán phân cụm không giám sát

Nhóm dữ liệu thành k số cụm

77. Làm thế nào để bạn xử lý các biến phân loại?

Thay thế các biến phân loại bằng giá trị trung bình của mục tiêu cho từng danh mục

Một mã hóa nóng

78. Làm thế nào để bạn xử lý các giá trị còn thiếu?

Xoá hàng có giá trị bị thiếu

Khung dữ liệu. dropna(axis=0, how=’any’, inplace=True)

Thả cột

Khung dữ liệu. dropna(axis=1, how=’any’, inplace=True)

Thay thế các giá trị bị thiếu bằng 0/trung bình

df[‘thu nhập’]. điền(0)

df[‘thu nhập’] = df[‘thu nhập’]. fillna((df[‘thu nhập’]. bần tiện()))

79. Làm thế nào để bạn đối xử với ngoại lệ?

Phạm vi giữa các phần tư được sử dụng để xác định các ngoại lệ

Q1 = df[‘thu nhập’]. lượng tử (0. 25)

Q3 = df[‘thu nhập’]. lượng tử (0. 75)

IQR = Q3 — Q1

df = df[(df[‘thu nhập’] >= (Q1–1. 5 * IQR)) & (df[‘thu nhập’] <= (Quý 3 + 1. 5 * IQR))]

80. Đánh đổi sai lệch/phương sai là gì?

Sự định nghĩa

Bias-Variance Trade off có liên quan đến học máy có giám sát, đặc biệt cho mô hình dự đoán. Đó là một cách để chẩn đoán hiệu suất của một thuật toán bằng cách phá vỡ lỗi dự đoán của nó

Câu hỏi phỏng vấn Python tốt là gì?

Câu hỏi phỏng vấn Python .
Trăn là gì?
Ngôn ngữ gõ động là gì?
Ngôn ngữ thông dịch là gì?
PEP 8 là gì và tại sao nó quan trọng?
Phạm vi trong Python là gì?
danh sách và bộ dữ liệu là gì?.
Các kiểu dữ liệu tích hợp phổ biến trong Python là gì?
Vượt qua trong Python là gì?

Biến và kiểu dữ liệu trong câu hỏi phỏng vấn Python là gì?

Biến và kiểu dữ liệu Python là gì? .
Kiểu dữ liệu số
Dây
danh sách
bộ dữ liệu
Từ điển
Phạm vi