REPRODUCIBILITY LÀ GÌ

     

Bình luận Reproducibility Là Gì – Nghĩa Của từ Reproducibility là ý tưởng trong content hiện trên của blog Tiên Kiếm. Tham khảo content để biết chi tiết nhé.

Bạn đang xem: Reproducibility là gì


Chú thích: Nguyên bản bài viết này bàn về “reproducible research”, sinh sống đây shop chúng tôi tạm dịch là “nghiên cứu khả lặp”, có mang tóm lược về “nghiên cứu vãn khả lặp” là loại nghiên cứu khoa học không những có report kết quả nghiên cứu và phân tích mà còn bao gồm đầy đủ công việc thực hiện, đồng thời ra mắt các thông tin cần thiết (dữ liệu, thuật toán sử dụng,…) để tín đồ khác hoàn toàn có thể tiến hành lại nghiên cứu và phân tích nhằm xác nhận tính đúng mực và mở rộng phân tích dựa trên nền tảng nghiên cứu cũ. Ở đây “reproducible” hay “reproducibility” sở hữu nghĩa có tác dụng lặp lại, có khả năng thực hiện lại nghiên cứu và phân tích đã được công bố.

Bạn sẽ xem: Reproducibility là gì

Khoa học hiện nay được cho là đang rơi vào cuộc rủi ro về kĩ năng tái lặp. Kĩ năng tái lặp có vẻ như được hoan nghênh cùng thường là nhân tố bắt buộc đối với các nghiên cứu mang tính xã hội (chẳng hạn trên những tạp chí như nature tuyệt science). Luận điểm chung cho xu thế này là việc những nghiên cứu có tác dụng được tiến hành lại một cách độc lập thì sẽ sở hữu tính tin tưởng cao rộng những phân tích không thể tiến hành lại một giải pháp độc lập. Cũng cần xem xét rằng nghiên cứu khả lặp không những mang ý nghĩa xác minh, không những thế nữa nó sẽ với lại công dụng thiết thực cho việc mở rộng phân tích hay gây ra các nghiên cứu tương tự. Khó có thể tìm thấy những ý kiến phản bác bỏ các luận điểm trên, nhưng nên xét tới thực tế rằng với mỗi nhóm nghiên cứu và phân tích cũng cần đầu tư chi tiêu một mối cung cấp lực nhất mực trong việc tạo cho các nghiên cứu và phân tích của họ vươn lên là khả lặp so với các nhà nghiên cứu độc lập. Chẳng hạn việc lặp lại toàn cục những xem sét trong chống thí nghiệm. Tuy nhiên cũng có nhiều biến thể đơn giản dễ dàng hơn, ví dụ điển hình như kỹ năng lặp lại so sánh dựa trên các bộ dữ liệu đã biết.

Các loại phân tích khoa học khác nhau sẽ khác nhau về năng lực tái lặp. Một lấy ví dụ là nghiên cứu toán học, trong không ít trường thích hợp các nghiên cứu này cho phép việc khả lặp dựa vào những phương trình trong bạn dạng thảo. Một ví dụ khác là các nghiên cứu hiện trường, thường xuyên thì hiệu quả phụ nằm trong vào những yếu tố không kiểm soát và điều hành được. Chẳng hạn việc tái lập tổng thể một nghiên cứu về tác động của một cơn sốt ngay trước và sau thời điểm nó xảy ra dường như là điều không thể, ít nhất xét về tính hiệu quả của nó.

Phạm vi hiện tại về năng lực tái lập đang chỗ nào đó thân hai lấy ví dụ mà shop chúng tôi chỉ ra sống trên, với phạm vi này thu nhỏ hay mở rộng dựa vào vào những bộ cách thức sẵn có cho những nhà nghiên cứu. ứng dụng nguồn mở, điện toán đám mây, tàng trữ dữ liệu và vô vàn những công nạm điện toán sẵn bao gồm đã mở rộng phạm vi này trong việc được cho phép các nghiên cứu khả lặp có thể được triển khai trên những loại nghiên cứu hơn nhị ví dụ sinh sống trên. Tuy nhiên, lối đùa chữ về một cuộc rủi ro của nghiên cứu và phân tích khả lặp cho biết thêm rằng những bộ phép tắc hiện tại, tuy vậy rất quan trọng, dẫu vậy chưa giải quyết được vụ việc một giải pháp triệt để.

Hiện tại cửa hàng chúng tôi đang thao tác làm việc trong một dự án công trình về một phân tích gồm mức độ tinh vi vừa yêu cầu với một lượng dữ liệu cũng vừa nên (49061 dòng) và công ty chúng tôi đang thể nghiệm xem để biến chuyển nó thành một nghiên cứu và phân tích khả lặp hoàn toàn thì rất cần phải làm phần đa gì. (Nghiên cứu này trả lời cho một câu hỏi rất đối kháng giản: loại thân gỗ chiếm tỉ lệ từng nào trong giới thực vật?). Kinh nghiệm của cửa hàng chúng tôi trong việc cố gắng biến nghiên cứu và phân tích này trở nên khả lặp rất có thể hữu ích đến những đàm đạo tiếp sau về cách làm chũm nào để những nhà khoa học yêu cầu ít thời hạn và ít yếu tố kinh nghiệm hơn công ty chúng tôi để thực hiện các nghiên cứu và phân tích khả lặp của riêng rẽ họ. Nói biện pháp khác, bài toán làm này cho biết thêm chúng tôi hữu ích tới cả nào vào việc mở rộng phạm vi khả lặp cho nhiều loại nghiên cứu và phân tích hơn và bằng cách đó, tạo cho khoa học tập ngày càng tin cậy hơn.

Cuối cùng, so với và report của công ty chúng tôi đã được tái lặp một cách chủ quyền và tương đối dễ dãi cho phần đông ai ý muốn tái lặp phân tích này, tuy vậy để thực hiện được câu hỏi tái lặp ở tầm mức độ này chưa phải là không đề nghị bỏ công sức. Cho mọi ai quan tâm, toàn bộ mã lệnh với tài liệu của chúng tôi có sẵn tại showroom này.

Có 2 phần trong việc biến một dự án trở bắt buộc khả lặp: dữ liệu và những phân tích sẽ tiến hành. Công ty chúng tôi cũng xem xét rằng thực tiễn dự án này là khả thi vì chưng những phạt triển cách đây không lâu trong việc lưu trữ dữ liệu. Công việc viết một mã lệnh để tải dữ liệu chính tự Dryad và sẵn sàng cho vấn đề phân tích nó hơi là đối chọi giản. Tuy nhiên, vấn đề này chỉ chứng minh một ban đầu cho thách thức: cách phân tích dữ liệu lúc này trở thành bước khó khăn nhất. Hầu hết điều ngay tiếp theo là danh sách ngắn những bài học rút ra từ thực tiễn thao tác làm việc của bọn chúng tôi. Mỗi bài học cho biết một test thách chúng tôi phải thừa qua trong quy trình thực hiện nghiên cứu khả lặp và công cụ chúng tôi chọn để cạnh tranh với thử thách đó.

Những thử thách và mức sử dụng cho bài toán tái lặp

Sử dụng nguồn tài liệu tiêu chuẩn

Chúng tôi tải dữ liệu về từ những nguồn chuẩn chỉnh (Dryad với The Plant List) cùng chỉ sửa đổi chúng sử dụng những câu lệnh nhằm đảm bảo an toàn những đổi khác bảo toàn được nguyên vẹn đặc điểm của tài liệu ban đầu. Tiện ích của những dữ liệu mở vẫn chỉ được phân biệt nếu bọn họ tôn trọng tính định danh của tài liệu và không tạo thành hàng trăm phiên bản sửa thay đổi chỉ khác biệt chút ít. Điều này cũng giúp cho việc ghi công của rất nhiều người đóng góp dữ liệu. Tuy nhiên các sự việc như những tiêu chuẩn phân loại chưa thống tốt nhất vẫn đang là một trong những vật cản lớn so với các dữ liệu về sinh thái xanh học.

Kết hợp quan tâm đến và mã lệnh

Chúng tôi sử dụng gói knitr mang đến R nhằm thực thi những phân tích theo kiểu lập trình bao gồm giải thích. Cục bộ các phân tích, bao hàm những biện giải cho những hàm cốt lõi rất có thể tìm thấy tại đây. Mặc dù nhiên, làm việc với các nhóm mã lệnh nhiều năm hay cần thời hạn đáng nói để chạy vẫn đang là 1 trong những vấn đề nhức đầu.

Xem thêm: Sự Khác Biệt Giữa Quê Hương Và Quốc Gia Sở Tại Là Gì, Sở Tại Là Gì

Kết xuất các thông số kỹ thuật động

Toàn bộ việc xử lí dữ liệu của shop chúng tôi được tiến hành bởi những mã lệnh, và cửa hàng chúng tôi có thể xóa hết các thông số đầu ra và sản xuất lại chúng một giải pháp dễ dàng.

Tự đụng lưu trữ những thành tố phụ thuộc

Chúng tôi sử dụng GNU make để thống trị các thành tố phụ thuộc vào trong dự án, chỉ biến hóa những phần buộc phải sửa lại. Hiện tượng này cũng hỗ trợ cho quá trình cải tiến và phát triển dự án đổi thay một các bước tự đóng góp gói.

Quản lý phiên bản

Toàn cỗ mã lệnh của chúng tôi được làm chủ phiên phiên bản sử dụng git từ thời điểm bắt đầu, điều này cho phép chúng tôi kiểm soát các phiên bản cũ một cách thuận lợi. Đây cũng chính là trung tâm tài liệu của hồ hết thứ chúng tôi làm. Xem nội dung bài viết này để thấy vai trò to to của cai quản phiên bản tới quy trình nghiên cứu.

Tự động chất vấn các biến đổi để bảo đảm không phát sinh vấn đề

Chúng tôi sử dụng môi trường khối hệ thống tích hợp thường xuyên (continuous integration) Travis CI để giám sát biến hóa trong phân tích để ngăn ngừa lỗi. Mỗi khi cửa hàng chúng tôi tạo ra một vậy đổi, hệ thống này tải mã mối cung cấp của cửa hàng chúng tôi xuống mặt khác với những dữ liệu tương quan và chạy phân tích, cùng sẽ gửi cho cửa hàng chúng tôi một thư năng lượng điện tử nếu vị lý do nào đấy phân tích bị lỗi. Khối hệ thống này thậm chí còn còn mua lên các phiên bản đã biên dịch của phân tích với ghi chú mỗi khi chạy.

Đóng gói các thành tố phụ thuộc

Chúng tôi áp dụng gói packrat mang lại R để làm chủ và lưu lại trữ các gói R dựa vào để chắc chắn rằng khả năng khả lặp trong tương lai. Về khía cạnh lý thuyết, điều này nghĩa là nếu như phiên bạn dạng của gói ứng dụng đó đổi khác nhiều cho mức gây ra lỗi trong mã lệnh của chúng tôi thì cửa hàng chúng tôi đã có sẵn một bạn dạng lưu trữ rất có thể sử dụng được. Đây là một trong những công cố kỉnh mới, công ty chúng tôi chưa xác thực được nó có vận động hay không.

Những thách thức còn bỏ ngỏ

Chúng tôi nhận thấy rằng việc chuyển đổi những so với đang vận động từ máy tính của người này (với số đông tùy chỉnh cá nhân cho máy tính xách tay của họ) sang fan khác là một trong những việc khó khăn khăn. Ví dụ như như vụ việc này. Thiệt khó để tham dự đoán được mọi lý do dẫn tới không đúng sót: trong quy trình tái lặp phân tích này vì Carl Boettiger một sự việc đã phát sinh do bài toán chưa hoàn thành tài liệu về những phiên bản gói cung cấp R đề nghị thiết.Gói mã lệnh tiến hành các công việc trên là tương đương về kích cỡ khi tiến hành phân tích trong thực tế; đó là một thách thức thật sự cho những nhà nghiên cứu. Việc thực hiện nhiều ngôn ngữ và framework khác biệt làm tăng thêm yêu ước về những mảng kiến thức mang tính kĩ thuật hơn, tương tự như khả năng xảy ra những vấn đề vẫn tăng lên. Càng tự động hóa quá trình này thì các phân tích khả lặp đang càng trở đề xuất phổ biến.

Phương pháp tiếp cận sử dụng hệ thống tích hợp liên tục có tiềm năng lớn hỗ trợ cho việc cai quản các dự án phân tích dựa trên technology điện toán trở nên thuận lợi hơn. Mặc dù nhiên, mặc dù phân tích của cửa hàng chúng tôi mang tính nguyên tắc nhiều hơn nữa là ứng dụng thực tế, nó có khả năng sẽ bị giới hạn ở các mặt: đòi hỏi dự án phải là nguồn mở, phân tích nên chạy tương đối nhanh (dưới 1 giờ). Những số lượng giới hạn này là phù hợp lý so với các thương mại dịch vụ miễn tầm giá nhưng nó sẽ không thể thỏa mãn nhu cầu được những dự án nghiên cứu và phân tích sử dụng các thông tin “nhạy cảm” và các tính toán rất có thể kéo dài các giờ hay các ngày.

Chúng tôi dấn thấy mục tiêu khả lặp cho dự án đã trở thành một ví dụ như hữu ích, với nó đã trở thành nền tảng cho những dự án tiếp sau. Tuy nhiên, quy trình này đã trở cần thức tạp rộng nhiều, để cho việc hướng dẫn cho người khác cách để làm cho dự án công trình của bọn họ trở yêu cầu tái lặp không đơn giản dễ dàng chỉ qua lời nói.Chúng ta nên phải phát triển những công cụ, tối thiểu phải dễ cần sử dụng như thống trị phiên bạn dạng trước khi chúng ta mong đợi vấn đề tái lặp dự án trở thành một xu hướng chung.Chúng tôi không phản bác chủ ý của Titus Brown về việc tái lặp một trong những phần thì xuất sắc hơn là ko tái lặp gì cả (50% số người làm cho các bước của họ có công dụng tái lặp một nửa có vẻ tốt hơn 5% số người khiến cho côgn bài toán của họ có khả năng tái lặp 100%!). Mặc dù nhiên, chúng tôi không tán thành với cách nhìn của Titus nhận định rằng những công cụ bắt đầu là không đề nghị thiết. Hầu hết công cụ hiện tại là cực kỳ thô sơ và nhiều tới mức khó mong muốn chờ các nhà khoa học áp dụng trên diện rộng xu hướng tái lặp vì phương châm chính của họ không hẳn để tái lặp. Nếu nhận định rằng việc tái lặp là không hấp dẫn, bọn họ không thể trông chờ bạn khác bỏ thời gian và sức lực của họ ra để đóng góp cho xã hội những thứ giỏi đẹp.

Những nỗ lực cố gắng khác đến mục tiêu đơn giản là triển khai lại phân tích ở một laptop khác cũng không khả thi hơn nỗ lực của cửa hàng chúng tôi là bao. Một nghiên cứu của tập thể nhóm UBC Reproducibility cho biết thêm họ chẳng thể tái lặp kết quả của 30% rất nhiều phân tích được chào làng sử dụng gói bổ trợ phổ biến STRUCTURE, với cùng tài liệu được hỗ trợ bởi tác giả. Một trường hòa hợp đáng bi tráng hơn, một nhóm nghiên cứu tại đại học Arizona cho biết họ chỉ có thể build được khoảng 50% số phần mềm nguồn mở mà lại họ có thể tải xuống mà không xét tới việc kiểm tra thiên tài của ứng dụng (lưu ý rằng nghiên cứu và phân tích này bây giờ đã được tái lặp!).

Xem thêm: Bộ Điều Khiển Nhiệt Độ Lò Ấp Trứng Tự Động, Bộ Điều Khiển Máy Ấp Trứng

Quá trình làm cho cho nghiên cứu của chúng tôi trở bắt buộc khả lặp mang đến thấy họ chỉ sẽ tiến được những bước nhỏ tuổi trong việc làm cho phân tích khả lặp trở đề xuất phổ biến đối với các nhà kỹ thuật trong thực tế.