Stan — Stata

Stata
Logo Stata z niebieskim.png
Duży interfejs wwwsa.png
Stata 17 w systemie Windows
Pierwotny autor (autorzy) William Gould
Deweloper(zy) StataCorp
Pierwsze wydanie 1985 ( 1985 )
Wersja stabilna
17,0 / 20 kwietnia 2021 ; 4 miesiące temu ( 2021-04-20 )
Napisane w C
System operacyjny Windows , macOS , Linux
Rodzaj Analiza statystyczna
Licencja Prawnie zastrzeżony
Strona internetowa www .stata .com

Stata ( / e t t ə / , POBYT -ta alternatywnie / s T ć t ə / niekiedy znany jako Stata) jest ogólnego przeznaczenia statystyczny pakiet programowym StataCorp manipulacji danych, wizualizację, statystyki i automatyczne raportowanie. Jest używany przez naukowców z wielu dziedzin, w tym ekonomii , socjologii , nauk politycznych , biomedycyny i epidemiologii .

Stata została początkowo opracowana przez Computing Resource Center w Kalifornii, a pierwsza wersja została wydana w 1985 roku. W 1993 roku firma przeniosła się do College Station w Teksasie i została przemianowana na Stata Corporation, obecnie znaną jako StataCorp. Główne wydanie w 2003 r. zawierało nowy system graficzny i okna dialogowe dla wszystkich poleceń. Od tego czasu nowa wersja była wydawana raz na dwa lata. Obecna wersja to Stata 17, wydana w kwietniu 2021 roku.

Przegląd techniczny i terminologia

Interfejs użytkownika

Od momentu powstania, Stata zawsze używał zintegrowanego interfejsu wiersza poleceń. Począwszy od wersji 8.0, Stata zawiera graficzny interfejs użytkownika oparty na frameworku Qt, który wykorzystuje menu i okna dialogowe, aby zapewnić dostęp do wielu wbudowanych poleceń. Zbiór danych można przeglądać lub edytować w formacie arkusza kalkulacyjnego. Od wersji 11 inne polecenia mogą być wykonywane podczas otwierania przeglądarki danych lub edytora.

Struktura i przechowywanie danych

Do czasu wydania wersji 16, Stata mógł otworzyć tylko jeden zbiór danych w dowolnym momencie. Stata pozwala na elastyczność w przypisywaniu typów danych do danych. Jego compresspolecenie automatycznie ponownie przypisuje dane do typów danych, które zajmują mniej pamięci bez utraty informacji. Stata wykorzystuje typy pamięci całkowitej, które zajmują tylko jeden lub dwa bajty zamiast czterech, a pojedyncza precyzja (4 bajty) zamiast podwójnej precyzji (8 bajtów) jest domyślną wartością dla liczb zmiennoprzecinkowych .

Format danych Stata jest zawsze w formacie tabelarycznym . Stata odnosi się do kolumn danych tabelarycznych jako zmiennych.

Kompatybilność formatu danych

Stata może importować dane w różnych formatach. Obejmuje to formaty danych ASCII (takie jak CSV lub formaty banków danych ) i formaty arkuszy kalkulacyjnych (w tym różne formaty Excel ).

Zastrzeżone formaty plików Stata zmieniły się z biegiem czasu, chociaż nie każda wersja Stata zawiera nowy format zestawu danych. Każda wersja Stata może odczytywać wszystkie starsze formaty zestawów danych i zapisywać zarówno bieżący, jak i najnowszy poprzedni format zestawu danych za pomocą saveoldpolecenia. W związku z tym bieżąca wersja Stata może zawsze otwierać zestawy danych utworzone ze starszymi wersjami, ale starsze wersje nie mogą odczytywać zestawów danych w nowszym formacie.

Stata może odczytywać i zapisywać zestawy danych w formacie SAS XPORT natywnie za pomocą poleceń fdause i fdasave .

Niektóre inne aplikacje ekonometryczne , w tym gretl , mogą bezpośrednio importować formaty plików Stata.

Historia

Początki

Rozwój Stata rozpoczął się w 1984 roku, początkowo przez Williama (Bill) Goulda, a później przez Seana Beckettiego. Oprogramowanie pierwotnie miało konkurować z programami statystycznymi dla komputerów osobistych, takimi jak SYSTAT i MicroTSP . Stata została napisana, tak jak i teraz, w języku programowania C , początkowo z myślą o komputerach PC z systemem operacyjnym DOS . Pierwsza wersja została wydana w 1985 roku z 44 poleceniami.

Tabela: Polecenia w Stata 1.0 i Stata 1.1
dodać reż w pliku wątek szpula
brzęczyk robić Wejście zapytanie podsumować
za pomocą upuszczać etykieta regres tabularyzować
schwytać usuwać lista Przemianować test
potwierdzać Wyjście makro wymienić rodzaj
konwertować zwiększać łączyć biegać posługiwać się
korelat format modyfikować zapisać
liczyć Generować jeszcze ustawić
opisać Wsparcie outfile sortować

Rozwój

W latach 1985-2021 pojawiło się 17 głównych wydań Stata, a między głównymi wydaniami pojawiły się dodatkowe aktualizacje kodu i dokumentacji. W początkowych latach dodatkowe zestawy programów Stata były czasami sprzedawane jako „zestawy” lub dystrybuowane jako dyski pomocnicze. Wraz z wydaniem Stata 6 w 1999 roku, updates zaczęto dostarczać użytkownikom za pośrednictwem sieci. Pierwsze wydanie Stata było przeznaczone dla systemu operacyjnego DOS . Od tego czasu wydano wersje Stata dla systemów z wariantami Uniksa, takimi jak dystrybucje Linuksa , Windows i MacOS . Wszystkie pliki Stata są niezależne od platformy.

Setki poleceń zostały dodane do Stata w jego 36-letniej historii. Niektóre zmiany , takie jak rozszerzalność , niezależność od platformy i aktywna społeczność użytkowników , okazały się szczególnie ważne i nadal kształtują wrażenia użytkowników .

Rozciągliwość

programPolecenie zostało wdrożone w Stata 1.2, co daje użytkownikom możliwość dodawania własnych poleceń. ado-files, które pojawiły się w Stata 2.1, umożliwiając automatyczne ładowanie do pamięci programu napisanego przez użytkownika. Wiele plików ado napisanych przez użytkowników jest przesyłanych do [Archiwum Statystycznych Składników Oprogramowania] prowadzonego przez Boston College. StataCorp dodał sscpolecenie, aby umożliwić dodawanie programów współtworzonych przez społeczność bezpośrednio w Stata. Nowsze wersje Stata umożliwiają użytkownikom wywoływanie skryptów Python i R za pomocą poleceń, a także umożliwiają IDE Pythona, takie jak Jupyter Notebooks, importowanie poleceń Stata.

Społeczność użytkowników

Aktywna społeczność użytkowników Stata zainicjowała szereg ważnych zmian. Stata Technical Bulletin , który często zawiera polecenia utworzone przez użytkowników, został wprowadzony w 1991 roku i wydała sześć razy w roku. Został ponownie wydany w 2001 roku jako recenzowany Stata Journal , kwartalna publikacja zawierająca opisy poleceń tworzonych przez społeczność i wskazówki dotyczące efektywnego korzystania z Stata. W 1994 r. Listserv powstał jako centrum dla użytkowników w celu wspólnego rozwiązywania problemów związanych z kodowaniem i kwestiami technicznymi; w 2014 roku został przekształcony w forum internetowe. W 1995 roku Statacorp zaczął organizować konferencje użytkowników i programistów, które spotykają się co roku. StataCorp organizuje tylko doroczną konferencję Stata w Stanach Zjednoczonych. Inne spotkania grup użytkowników odbywają się corocznie w Stanach Zjednoczonych (Konferencja Stata), Wielkiej Brytanii, Niemczech i Włoszech, a rzadziej w kilku innych krajach. Lokalni dystrybutorzy Stata organizują spotkania grup użytkowników w swoich krajach.

Tabela: Wydania i rozwój Stata
Wersja Data wydania Wybierz nowe lub ulepszone funkcje
1,0 styczeń 1985
  • Pierwsze wydanie
  • Czterdzieści cztery polecenia
1,1 Luty 1985
  • Poprawki błędów
1.2 maj 1985
  • Nowy system menu
  • Lepsza pomoc online
  • keep
1,3 Sierpień 1985
  • Statystyka/Grafika
  • program
1,4 Sierpień 1986
  • Nowa dokumentacja
  • Sformatowany infile
1,5 Luty 1987
  • anova
  • logit, probit
2,0 Czerwiec 1988
  • Nowa grafika
  • Zmienne łańcuchowe
  • Analiza przeżycia: Cox i Kaplan-Meier
  • Regresja krokowa
2,1 wrzesień 1990
  • Zmienne bajtowe
  • Analiza czynników
  • ado-pliki
  • reshape
3,0 Marzec 1992
  • logistic, ologit, oprobit, clogit,mlogit
  • tobit, cnreg, rreg, qreg, weibull,ereg
  • epitab
  • pweights
3.1 Sierpień 1993
  • mvreg, sureg, heckman, nlreg, areg,canon
  • nbreg
  • ograniczona regresja liniowa
  • ml
  • codebook
4.0 Styczeń 1995
  • xtreg
  • glm
5.0 Październik 1996
  • xtgee, xtprobit
  • prais, newey,intreg
  • polecenia szacowania pomiarów
  • fracpoly
  • st przedłużony
6,0 styczeń 1999
  • świadomy sieci
  • Nowy ml
  • operatorzy szeregów czasowych
  • arima, arch
  • st przepisany
7,0 grudzień 2000
  • frailty
  • xtabond
  • analiza skupień
  • nlogit
  • roc
  • SMCL
8,0 styczeń 2003
  • grafika
  • rozszerzone GUI, okna dialogowe dostępne dla wszystkich poleceń
  • manova
  • więcej ankiet
  • więcej szeregów czasowych (VAR, SVARs)
  • więcej internalizacji GLLAMM
8.1 lipiec 2003
  • zaktualizowany ml
8,2 Październik 2003
  • zmiany grafiki
9,0 Kwiecień 2005
  • język programowania mata matrix
  • funkcje ankiety
  • liniowe modele mieszane
  • wielomianowe modele probitowe
9,1 wrzesień 2005
9,2 kwiecień 2006
10,0 czerwiec 2007
  • edytor wykresów
  • modele logistyczne i Poissona ze złożonymi, zagnieżdżonymi komponentami błędów
10.1 Sierpień 2008
11,0 lipiec 2009
  • zmienne czynnikowe
  • margins polecenie poszacowania
  • wielokrotne przypisanie
11.1 czerwiec 2010
11.2 Marzec 2011
12,0 lipiec 2011
  • automatyczne zarządzanie pamięcią
  • modelowanie równań strukturalnych
12,1 styczeń 2012
13,0 czerwiec 2013
  • długie struny
  • efekty leczenia
13.1 Październik 2013
14,0 Kwiecień 2015
  • obsługa Unicode
  • bayesowska analiza statystyczna
14,1 Październik 2015
14,2 wrzesień 2016
15,0 Czerwiec 2017
  • utajona analiza klas
  • Dokumenty PDF i Word
  • przezroczystość lub nieprzezroczystość kolorów na wykresach
15,1 Listopad 2017
16,0 czerwiec 2019
  • ramki (wiele zestawów danych w pamięci)
  • regresja lassa
  • automatyczne raportowanie
  • zaktualizowany wybór modeli
16,1 Luty 2020
17,0 Kwiecień 2021
  • zaktualizowane tablespolecenie
  • ekonometria bayesowska

Produkty programowe

Istnieją cztery wersje Stata: Stata/MP, Stata/SE, Stata/BE i Numerics by Stata. Podczas gdy Stata/MP pozwala na wbudowane równoległe przetwarzanie niektórych poleceń, Stata/SE i Stata/BE są wąskie i ograniczają użycie tylko do jednego rdzenia. Stata/MP uruchamia niektóre polecenia około 2,4 razy szybciej, około 60% teoretycznej maksymalnej wydajności, podczas uruchamiania procesów równoległych na czterech rdzeniach procesora w porównaniu z wersjami SE lub BE. Numerics by Stata pozwala na integrację internetową poleceń Stata.

Wersje SE i BE różnią się ilością pamięci, jaką mogą wykorzystać zestawy danych. Chociaż Stata/MP może przechowywać od 10 do 20 miliardów obserwacji i do 120 000 zmiennych, Stata/SE i Stata/BE przechowują do 2,14 miliarda obserwacji i obsługują odpowiednio 32 767 zmiennych i 2048 zmiennych. Maksymalna liczba zmiennych niezależnych w modelu wynosi 65 532 zmiennych w Stata/MP, 10 998 zmiennych w Stata/SE i 798 zmiennych w Stata/BE.

Ceny i licencjonowanie Stata zależą od jego przeznaczenia: biznes, rząd/non-profit, edukacja lub student. Licencje dla jednego użytkownika są odnawiane corocznie lub bezterminowo. Inne typy licencji to pojedyncza licencja do użytku przez jednoczesnych użytkowników, licencja lokalna, licencja zbiorcza dla pojedynczego użytkownika w cenach hurtowych lub laboratorium studenckie.

Przykładowy kod

Poniższy zestaw poleceń dotyczy prostego zarządzania danymi.

sysuse auto                 // Open the included auto dataset
browse                      // Browse the dataset (opens the Data Editor window)

describe                    // Describes the dataset and associated variables
summarize                   // Summary information about numerical variables

codebook make foreign       // Summary information about the make (string) and foreign (numeric) variables

browse if missing(rep78)    // Browse only observations with missing data for variable rep78
list make if missing(rep78) // List makes of the cars with missing data for variable rep78

Kolejny zestaw poleceń przechodzi do statystyk opisowych.

summarize price, detail          // Detailed summary statistics for variable price

tabulate foreign                 // One-way frequency table for variable foreign
tabulate rep78 foreign, row      // Two-way frequency table for variables rep78 and foreign

summarize mpg if foreign == 1    // Summary information about mpg if the car is foreign (the "==" sign tests for equality)
by foreign, sort: summarize mpg  // As above, but using the "by" prefix.
tabulate foreign, summarize(mpg) // As above, but using the tabulate command.

Prosty test hipotezy:

ttest mpg, by(foreign) // T-test for difference in means for domestic vs. foreign cars

Dane graficzne:

twoway (scatter mpg weight)                     // Scatter plot showing relationship between mpg and weight
twoway (scatter mpg weight), by(foreign, total) // Three graphs for domestic, foreign, and all cars

Regresja liniowa:

generate wtsq = weight^2                      // Create a new variable for weight squared
regress mpg weight wtsq foreign, vce(robust)  // Linear regression of mpg on weight, wtsq, and foreign
predict mpghat                                // Create a new variable contained the predicted values of mpg
twoway (scatter mpg weight) (line mpghat weight, sort), by(foreign) // Graph data and fitted line
Wykresy regresji z automatycznego zbioru danych w Stata 17

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki