Stan — Stata
Pierwotny autor (autorzy) | William Gould |
---|---|
Deweloper(zy) | StataCorp |
Pierwsze wydanie | 1985 |
Wersja stabilna | 17,0 / 20 kwietnia 2021
|
Napisane w | C |
System operacyjny | Windows , macOS , Linux |
Rodzaj | Analiza statystyczna |
Licencja | Prawnie zastrzeżony |
Strona internetowa | www |
Stata ( / e t eɪ t ə / , POBYT -ta alternatywnie / s T ć t ə / niekiedy znany jako Stata) jest ogólnego przeznaczenia statystyczny pakiet programowym StataCorp manipulacji danych, wizualizację, statystyki i automatyczne raportowanie. Jest używany przez naukowców z wielu dziedzin, w tym ekonomii , socjologii , nauk politycznych , biomedycyny i epidemiologii .
Stata została początkowo opracowana przez Computing Resource Center w Kalifornii, a pierwsza wersja została wydana w 1985 roku. W 1993 roku firma przeniosła się do College Station w Teksasie i została przemianowana na Stata Corporation, obecnie znaną jako StataCorp. Główne wydanie w 2003 r. zawierało nowy system graficzny i okna dialogowe dla wszystkich poleceń. Od tego czasu nowa wersja była wydawana raz na dwa lata. Obecna wersja to Stata 17, wydana w kwietniu 2021 roku.
Przegląd techniczny i terminologia
Interfejs użytkownika
Od momentu powstania, Stata zawsze używał zintegrowanego interfejsu wiersza poleceń. Począwszy od wersji 8.0, Stata zawiera graficzny interfejs użytkownika oparty na frameworku Qt, który wykorzystuje menu i okna dialogowe, aby zapewnić dostęp do wielu wbudowanych poleceń. Zbiór danych można przeglądać lub edytować w formacie arkusza kalkulacyjnego. Od wersji 11 inne polecenia mogą być wykonywane podczas otwierania przeglądarki danych lub edytora.
Struktura i przechowywanie danych
Do czasu wydania wersji 16, Stata mógł otworzyć tylko jeden zbiór danych w dowolnym momencie. Stata pozwala na elastyczność w przypisywaniu typów danych do danych. Jego compress
polecenie automatycznie ponownie przypisuje dane do typów danych, które zajmują mniej pamięci bez utraty informacji. Stata wykorzystuje typy pamięci całkowitej, które zajmują tylko jeden lub dwa bajty zamiast czterech, a pojedyncza precyzja (4 bajty) zamiast podwójnej precyzji (8 bajtów) jest domyślną wartością dla liczb zmiennoprzecinkowych .
Format danych Stata jest zawsze w formacie tabelarycznym . Stata odnosi się do kolumn danych tabelarycznych jako zmiennych.
Kompatybilność formatu danych
Stata może importować dane w różnych formatach. Obejmuje to formaty danych ASCII (takie jak CSV lub formaty banków danych ) i formaty arkuszy kalkulacyjnych (w tym różne formaty Excel ).
Zastrzeżone formaty plików Stata zmieniły się z biegiem czasu, chociaż nie każda wersja Stata zawiera nowy format zestawu danych. Każda wersja Stata może odczytywać wszystkie starsze formaty zestawów danych i zapisywać zarówno bieżący, jak i najnowszy poprzedni format zestawu danych za pomocą saveold
polecenia. W związku z tym bieżąca wersja Stata może zawsze otwierać zestawy danych utworzone ze starszymi wersjami, ale starsze wersje nie mogą odczytywać zestawów danych w nowszym formacie.
Stata może odczytywać i zapisywać zestawy danych w formacie SAS XPORT natywnie za pomocą poleceń fdause i fdasave .
Niektóre inne aplikacje ekonometryczne , w tym gretl , mogą bezpośrednio importować formaty plików Stata.
Historia
Początki
Rozwój Stata rozpoczął się w 1984 roku, początkowo przez Williama (Bill) Goulda, a później przez Seana Beckettiego. Oprogramowanie pierwotnie miało konkurować z programami statystycznymi dla komputerów osobistych, takimi jak SYSTAT i MicroTSP . Stata została napisana, tak jak i teraz, w języku programowania C , początkowo z myślą o komputerach PC z systemem operacyjnym DOS . Pierwsza wersja została wydana w 1985 roku z 44 poleceniami.
dodać | reż | w pliku | wątek | szpula |
brzęczyk | robić | Wejście | zapytanie | podsumować |
za pomocą | upuszczać | etykieta | regres | tabularyzować |
schwytać | usuwać | lista | Przemianować | test |
potwierdzać | Wyjście | makro | wymienić | rodzaj |
konwertować | zwiększać | łączyć | biegać | posługiwać się |
korelat | format | modyfikować | zapisać | |
liczyć | Generować | jeszcze | ustawić | |
opisać | Wsparcie | outfile | sortować |
Rozwój
W latach 1985-2021 pojawiło się 17 głównych wydań Stata, a między głównymi wydaniami pojawiły się dodatkowe aktualizacje kodu i dokumentacji. W początkowych latach dodatkowe zestawy programów Stata były czasami sprzedawane jako „zestawy” lub dystrybuowane jako dyski pomocnicze. Wraz z wydaniem Stata 6 w 1999 roku, update
s zaczęto dostarczać użytkownikom za pośrednictwem sieci. Pierwsze wydanie Stata było przeznaczone dla systemu operacyjnego DOS . Od tego czasu wydano wersje Stata dla systemów z wariantami Uniksa, takimi jak dystrybucje Linuksa , Windows i MacOS . Wszystkie pliki Stata są niezależne od platformy.
Setki poleceń zostały dodane do Stata w jego 36-letniej historii. Niektóre zmiany , takie jak rozszerzalność , niezależność od platformy i aktywna społeczność użytkowników , okazały się szczególnie ważne i nadal kształtują wrażenia użytkowników .
Rozciągliwość
program
Polecenie zostało wdrożone w Stata 1.2, co daje użytkownikom możliwość dodawania własnych poleceń. ado-files, które pojawiły się w Stata 2.1, umożliwiając automatyczne ładowanie do pamięci programu napisanego przez użytkownika. Wiele plików ado napisanych przez użytkowników jest przesyłanych do [Archiwum Statystycznych Składników Oprogramowania] prowadzonego przez Boston College. StataCorp dodał ssc
polecenie, aby umożliwić dodawanie programów współtworzonych przez społeczność bezpośrednio w Stata. Nowsze wersje Stata umożliwiają użytkownikom wywoływanie skryptów Python i R za pomocą poleceń, a także umożliwiają IDE Pythona, takie jak Jupyter Notebooks, importowanie poleceń Stata.
Społeczność użytkowników
Aktywna społeczność użytkowników Stata zainicjowała szereg ważnych zmian. Stata Technical Bulletin , który często zawiera polecenia utworzone przez użytkowników, został wprowadzony w 1991 roku i wydała sześć razy w roku. Został ponownie wydany w 2001 roku jako recenzowany Stata Journal , kwartalna publikacja zawierająca opisy poleceń tworzonych przez społeczność i wskazówki dotyczące efektywnego korzystania z Stata. W 1994 r. Listserv powstał jako centrum dla użytkowników w celu wspólnego rozwiązywania problemów związanych z kodowaniem i kwestiami technicznymi; w 2014 roku został przekształcony w forum internetowe. W 1995 roku Statacorp zaczął organizować konferencje użytkowników i programistów, które spotykają się co roku. StataCorp organizuje tylko doroczną konferencję Stata w Stanach Zjednoczonych. Inne spotkania grup użytkowników odbywają się corocznie w Stanach Zjednoczonych (Konferencja Stata), Wielkiej Brytanii, Niemczech i Włoszech, a rzadziej w kilku innych krajach. Lokalni dystrybutorzy Stata organizują spotkania grup użytkowników w swoich krajach.
Wersja | Data wydania | Wybierz nowe lub ulepszone funkcje |
---|---|---|
1,0 | styczeń 1985 |
|
1,1 | Luty 1985 |
|
1.2 | maj 1985 |
|
1,3 | Sierpień 1985 |
|
1,4 | Sierpień 1986 |
|
1,5 | Luty 1987 |
|
2,0 | Czerwiec 1988 |
|
2,1 | wrzesień 1990 |
|
3,0 | Marzec 1992 |
|
3.1 | Sierpień 1993 |
|
4.0 | Styczeń 1995 |
|
5.0 | Październik 1996 |
|
6,0 | styczeń 1999 |
|
7,0 | grudzień 2000 |
|
8,0 | styczeń 2003 |
|
8.1 | lipiec 2003 |
|
8,2 | Październik 2003 |
|
9,0 | Kwiecień 2005 |
|
9,1 | wrzesień 2005 | |
9,2 | kwiecień 2006 | |
10,0 | czerwiec 2007 |
|
10.1 | Sierpień 2008 | |
11,0 | lipiec 2009 |
|
11.1 | czerwiec 2010 | |
11.2 | Marzec 2011 | |
12,0 | lipiec 2011 |
|
12,1 | styczeń 2012 | |
13,0 | czerwiec 2013 |
|
13.1 | Październik 2013 | |
14,0 | Kwiecień 2015 |
|
14,1 | Październik 2015 | |
14,2 | wrzesień 2016 | |
15,0 | Czerwiec 2017 |
|
15,1 | Listopad 2017 | |
16,0 | czerwiec 2019 |
|
16,1 | Luty 2020 | |
17,0 | Kwiecień 2021 |
|
Produkty programowe
Istnieją cztery wersje Stata: Stata/MP, Stata/SE, Stata/BE i Numerics by Stata. Podczas gdy Stata/MP pozwala na wbudowane równoległe przetwarzanie niektórych poleceń, Stata/SE i Stata/BE są wąskie i ograniczają użycie tylko do jednego rdzenia. Stata/MP uruchamia niektóre polecenia około 2,4 razy szybciej, około 60% teoretycznej maksymalnej wydajności, podczas uruchamiania procesów równoległych na czterech rdzeniach procesora w porównaniu z wersjami SE lub BE. Numerics by Stata pozwala na integrację internetową poleceń Stata.
Wersje SE i BE różnią się ilością pamięci, jaką mogą wykorzystać zestawy danych. Chociaż Stata/MP może przechowywać od 10 do 20 miliardów obserwacji i do 120 000 zmiennych, Stata/SE i Stata/BE przechowują do 2,14 miliarda obserwacji i obsługują odpowiednio 32 767 zmiennych i 2048 zmiennych. Maksymalna liczba zmiennych niezależnych w modelu wynosi 65 532 zmiennych w Stata/MP, 10 998 zmiennych w Stata/SE i 798 zmiennych w Stata/BE.
Ceny i licencjonowanie Stata zależą od jego przeznaczenia: biznes, rząd/non-profit, edukacja lub student. Licencje dla jednego użytkownika są odnawiane corocznie lub bezterminowo. Inne typy licencji to pojedyncza licencja do użytku przez jednoczesnych użytkowników, licencja lokalna, licencja zbiorcza dla pojedynczego użytkownika w cenach hurtowych lub laboratorium studenckie.
Przykładowy kod
Poniższy zestaw poleceń dotyczy prostego zarządzania danymi.
sysuse auto // Open the included auto dataset
browse // Browse the dataset (opens the Data Editor window)
describe // Describes the dataset and associated variables
summarize // Summary information about numerical variables
codebook make foreign // Summary information about the make (string) and foreign (numeric) variables
browse if missing(rep78) // Browse only observations with missing data for variable rep78
list make if missing(rep78) // List makes of the cars with missing data for variable rep78
Kolejny zestaw poleceń przechodzi do statystyk opisowych.
summarize price, detail // Detailed summary statistics for variable price
tabulate foreign // One-way frequency table for variable foreign
tabulate rep78 foreign, row // Two-way frequency table for variables rep78 and foreign
summarize mpg if foreign == 1 // Summary information about mpg if the car is foreign (the "==" sign tests for equality)
by foreign, sort: summarize mpg // As above, but using the "by" prefix.
tabulate foreign, summarize(mpg) // As above, but using the tabulate command.
Prosty test hipotezy:
ttest mpg, by(foreign) // T-test for difference in means for domestic vs. foreign cars
Dane graficzne:
twoway (scatter mpg weight) // Scatter plot showing relationship between mpg and weight
twoway (scatter mpg weight), by(foreign, total) // Three graphs for domestic, foreign, and all cars
Regresja liniowa:
generate wtsq = weight^2 // Create a new variable for weight squared
regress mpg weight wtsq foreign, vce(robust) // Linear regression of mpg on weight, wtsq, and foreign
predict mpghat // Create a new variable contained the predicted values of mpg
twoway (scatter mpg weight) (line mpghat weight, sort), by(foreign) // Graph data and fitted line
Zobacz też
Bibliografia
Dalsza lektura
- Bittmann, Feliks (2019). Stata - naprawdę krótkie wprowadzenie . Boston: DeGruyter Oldenbourg. Numer ISBN 978-3-11061-729-0.
- Pinzon, Enrique, wyd. (2015). Trzydzieści lat ze Statą: retrospektywa . College Station, Teksas: Stata Press. Numer ISBN 978-1-59718-172-3.
- Hamilton, Lawrence C. (2013). Statystyki ze STATA . Boston: Cengage. Numer ISBN 978-0-84006-463-9.