RailsConf 2019 – Optimizing your app by understanding your PostgreSQL database by Samay Sharma

(밝은 팝 음악) -이 이야기는 앱 최적화입니다 Postgres 데이터베이스를 이해하면됩니다

제목에서 알 수 있습니다 내가 원했던 것 이 이야기에서 우리는 문제를 다룰 것입니다 당신은 응용 프로그램 사용자의 얼굴, 그들이 성과에 관하여 만드는 불평, 내 쿼리가 느리다는 말 또는 응용 프로그램 개발자로서 어떤 문제가 발생했는지 이해하기 응용 프로그램이 느린하고 다시 묶어 Postgres 데이터베이스에 저장합니다 그래서, Postgres가 당신에게주는 통계의 종류는 무엇입니까? 그래서 당신은 정확히 무슨 일이 일어나는지 알아낼 수 있습니다 무엇이 잘못 되었습니까? 그리고 그것을 고치는 법도 있습니다

그래서, 나 자신에 대해 조금 나는 사 메이다 나는 Citus의 엔지니어로 일하고 있습니다 Citus는 기본적으로 오픈 소스 확장 기능입니다 여러 컴퓨터에서 Postgres를 수평 확장 할 수 있습니다

그래서, 여러분이 단일 노드 Postgres 데이터베이스를 가지고있을 때 성능 문제가 발생하기 시작합니다 따라갈 수없는 당신이 싣고있는 작업 부하의 양과 함께, Citus를 사용하여 여러 서버로 확장 할 수 있습니다 저는 솔루션 엔지니어 팀을 관리합니다 그래서 우리가하는 일은 고객과 함께 일하는 것입니다 우리에게 오는 응용 프로그램 개발자 그들의 응용에 문제가있다

성능 관점에서, 확장 성 관점에서 그리고 그들은 그들의 데이터베이스를 키우기를 원한다 몇 테라 바이트, 수십 테라 바이트, 계속하는 동안 수백 테라 바이트 Postgres의 모든 이점을 유지합니다 그래서 저는 고객들과 함께 도움을줍니다 그들은 그들의 응용 프로그램을 모델링하고, 그들에게 데이터 모델링 등에 관한 권고안을 제시한다 데이터베이스를 확장하는 데 도움이됩니다

나는 나 자신에 관한 재미있는 사실을 포함하고 싶다 내 모든 슬라이드에 최근에 결혼 했어 약 4 개월 전 어떤 사람들은 나에게 재미있는 사실이라고 말하고있다 지금은 잠시 후 재미있는 사실이 아닐 수도 있습니다

(청중 웃음) 그래서 우리는 그것이 얼마나 재미있는지를 보게 될 것입니다 앞서 언급했듯이, Citus는 오픈 소스이며, 당신은 실제로 GitHub citusdata / citus에 갈 수 있습니다 그리고 우리를 그냥 주저하지 Citus에 대해 더 자세히 알고 싶다면, 나는 회의에서 주변에있을거야 우리는 그것에 대해 대화 할 수 있습니다

그러나이 이야기는 Citus에 관한 것이 아닙니다 이 이야기는 주로 Postgres에 관한 것입니다 제가 적용 할 얘기가 뭐든간에, 그것의 모두는 당신의 정상적인 Postgres 데이터베이스에 적용됩니다 그래서 때로는 당신이 직면하는 도전 각 문제와 관련이있다 데이터베이스 내에서 무슨 일이 일어나고 있는지

따라서 애플리케이션 관점에서 느린 쿼리가 표시 될 수 있습니다 또는 사용자가 올 수도 있습니다 내 앱 페이지가 가능한 빨리 로딩되지 않는다고 말하면, 등등 당신은 모니터링 도구 또는 귀하의 디버깅 등등, 문제가 데이터베이스에 있다는 것을 알 수 있습니다 데이터베이스가 느려짐의 원인입니다 자, 어떻게 그 문제가 무엇인지 발견합니까? 근본 원인을 어떻게 묶어 줍니까? 그리고 어떻게 그 문제를 해결할 수 있습니까? 그 문제를 해결하는 가장 간단한 방법 Postgres가 공개하는 통계를 사용하고 있습니다

그래서 Postgres는 실제로 많은 통계를 캡처합니다 ANALYZE를 실행할 때 데이터에 대해 또는 Postgres가 자동으로 ANALYZE를 실행하면, 그것은 많은 통계를 포착하려고합니다 귀하의 데이터에 대해 말하자면, 사용자가 이것을 필터로서 입력하는 경우, 선택도 비율은 어떻게 될 것인가? 따라서 모든 열에 대한 데이터를 추적합니다 또한 데이터베이스에 대해서도 마찬가지입니다 그것은 또한 당신에게 노출됩니다

활동에 대한 데이터를 수집하고이를 사용자에게 노출합니다 나는 통계를 여기에서 모니터링하는 것으로 버킷으로 만들고있다 기본적으로 쿼리 란 무엇입니까? 지금 시스템에서 실행 중입니까? 얼마나 많은 연결이 데이터베이스에 들어 옵니까? 어떤 인덱스가 사용되고 있습니까? 어떤 인덱스가 사용되고 있지 않은가? 얼마나 많은 IO가 수행되고 있습니까? 모든 정보가 실제로 캡처됩니다 Postgres 내의 다른 테이블에서 당신에게 노출되면 당신은 그것들을 정규 표로 질문한다 필요한 정보를 얻으십시오

그리고 몇 가지 관리 통계가 있습니다 관리 서비스를 사용하는 경우 당신은 그들에 대해 조금 신경을 써야합니다 하지만 당신은 관리 서비스 공급자 서버 관리 통계에 신경을 써야합니다 복제는 어떻게 유지됩니까? 데이터베이스의 크기는 얼마입니까? 다른 테이블의 크기는 얼마입니까? 이렇게 자, 내가하려고 할 것은 시작부터 시작하는 것입니다

매우 일반적인 문제, 즉 내 응용 프로그램이 느리다 그리고 모든 사람들이 매번 그 느낌을 갖게 될 것이라고 확신합니다 나는 아무도 말한다라고 생각하지 않는다, 나의 신청은 훌륭하다 항상 빠릅니다 그래서 우리는 그 문제부터 시작할 것입니다

우리가 데이터베이스에 묶여 있다는 것을 알아 냈다고 가정 해 봅시다 우리는 어떻게 거기에 도착합니까? 그래서, 문제는, 내 응용 프로그램이 느립니다 증상, 응용 프로그램 사용자 느린 성능에 대해 불평하고 있습니다 어떤 모니터링 도구를 사용하든, 그것은오고 대부분의 시간을 지적한다 데이터베이스 호출이 진행 중입니다

어쩌면 일정량의 데이터베이스 호출 일 수도 있습니다 어쩌면 그것은 데이터베이스 전체 일 것입니다 그리고 그들이 로딩하고있는 페이지가 무엇이든간에, 모든 것이 천천히 진행되고 있습니다 그리고 당신의 페이지는 만들고 있습니다 수백 개의 데이터베이스 호출을 가정 해 봅시다

어떤 쿼리가 느린 지 알지 못합니다 당신은 정확히 무슨 일이 벌어지고 있는지 모른다 그래서, 어떻게 거기에서 시작합니까? 좋은 출발점 데이터베이스 캐시 적중률을 조사하는 것입니다 따라서 캐시 히트 비율은 실제로 어떤 비율입니까? 얼마나 많은 검색어를 캐시에서 서비스되고 있습니다 대다수가 그것으로부터 오는 것인가, 디스크에서 읽어야한다고 가정 해 봅시다

느낌을 얻는 좋은 방법입니다 데이터베이스가 있어야하는 위치와 데이터베이스가 꺼져있는 위치 거래용 앱의 경우 실제로 원하지 않는 가장 일반적인 작동을 위해 디스크를 쳤을 때, 그래서 당신은 95 % 이상이되고 싶습니다 이상 적으로 캐시 적중률 99 % 또는 귀하의 트랜잭션 애플 리케이션을위한 이제 응용 프로그램에 따라, 애널리틱스 애플리케이션이있는 경우 어디 실제로 저장하는, 10 테라 바이트의 데이터를 가정 해 봅시다

10 테라 바이트의 메모리를 사는 것은 비쌀거야 캐시 히트 비율을 낮추는 것이 좋습니다 하지만 일반적으로 트랜잭션 애플리케이션의 경우는 그렇지 않습니다 자, 질문은, 어떻게 이것을 측정합니까? 어떻게 내가 그걸 지켜 볼 수 있니? 이 연설을 통해 나는 몇 가지 Postgres 테이블을 다룰 것이다 다른 정보가 무엇인지를 통해 이야기하십시오

그들이 제공 할 수있는 방법을 차례로 사용할 수 있습니다 응용 프로그램 성능을 향상시킵니다 pg_statio_user_tables에서 배울 수있는 간단한 쿼리 이건 내가 이야기 할 테이블 중 하나야 얼마나 많은 힙 블록을 읽었는지 계산합니다

전문 용어 관점 힙은 실제로 Postgres가 데이터를 저장하는 곳입니다 인덱스는 인덱스입니다 그래서 그들은 반드시 힙의 일부가 아닙니다 내가 힙 블록을 읽을 때 기본적으로 얼마나 많은 블록을 읽었는가? 힙에서 몇 블록을 맞았습니까? 그리고 그 비율, 블록의 수가 너무 많아서 숫자로 나눈 힙 + 읽기, 종류는 당신에게 비율을 준다

그래서 당신은이 비율을 보았습니다 그것은 pg_statio_user_tables를 사용하고있다 이 데이터의 출처로 테이블이 포착하는 정보를 살펴 보겠습니다 이 테이블의 예제 행에 불과합니다 내가 만든 테이블 중 하나에서

그래서, 테이블의 이름은 무엇입니까? 이드는 뭐니? 스키마 란 무엇입니까? 나는 그게 전부라고 생각합니다 단지 표준적인 것입니다 힙에 대한 정보를 유지한다는 것을 알 수 있습니다 또한 인덱스에 대한 정보를 유지합니다 색인 블록을 읽은 횟수를 알려줍니다 Postgres 버퍼 캐시에서 대, 그것은 버퍼 캐시에서 해당 레코드를 찾을 수 없습니다 그래서 그 기록을 읽어야했습니다

테이블 히트 비율을 얻는 것 외에도 이 테이블에서 인덱스 적중률을 얻을 수도 있습니다 어쩌면 인덱스가 메모리에 맞지 않을 수도 있습니다 그게 당신이 풀어야 할 문제입니다 이들 둘 모두에 따라, 이 테이블에서 그 정보를 찾아 낼 수 있습니다 토스트와 같은 다른 정보도 있습니다

토스트 (Toast)는 매우 큰 기둥이있는 경우입니다 Postgres는 실제로 그들을 압축합니다 별도의 장소에 보관합니다 그래서 그것에 대해서도 측정 할 수 있습니다 거대한 JSON BLOB가 있다고 가정 해 보겠습니다 당신이 Postgres 테이블에 그리고 너는 알아 내고 싶어

디스크에서 읽는 것이 주요 병목입니다 이걸 알아 내면 비율을 구할 수 있습니다 그들 중 어떤 사람이이 문제를 일으키는 지 확인하십시오 캐시 적중률이 낮다는 것을 아는 것만으로도, 캐시 히트 비율이 낮다고 가정 해 봅시다 실제로 많은 것을 의미 할 수 있습니다

그게 네가 할 수있는 것이 아니라는거야 버퍼 캐시에서 작업 부하를 제공하는 방법 하지만 왜 디스크에 갈 필요가 있니? 그리고 그것으로 가능한 문제점은 무엇입니까? 여러 가지 원인이있을 수 있습니다 처음 두 점은 팽창과 자동 진공에 대해 이야기합니다 얼마나 많은 사람들이 자동 진공관에 익숙합니까? 좋아요 기본적으로 Postgres에서 행을 업데이트하거나 삭제할 때마다, Postgres는 반드시 동시에 삭제하지 않습니다

행에 표시되지 않는 것으로 표시합니다 거래를 시작하자 거래 후 그리고 나서 진공이라는 프로세스가 있습니다 와서 모든 행을 정리합니다 그리고, Postgres에는 자동 진공 장치가 있습니다

자동으로 트리거됩니다 수동으로 진공을 트리거 할 수 있습니다 말하자면 모든 행을 정리하자 더 이상 사용되지 않는 하지만 기본적으로 Postgres에는 자동 진공 장치가 있습니다 당신은 그것을 공격적으로 조정할 수 있습니다

또는 덜 공격적이어야합니다 그리고 나서, 당신의 자동 진공관이 충분히 잘 조정되지 않았습니다 그래서 늙은 행을 정리하지 않는거야 그래서 당신은 매우 나쁜 히트 비율을 얻고 있습니다 귀하의 캐시에서

실제로 Bloat은 사용되지 않은 데이터의 덩어리입니다 그것은 일반적으로 부 풀리는 것으로 알려져 있습니다 그래서 당신은 말할 것입니다, 좋아요 테라 바이트의 데이터는 200GB에 불과할 것입니다 실제로 사용할 수있는 데이터입니다

그것의 나머지는 단지 autovacuum이 그것을 깨끗하게 할 수 없다는 것입니다, 그래서 800 기가는 부 풀릴뿐입니다 그리고 그걸 정리하면 많은 공간을 절약 할 수 있습니다 관련 데이터 만 메모리에 저장해야합니다 쿼리가 최적화되지 않았을 수 있습니다 그리고 순차적 스캔을 많이하고 있습니다

Postgres가 데이터를 스캔하는 방법, 일반적으로 순차 스캔 또는 인덱스 스캔 데이터베이스에 인덱스가있는 경우 인덱스를 사용하여 행을 검색합니다 검색어에 대한 관련 행만 이벤트를 저장하는 테이블이 있다고 가정 해 보겠습니다 타임 스탬프에 인덱스를 만들면 마지막 날에 대한 쿼리를 실행하면 Postgres는 해당 색인을 사용합니다 마지막 날의 결과 만 반환하는 것 나머지 데이터는 스캔하지 않습니다 색인을 적절하게 작성하지 않은 경우, 어쩌면 당신은 단지 스캔하고 있습니다 항상 전체 데이터베이스 훨씬 더 정확한 쿼리가 필요합니다

대부분의 프레임 워크는 기본 키를 생성합니다 기본 색인 만 하지만 더 복잡한 쿼리를 수행하는 경우 스스로 색인을 작성해야 할 수도 있습니다 그 문제의 다른 측면은 어쩌면 사용하지 않은 색인이 많이있을 수도 있습니다 그래서 당신은 Postgres가 필요로하는 많은 인덱스를 가지고 있습니다 행을 삽입 할 때마다 포스트그레스는 그 행을 삽입해야합니다

테이블에있는 모든 색인에 네가 많은 걸 가지고 있고 그들이 사용되지 않는다면 전체 데이터 양을 늘릴 수 있습니다 당신은 당신의 데이터베이스에 있습니다 그런 다음 올바른 쿼리에 사용할 수 없게됩니다 다시 말하지만 단일 노드 Postgres를 최대한으로 최적화하려고 시도하십시오 그 이후에 대해 생각하고 싶다면 Citus를 사용하여 샤딩 또는 스케일 아웃 그게 말이되는 때입니다

성능 문제가 발생하는대로 제안하지 않겠습니다 더 많은 하드웨어를 구입하십시오 그리고 그 문제를 해결하려고 노력합니다 네가 할 수있는 일이있다 그러나 한 지점이 지나면 어려워진다

Postgres를 조정하고 볼 수 있습니다 Citus와 같은 다른 기술로 확장 할 수 있습니다 나는 3 개 또는 4 개의 테이블을 파헤 칠 것이다 실제로 도움이 될 것입니다 이 문제들 중 어느 것이 우리 데이터베이스에서 계속되고 있는지

우리는 표준 하나부터 시작할 것입니다 전체 데이터베이스를 포함 이것은 pg_stat_database라고 불린다 다시 한 번 특정 행을 선택했습니다 이 데이터베이스에 대해 그것은 꽤 많은 정보를 제공합니다

백엔드 수, 데이터베이스 이름, 데이터베이스 ID 여기에서 더 중요한 분야 트랜잭션 커밋, xact 커밋 및 xact 롤백 그래서 그것은 얼마나 많은 트랜잭션을 알려줍니다 커밋 된 및 데이터베이스에서 롤백 된, 얼마나 많은 블록이 읽혔는지 알려줍니다 얼마나 많은 블록이 맞았는지 비교합니다 우리는 그 정보를 보았습니다 또한 얼마나 많은 튜플이 있는지 알려줍니다

귀하의 데이터베이스에 삽입, 업데이트, 삭제되었습니다 당신이 많이있을 수도 있습니다 너는 묻는 사람들에 대해 들었을 것이다 너는 좋아, 너의 질문은 너의 데이터베이스 야 삽입 무거운 데이터베이스? 많은 업데이트가 있습니까? 당신은 많은 삭제를합니까? 이러한 질문에 대한 답을 찾으려면, 당신은 여기 올 수 있고 실제로 통계를 얻을 수 있습니다

무엇에, 기본적으로 그 질문들에 대한 답은 무엇입니까? 유스 케이스는 무엇입니까? 일반적으로이 테이블을 사용합니다 for는 가져온 행 수를 찾습니다 데이터베이스에 대한 쿼리에 의해 반환됩니다 자,이 두 용어는 서로 다릅니다 Postgres는 사실이 컬럼들을 약간 재미있게 이름 지었다

하지만 반환 된 튜플을 보면 실제로 얼마나 많은 튜플이 리턴되었는지입니다 그리고 나서 가져온 것은 실제로 얼마나 많은가? 쿼리를 렌더링하는 데 필요한 그래서, 아마도 많은 쿼리를 반환했을 것입니다 하지만 당신은 좋은 지표가 없었어요 불필요하게 많은 행을 반환했습니다 이 비율은,이 특별한 경우를 보면, 당신은 볼 수 있습니다, 나는 0의 숫자가 무엇인지 모르겠다

3 억 6,700 만 명이 튜플을 가져 왔다고 생각합니다 675가 반환되었습니다 그래서 튜플의 반은 실제로 반환되었습니다 그것들은 반환 될 필요가 없었다 그래서 당신은 예를 들어 그것에 인덱스를 넣어서

또 다른 예는 데이터베이스의 삽입, 갱신, h 제 비율 벤치 마크를 할 때, 특정 병목 지점을 찾으려고 할 때, 당신은 알아 내고 싶어합니다 좋아, 내가 삭제 작업량을 조정해야합니까? 삽입 파이프 라인을 조정해야합니까? 업데이트를 조정해야합니까? 이 비율을 찾는 것이 도움이됩니다 그리고 분명히 처리량을 얻을 수 있습니다 어떤 처리량을 찾고 있습니까? 어떤 보장을 하시겠습니까? 귀하의 응용 프로그램 사용자에게? 그리고, 당신을 제공 할 수있는 데이터베이스는 무엇입니까? 그래서, xact 커밋을 보면 너는 알아낼 수있을거야

얼마나 많은 커밋, 얼마나 많은 트랜잭션 이 통계를 재설정 할 수 있습니다 그래서 더 정확한 숫자를 원한다면 특정 날이나 무언가를 위해 이 통계를 재설정 할 수 있습니다 그런 다음 다시 가져 오십시오 이것은 전체 데이터베이스를위한 것이 었습니다 지금 일반적으로 이것은 당신에게 좋은 아이디어를 준다

찾을 곳 그러나 그것은 충분하지 않습니다 내가 너에게 말하면, 알았어 거래가 많다 귀하의 데이터베이스에서 계속, 그건별로 말하지 않습니다 거기에 일부 문제는 처리량, 너 알아 내고 싶어, 알았어

내 작업 부하 중 어느 부분이 원인입니까? 다른 테이블 세트가 있습니다 테이블 정보를 제공합니다 이것은 pg_stat_user_tables라고 불립니다 열이 많아서 읽을 시간이 조금 부족합니다 그러나 더 중요한 것들은 여기에있다

얼마나 많은 시간을 알려주지? 순차적 스캔을 시작했습니다 그 테이블에 몇 번 대 스캔을 시작하고 색인화합니다 그리고 얼마나 많은 튜플 각각을 읽어야 만했는지 그래서, 그것은 매우 유용한 정보입니다 색인이 필요한지 아닌지, 당신이 있다면, 나는 때때로 개발자들과 이야기를 나눴습니다

그들은 좋아, 실제로, 내 데이터베이스와 같다 순차적 스캔을해서는 안됩니다 우리는 한 번에 5 행 이상을 스캔하지 않습니다 그런 다음 우리는 데이터베이스에 간다 그리고 매우 다른 경우 데이터베이스의 그림

데이터베이스는 항상 순차적 스캔을 수행합니다 왜냐하면 당신이 5 열을 요구하고 있기 때문에, 데이터베이스에 알려주는 색인이 없을 수도 있습니다 5 개의 행을 스캔하면됩니다 당신에게 그 정보를 얻기 위해서 그것이 당신에게 말해주는 다른 것은 튜플의 수입니다

삽입, 업데이트, 삭제됨, 다시 비슷한 통계 테이블 기준 라이브 튜플의 수, 죽은 튜플의 수, 저것은 부 풀리는 곳과 자동 진공관이 오는 곳입니다 이것은 매우 깨끗한 데이터베이스였습니다 그래서 그것은 가지고 있지 않으며 죽은 튜플 하지만 아마도 그럴 일은 없을거야 이걸 데이터베이스에서 실행할 때

죽은 튜플의 수는 기본적으로 더 이상 사용할 수없는 튜플 그러나 Postgres는 그들을 정리하려고하지 않았습니다 그렇게하면 부 풀릴 생각이 생기므로, 부 풀리는 Postgres를 검색하면 매우 복잡한 쿼리가 생성됩니다 기본적으로이 표와 같이 너에게 저 정보를 줄 광고 몇 다른 테이블 기가 바이트 또는 테라 바이트의 관점에서, Postgres 데이터베이스에 얼마나 부 풀었습니까? 테이블 등으로 무너지고, 정확한 질문을하고 싶지 않았습니다 너희들이 관심이 있다면 유용한 쿼리를 추가 할 수 있습니다 슬라이드 부록에 그래서 당신들은 복사, 붙이기, 실행 만 할 수 있습니다

귀하의 데이터베이스에 유용하고 있는지 확인하십시오 그리고, 그것은 또한 여러분에게 마지막 진공 상태를 보여줍니다 자동 진공, 마지막 분석, 자동 분석, 그래서 내가 말했듯이 Postgres에는 자동 진공 장치가있다 가끔씩 올라 오는 실제로 진공을 실행하고 데이터베이스를 분석합니다 진공 청소기는 팽창을 청소하는 것입니까? 분석 대상은 통계를 캡처하는 것입니다

쿼리에서 이러한 통계를 사용할 수 있습니다 그 정도면 충분하지 않다면 또는 당신이 괜찮은 느낌이 든다면, 내 자동 진공관처럼 충분히 조정해야합니다 그 모든 부 풀기를 제거하기 위해, 아마도 그렇지 않다 알다시피, 17 일, 좋아, 내가 씨앗 데이터베이스 어디서 같은, 1 년 동안 테이블에 자동 진공이 공급되지 않았습니다 데이터베이스 크기는 2TB이고, 진공 상태가되면 700 기가가됩니다

일반적으로 이것은 발생하지 않을 것이며, 이것은 또한 극단적 인 경우이다 하지만 기본적으로 Postgres autovacuumes 당신의 테이블이 20 % 바뀌었다 일반적으로 충분하지 않은 기본값입니다 대형 데이터베이스의 경우 데이터베이스에 10 억 개의 행이 있다고 가정 해 보겠습니다 너까지 기다리고있어

당신은 2 억 행의 부 풀림을합니다 실제로 그것을 치우기 위해 그것은 사실이 아닐 수도있다 대부분의 내가 이야기하는 Postgres 사용자는 큰 데이터를 가지고 있으며, 그래서 그들이 Citus를보고 있습니다 이러한 문제는 매우 자주 발생합니다 네가 가질 때, 아주 자주 와라

큰 데이터베이스가있을 때 Pg_stat_user_tables, 당신은 무엇을 할 수 있습니까? 대략의 라이브, 데드 튜플 수 당신에게 얼마나 부 풀리는지를 알려줍니다 표가 삽입, 갱신, 삭제 여부를 확인하십시오 실제로 우리에게는 본질적으로, 그들의 작업 부하의 60 % 이상이 업데이트되었습니다 그리고 나서 그것은 막 온 것입니다

앱의 한 문장에서 그들은 마치 "이 업데이트가 있다는 것을 알았 더라면 주요한 문제이다 " 그들은 작업량을 약 90 %까지 줄일 수있었습니다 앱 핵심 부분 만 수정하면됩니다 업데이트 횟수를 줄입니다 당신이 당신의 기대치를 당신의 데이터베이스에서 찾아낸다면

나는 좋아, 나는 많은 질문을하지 않을 것이다 때로는 활성 레코드가 당신을 위해 쿼리를하고있을 수도 있습니다 그리고 당신은 깨닫지 못할 수도 있습니다 코드를 특정 방식으로 작성한 것 데이터베이스에서 훨씬 더 많은 트래픽을 발생시킵니다 분명히 autovacuum, autoanalyze, 너의 테이블이 있는지 알아봐

충분히 진공 청소기로 채워지는지 여부 그리고 이것은 정말 유용하다고 생각합니다 순차 스캔 수와 인덱스 스캔 수입니다 트랜잭션 형 앱의 경우 순차 스캔 일반적으로 필요한 경우가 아니면 전체 데이터 세트에서 분석을 수행하고 있습니다 다수의 순차적 스캔을 볼 경우 깃발을 들어야합니다 인덱스에 대해서도 비슷한 통계가 있습니다

색인, 색인 스캔이 있습니다 해당 테이블에서 인덱스 스캔을 몇 번 시작 했습니까? 일반적으로 당신은 쓰기 문제가 많습니다 쓰기 처리량이 충족되지 않습니다 당신은 많은 색인을 가지고 있기 때문에, 테이블에 15 개의 인덱스가 있습니다 너가 가서 얼마나 많은 것을 보았을 때

이러한 인덱스 중 사용중인 당신은 그들 중 7 명이 심지어 사용되지 않는다는 것을 깨닫는다 귀하의 질문에 의해 인덱스는 항상 저장 공간간에 균형을 유지합니다 쓰기 처리량 및 읽기 처리량을 제공합니다 그리고 그것이 의미가있는 시점이 있습니다

실제로 비용을 들여 인덱스를 생성한다 드라이브 속도 저하 그러나 당신이 모든 것에 단지 색인을 가지고 있다면 실행할 수있는 쿼리 실제로 데이터베이스가 손상됩니다 도움이되는 것 이상 아마도 불필요한 부분이 많이 생기기 때문입니다 데이터베이스에 계속 씁니다 그것은 가장 유용한 것들입니다

다시 말해서, 튜플을 읽거나 튜플을 반입했다는 것을 알려줍니다 이것은 완벽한 지표였습니다 그래서 당신이 읽을 필요가있는 것을 독서하는 것 하지만 때로는 쿼리를 실행하는 경우 3, 4 개의 필터 당신은 그들 중 하나에 대해서만 색인을 가지고 있습니다 그럼 당신은 차이점을 발견 할 것입니다 이것들과 인덱스가있는 것을 보면 그냥 너무 많은 행을 읽고있다

그것이 필요한 많은 것보다, 더 구체적인 색인으로 만들 수 있습니다 그것을 복합 색인으로 만들어서 두 개의 열 또는 세 개의 열로 구성됩니다 그것들은 pg_stat_user_indexes입니다 자, 우리가 처음에 해결했던 문제로 되돌아 와서, 이는 캐시 적중률이 좋지 않음을 나타냅니다 실제로 정보를 사용할 수 있습니다

이 세 가지 모두에서 테이블과 더 많은 것들이 있습니다 하지만이 3, 4 가장 좋은 출발점이다 눈부신 모든 문제를 발견 한 곳 어떤 것이 있다면 왜 그랬는지 이해합니다 당신은 나쁜 타격 률을 보였습니다 그래서, 실제로, 나는 응용 패턴을 말해야합니다

하지만 당신은 데이터베이스 패턴을 본다 애플리케이션 측면과 일치하지 않는 그래서 많은 업데이트를하지 말아야한다고 생각합니다 하지만 그것은 당신의 데이터베이스 메인 워크로드를 밝혀냅니다 알았어, 나는이 테이블을 생각해 작아야한다, 나는 그것이 너무 크다는 것을 깨닫는다

이 테이블에 죽은 줄을 써서는 안됩니다 그래서 이것은 당신이 가정을 점검하는 데 도움이됩니다 더 깊이 들어가서 고칠 수 있습니다 부 풀리는 것이 많으면, 당신의 더 큰 테이블 인 테이블이 있습니다 그러나 그들은 매우 적은 진공 청소기로 청소됩니다

실제로 자동 진공관을 튜닝 할 수 있습니다 변경의 2 %에서 트리거합니다 당신은 내 테이블의 2 %가 바뀌면, 테이블에 진공을 일으킨다 이것은 매우 유용합니다 실제로 대형 테이블의 경우 약 2 %를 권장합니다

그래서 당신은 그것으로 시작할 수 있습니다 실제로 증가시킬 수도 있습니다 autovacuum이 사용하고있는 프로세스의 수 그것은 당신이 할 수있는 또 다른 일입니다 그래서 자동 진공이 충분히 빈번하게 시작됩니다

그러나 그것은 변화의 속도를 따라 잡을 수 없습니다 그런 다음 더 많은 코어를 제공해야 할 수도 있습니다 유지하려면 자동 진공 장치에 연결하십시오 어쩌면 순차적 스캔을 많이하고있는 것일 수 있습니다 그게 문제라면 몇 가지 색인을 만들어야합니다

어쩌면 불필요한 색인이 많이있을 수도 있습니다 나는 3 가지를 함축하고 4 가지를 함축하려하지 않는다 모든 것이 있지만 일부는 있을지도 모른다 불필요한 항목을 삭제할 수 있습니다 좋은 성능을위한 색인

이 모든 것들은보다 일반적이며, 나는 특정 쿼리를 보지 않는다는 것을 의미한다 특정 검색어를 최적화하지 않고 그래서 이것은 일반적으로 시작하는 데 유용합니다 그런 다음 좋아하기 시작합니다 좋습니다, 이것들이 문제의 종류입니다 하지만, 당신이이 일을 너는 좋은 색인을 가지고있다

또는 캐시 적중률이 낮아서 성능이 저하 될 수 있습니다 특정 쿼리가 충분히 잘되고 있습니다 특정 검색어는 여전히 실적이 좋지 않습니다 특정 웹 페이지가 여전히 느립니다 어떻게 분리합니까, 느린 쿼리는 무엇입니까? 이것은 pg_stat_statement와 같습니다

그 질문에 대한 답입니다 그리고 그것은 실제로 내 동료 중 하나입니다, Claire는 FOSDEM에 있었고 가장 일반적인 조언이었습니다 기본적으로 pg_stat_statements를 사용합니다 그래서 pg_stat_statements는 무엇을 하는가? Postgres의 확장 기능입니다 이 실행 통계 서버가 실행 한 모든 SQL 문 중 하나

실제로 쿼리를 정규화하고 함께 그룹화합니다 그래서 각각의 모든 쿼리는 실행되지 않을 것입니다 이 형식의 모든 쿼리에 대해서는 저장됩니다 이것에 관한 통계입니다 모든 특정 통계를 살펴 보겠습니다

내보내고 사용자에게 내 보냅니다 놀랍게도보기를 사용하여 pg_stat_statements라고도 부릅니다 다시 쿼리 할 수 ​​있습니다 정기적 인 Postgres 테이블처럼 테이블에서 통계를 얻으십시오 그래서, 그 견해에는 무엇이 포함되어 있습니까? user_id, db_id, query_id 및 쿼리 텍스트가 있으며, 그리고 그것이 데이터베이스에서 실행 된 횟수

한 쿼리가 느린 경우 하지만 5 일에 1 번 실행됩니다 괜찮을거야하지만 쿼리가 있다면 5, 10, 15 밀리 초를 절약 할 수있는 것과 같습니다 하지만 그것은 하루에 수천 번 실행됩니다 실제로 최적화하는 것이 더 유용합니다

또한, 일종의, 같은 시간, 최소 시간은 얼마입니까? 이 유형의 쿼리를 실행하는 데 걸렸습니다 Max_time, mean, 그것은 또한 표준 편차를 제공합니다 당신이 이해할 수 있도록, 좋아, 아마도 한 두 가지의 나쁜 사건 하지만 항상 나쁜,이 쿼리를 수행 무엇입니까? 그리고 그것이 실행 된 횟수를 알려줍니다 두 조각을 서로 연관 지을 수 있습니다 또한 IO에 대한 정보를 알려줍니다

공유 된 블록의 수 쓰다, 쓰다, 더러워 졌어? 얼마나 많은 지역 블록이 쳤고, 쓰여지고, 더러워 졌습니까? 또한 블록 읽기 및 쓰기에 소요 된 총 시간 몇 가지 예를 들어 보겠습니다 당신이이 정보로 무엇을 할 수 있는지 가장 일반적인 쿼리 중 일부입니다 데이터베이스를 즉시 실행합니다

시간이 많이 걸리는 상위 10 개 쿼리는 무엇입니까? 당신은 내가 total_time을 사용하고 있음을 알아 차리고, 나는 one_time을 사용하지 않으므로 이것이 당신에게 알려줍니다 데이터베이스에 대한 쿼리는 무엇입니까? 그 시간의 대부분을 보내고 있습니다 사실 total_time이기 때문에 본질적으로 mean_time에 전화를 곱한 결과입니다 그래서 그것은 단지 전화를 보는 것과 반대되는 좋은 측정입니다 이것이 가장 일반적인 쿼리라고 말합니다

하지만 밀리 초만에 실행하면 괜찮습니다 또는 쿼리 시간 만 사용하면됩니다 하지만 어쩌면 매우 일찍 실행될 수도 있습니다 이것은 일반적으로 좋은 방법입니다 때로는 예를 들어, 나쁜 캐시 적중률의 예에서, 너는 너가하고있는 걸 알지

많은 디스크가 당신이 알아 내고 싶은 것을 읽을 정도로 읽습니다 상위 10 개 검색어는 무엇입니까? 디스크 읽기에 대부분의 시간을 소비 모니터링 도구에서 알 수 있듯이, 알다시피 내 시간이 많이 갈거야 디스크 읽기에서는 쿼리 만 찾습니다 당신은 그 쿼리 만합니다 아니면, 그냥 가고 싶다

가장 많이 사용되는 상위 10 개 검색어는 무엇입니까? 당신이 일종의 일을 할 때 유용합니다 벤치마킹 등의 당신은 벤치 마크하고 싶지 않아 좋아, 최악의 쿼리를 벤치마킹하고 싶다 하지만 가장 일반적인 쿼리를 벤치마킹하려고합니다 이 모든 정보를 가져올 수 있습니다

너의 시선을 정확하게 말하다 정확히 무엇을 튜닝해야할까요? 일반적으로 최적화를 수행하는 것이 아닙니다 좋은 모범 사례를 기본으로 수행 한 후에 이것은 내가 강력하게 추천하는 질문이다 데이터베이스에서 실행되어 어느 것을 찾아야하는지 너는보고 있어야한다 이 블로그 게시물 중 하나입니다

pg_stat_statements에 표시되므로 가장 중요한 것은 무엇입니까? 그것은 당신에게 통화, total_time, mean_time, max_time 및 표준 편차 시간 그것은 또한 당신의 질문을 좋아합니다 화면에서보기 좋게 보이도록 당신은 쉽게 그것을보고 디버깅 할 수 있습니다 그것은 현재 사용자의 쿼리만을 보여줍니다 그것은한다

현재 사용자가 아니라, 백업 사용자가 아닌 모든 것 그래서 때로는 백업 일이 나타날 것입니다 그리고 나서 상위 15 개 검색어를 찾습니다 평균 시간으로 정렬 이것은 일반적으로 실행할 좋은 쿼리입니다

그리고 좋은 출발점 그것은 당신에게 많은 것을 보여줍니다 이 예제를 보면 그것은 말한다, 좋아, 데이터베이스가 실행 된 total_time 이 쿼리에 소요 된 시간은 약 121 초입니다 mean_time은 실제로 86one입니다 max_time은 3 초, 3

7 초입니다 이것은 표준 편차이며, 이 많은 행이 이것으로부터 리턴됩니다 자, 가서 데이터베이스에서 실행하십시오 흥미로운 것들을 찾을거야 그것에서 나오는

자, 당신이 알아 냈다고 가정 해 봅시다 느린 쿼리는 무엇입니까? 자, 당신은 그들을 조정하기 위해 무엇을합니까? 그건, 여러 번 이야기 할 수 있다고 생각합니다 여러 워크샵을 자체적으로 진행합니다 그러나 그것의 아주 기본 EXPLAIN ANALYZE를 수행하여 시작하는 것입니다 그래서, 당신이 쿼리를 데리러, EXPLAIN ANALYZE를 수행합니다

알고있는 것이 유용하고 이것은 공통점입니다 사람들은 일반적으로 EXPLAIN을 수행합니다 EXPLAIN은 Postgres가 생각하는 것만을 제공합니다 그것의 세계관의 그러나 실제적으로 일어날지도 모른 무엇이 아닙니다 쿼리를 실행할 때 EXPLAIN을 보면 그리고 당신은 그것이 당신에게 말하는 비용을 보았습니다 이것이 더 복잡한 계획이라면 당신은 더 많은 비용을 볼 수 있습니다

그리고 그 Postgres 견적 이거 오래 걸릴거야 실제로는 전혀 사실이 아닐 수도 있습니다 보길 원하는 것 EXPLAIN ANALYZE를보고있을 때 실제 시간입니다 오른쪽에는 실제 시간이 표시됩니다 다음과 같은 경우를 보여줍니다

행이 출력되었고, 출력 된 행 수 이것은 매우 간단한 쿼리입니다 모든 행을 선택하는 것입니다 여기서 특정 열 값은 1입니다 그것은 당신에게 보여줍니다, 그것은 약 9,584 행을 반환 할 것으로 예상됩니다, 실제로 약 10,000 행을 반환합니다

따라서 꽤 가깝습니다 예상치는 꽤 가깝습니다 그런 다음 쿼리 계획을 읽습니다 그런 다음 계획의 어느 부분을 파악하는지 가장 많은 시간을 들이고 있습니다 실제 시간에는 추정치가 아니라 그런 다음 색인 생성을 통해 조정할 수 있습니다

또는 다른 Postgres 튜닝 매개 변수를 조정하여 자, 그건 단지 표준적인 부분입니다 아시다시피, 당신이 분석을 할 때, 쿼리에서 가장 느린 부분 조정 하지만 Postgres는 실제로 당신에게 알려줍니다 EXPLAIN의 몇 가지 흥미로운 점도 있습니다 이 쿼리를 살펴 보겠습니다

그래서, 나는 테이블에서 선택하고있다 여기서 열 1은 1이고 열 2는 0입니다 당신이 이것을 보게된다면, 당신은 알 것입니다 쿼리 계획을 조정할 수 있지만 실제로 거기에는 불일치가있다 중요한 불일치는 100 배 이상입니다

Postgres가이 쿼리가 반환 할 것이라고 생각하는 측면에서, 그래서 Postgres는 100 행을 반환 할 것으로 추정합니다 실제로 데이터베이스는 10,000 개의 행을 반환합니다 그리고 그것은 정말로 벗어났다 그래서, 만약 당신이이 계획보다 위의 것을 가졌다면, 그래서 집계를한다면, 조인을하고 있다면, Postgres가 실제로 선택할 계획 좋지 않을거야 그것은 단지 100 개의 행만 믿기 때문입니다

스캔에서 올거야 하지만 실제로는 1 만 행이 올 것입니다 스캔에서 실제로주의해야 할 것이 있습니다 Postgres 튜닝에 대한 많은 조언이 있다고 생각합니다

한 번 당신이 EXPLAIN ANALYZE를 본 것처럼 그것에 대해가는 방법 그러나 그 다음 거기에있다 고려해야 할 중요한 것 느린 쿼리가 항상 그런 것은 아닙니다 인덱스를 추가하고 작업 속도를 높일 수 있습니다 때때로 Postgres에 잘못된 통계가있을 수 있습니다 또는 충분한 데이터를 보지 못했습니다 데이터에 대한 올바른 통계를 얻을 수 있습니다

이것을 보면, 문제는 이것 이후에 일어나는 일, 나쁜 실행 계획처럼 매우 나쁠 수도 있습니다 그리고 그건 당신이 창조하지 않았기 때문이 아닙니다 올바른 색인 또는 다른 것, 그것은 단지 Postgres 무언가가 올거라 생각했다 이 특정 스캔에서 행 수가 훨씬 더 많았습니다 나쁜 통계가 표시되는 첫 번째 단계 높은 것으로 다시 분석하는 것입니다

기본 통계 대상 실제로 행 수 Postgres 데이터 분포를 추정하는 데 사용됩니다 그래서, 알겠습니다 Postgres가 더 많은 행을 스캔하기 때문에 더 비쌉니다 그 통계를 얻으려고하지만 통계를 만든다

훨씬 더 정확합니다 그게 처음 시작하는거야 그러나 여기의 문제는 사실 그 것이 아닙니다 당신이 어떻게 할 수 있는지에 대한 예를 한 가지만 골라 둡니다 통계가 일치하지 않으면 Postgres에게 실제로 어떻게 말할 수 있습니까? 통계 수정 Postgres가 어떻게 통계를 향상시킬 수 있는지에 대해 설명합니다

여기에 문제가있는 이유는 이 특별한 스키마에있다 제 1 열 및 제 2 열은 서로 상관된다 실제로 두 번째 열, 두 번째 열의 값, 내가 아는 데이터를 채웠다 실제로 열 1을 10으로 나눈 값입니다 그래서, 당신이 칼럼 1을 안다면, 실제로 가치를 결정하는 데 충분합니다

열 2의하지만 포스트그레스는 그것에 대해 아무것도 몰라요 기본적으로 Postgres는 통계 만 캡처합니다 독립적으로 단일 열에 대해 그래서 그것은 말합니다, 아마도 1 만 줄이 될 것입니다 1 열에서 반환, 2 열에서 10,000 이제 두 필터가 함께 적용됩니다

그러면 아마 100 줄을 얻을 수있을 것입니다 따라서 선택도를 사용하여 예상치를 발행합니다 이 숫자를 생각해 내야합니다 하지만 실제로 이것은 생산하지 않을 것입니다 인덱스에 관계없이 올바른 결과 Postgres에 말하지 않으면 아무 것도 추가하지 않습니다

이 둘 사이의 상관 관계에 대해서 그래서 Postgres는 멀티 컬럼 통계를 선언 할 수있게 해주 며, 그것은 기본적으로 그것을하지 않습니다 그것이 그것을 할 것이기 때문에 모든 열 (row)의 순열 (permutations)과 조합 (combination) 당신의 테이블에있는 모든 칼럼들, ANALYZE는 너무 오래 걸릴 것입니다 하지만 Postgres에 두 개의 열이 서로 연관되어 있음을 알 수 있습니다 그것에 대한 통계를 작성합니다

그래서 그것은 구문입니다 우리는 그것에 들어갈 필요가 없지만, 궤도 의존 통계 제 1 열, 제 2 열 일단 그 정보가 있으면 당신은 이것이 정확히 같은 쿼리라는 것을 알 수 있습니다 나는 테이블을 분석 한 후 다시 실행했다 그리고 Postgres에게 캡처하도록 알려줍니다 볼 수있는 상관 관계 통계 순차 스캔이 있습니다

현재 9,584 개의 행을 예측합니다 100 대신에 그리고 훨씬 더 정확합니다 이것 이후에 일어날 일들은 훨씬 더 효율적입니다 실제로,이 통계가 아주 보이는 것처럼 보입니다 사람들이 그렇게 생각하지 않아요

실제로 큰 영향을 미칩니다 이것은 사실 7 월에 작년에 내가 트위터에 올린 것입니다 우리는 고객을 보았습니다 수천 배 빠른 성능 그리고 나는 그것이 같아 보인다는 것을 안다, 이 SQL 쿼리를 실행해야했습니다 1000 배 더 나은 성능을 얻으려면 그러나 그것은 일어난다

잘못된 쿼리 계획 견적 이것은 간단한 쿼리입니다 더 복잡한 쿼리 인 경우 너는 많은 이슈가있을거야 Postgres가 생각하기에 행 수는 다릅니다 그것이 실제로있는 것에서 따라서 이것을 요약하기 위해 pg_stat_statements 최적화 할 수있는 적절한 쿼리 집합을 찾고, EXPLAIN ANALYZE를 사용하고 가장 느린 부분을 튜닝하고, 다시 ANALYZE에 중점을두고, EXPLAIN을보고 가정하지 마라

Postgres가 할거야, 우리는 EXPLAIN이 매우 다른 것을 보았습니다 어떤 경우에는 실제로 일어나는 일로부터 차이점을 눈여겨 보아라 견적 및 실제 수정 방법을 찾고, Postgres에게 통계를 수정하도록 알려주십시오 항상 정확하지 않을 수 있기 때문입니다 그래서, 그것은 기본적으로 내 이야기의 주요 내용입니다

빠른 견적에 보너스를 추가했습니다 그래서 이것은 반드시 필요한 것은 아닙니다 나머지 이야기와 관련있다 성능 조정 및 기타 측면에서 하지만 Postgres 캡처를 사용하면 실제로 많은 좋은 견적을 얻을 수 있습니다 어떤 것들에 대해서, 지금 당장 매우 비싼 쿼리를 실행하고있을 수 있습니다

그걸 알아 내려고 그것은 pg_stats에 캡처됩니다 각 열에 대한 정보를 수집합니다 Postgres는 그것에 대해 생각합니다 이것을 보면 널 (Null) 부분을 알 수 있습니다

처음부터, 그것은 당신에게 명백한 가치의 수를 알려주고, 여기에는 고정 된 수의 고유 한 값이 있습니다 그래서 천을 말한다 때로는 비율을 알려주므로 말할 수 있습니다 오케이, 20 %의 테이블 분명한 가치의 숫자가 될 것입니다 때때로 이해하는 것이 유용합니다

가장 흥미로운 것들 나는 해키 스크립트를 써서, 가장 일반적인 값이며 가장 일반적인 빈도입니다 에 대한 견적을 위해, 좋아, 우리 10 대 고객, 당신은 실제로 그들로부터 좋은 견적을 찾을 것입니다 가장 일반적인 가치관에서 그렇게 말할 것입니다 알았어, 가장 일반적인 값은 다음과 같다 이 고객에 대해 가지고있는 행 수 대부분의 일반적인 주파수에서 말하자면 말입니다

그래서, 이것이 실제로 무엇을 말하는지, 가치 945에 대한 것입니다0017 데이터베이스의 행 수로, 특정 ID가 갖는 행 수입니다 그래서 당신은 그것을 위해 사용할 수 있습니다 근본적으로 근사하고, 당신이 알아 내고 싶다고 말하는 것처럼, 당신의 테이블이 있다고 가정 해 봅시다

네트워크 바이트와 당신이 알아 내고 싶어 어느 장치가 실제로 많은 양의 바이트를주고 있는지를 나타냅니다 가장 많은 양의 바이트를 방출하는 장치, 당신은 복잡한, 그것이 복잡하지 않더라도, 확실히 비싼 계정 별개의 쿼리입니다 그것을 알아 내기 위해, 나는 여기에 갈 것이다 Postgres에 상위 10 개 기기에 대한 통계가 있는지 확인하십시오 그리고 그걸 사용해서 알아낼 수 있습니다

알았어, 얼마나 많은 패킷이 방금 시스템을 통과했는지, 우물 Postgres는 그것을위한 견적을 가지고 있습니다 거친 공 공원을 줄 수 있어요 이것들은 당신이 할 수있는 것들입니다 2 천 1 백만 건, 345 천건 중 한 건의 결과, 너는 그들에게 실제로 말할 필요가 없다 정확한 숫자는 얼마입니까? 당신은 이것에 대해 많이 말할 수 있습니다

다른 유용한 통계는 얻을 수 있습니다 그 히스토그램 범위도 마찬가지입니다 특정 가정이 있다면 데이터가 어떻게 퍼져 나가야하는지 당신은 분명히 그것을 확인할 수 있습니다 내가 이것을 사용하는 근사값은 다음과 같습니다 특정 열의 널 비율은 얼마입니까? 대략적인 숫자는 무엇입니까? 한 값에 대해 고유 한 값이 있습니까? 당신은 카운트를 구별 할 필요가 없다는 것을 알았습니다

반드시 그것을 알아내는 것 너는 여기를보고 얻을 수있다 그것이 무엇인지에 대한 대략적인 아이디어 그리고 가장 일반적인 가치는 무엇입니까? 란을 위해 그 행을 가진 대략적인 수 근사치 이것은 내가 일반적으로하는 또 다른 것입니다

당신이 매우 큰 데이터베이스를 가지고있는 것처럼, Postgres는 카운트 스캔을 캐시하지 않습니다 그래서 사람들은 카운트 스타가 매우 기대하고 있습니다 저렴한 쿼리, 그것은 Postgres에 없습니다 실제로 전체 테이블을 스캔해야합니다 각 행을 계산합니다

그래서 나는 10 억 줄의 테이블을 가지고있을 때 그걸 좋아하지 않습니다 그래서 나는 이것에 가서 거친 공 공원을 얻는다 이 테이블은 얼마나 큰가요? 이 테이블에서 어떤 작업을 할 수 있습니까? 내가 알면, 너는 갈 수있어 pg_class라는 테이블이 있습니다 당신은 거기에 가서 진짜 튜플을 찾을 수 있습니다

Postgres의 추정치 얼마나 많은 튜플이 있는지 요약하면, Postgres는 꽤 많은 통계를 보여줍니다 이 강의에서 우리는 주로 다루었습니다 성능과 관련된 것들 어떤 종류의 장소를합니까? 성능 문제를 조사하고 싶습니다

마찬가지로 포인터는 무엇입니까? 그것은 당신을 깊게 파고들 것을 가르쳐줍니다 Pg_stat 테이블 일반적으로 어떤 색인을 찾을 수 있도록 도와줍니다 인덱스, 테이블에 대한 통계 IO 통계, 진공 통계 Pg_stat_statements는 느린 쿼리를 찾는 데 도움이되며, EXPLAIN ANALYZE를 사용하거나 사실 더 좋을 것입니다 EXPLAIN ANALYZE 버퍼가 어떤 종류의 IO인지 확인하십시오

그래서 그것은 얼마나 많은, 이 검색어와 마찬가지로 조회수 비율은 얼마입니까? 그 중 얼마나 많은 것들이 디스크를 통해 가져와야하는지, 그리고 마지막으로 pg_stats, pg_class를 사용할 수 있습니다 좋은 근사를 얻으려고 Postgres가 귀하의 데이터에 대해 어떻게 이해하는지 이해하십시오 나는 말할 마지막 한가지가있다 그래서 당신이 그 소식을 듣지 않았다면, Citus 데이터는 Microsoft에서 인수했습니다 그래서 우리는 실제로 작업하고 있습니다

Azure에서 Citus를 시작했습니다 관심있는 사람이 있으면 시터스를 보면서 Azure에서 사용할 수 있습니다 당신은이 링크에 가서 흥미를 표현할 수 있습니다 우리는 당신을 그 고리에 계속 묶을 것입니다 그리고 그게 내 이야기 ​​야

나는 2 초 남았고 그래서 제 시간에 맞았습니다 (군중 박수)

RailsConf 2018: Giving your Heroku App highly-available PostgreSQL by Jake Varghese

(테크노 음악) – 다들 제이크 제이크

Compose와 함께 있고 오늘은 이전 방법을 알려 드리겠습니다 IBM의 클라우드 HA PostgreSQL에 대한 Heroku 응용 프로그램 우리가 이야기하기 전에, 나는 이야기하고 싶다 실제로 고 가용성을 달성하는 방법에 대해 알아보십시오 우리가하는 일은 앱을 사용하는 것입니다

우리는 주지사라고 불렀습니다 주지사는 etcd의 위에 앉아있다, 이는 우리 유통 코디네이터입니다 Etcd는 두 개의 PostgreSQL 노드에 연결됩니다 리더 / 팔로어 포맷 Etcd가 리더이자 추종자 형식이며 우리는 벽 문자열 복제를 사용하여 노드를 동기화 상태로 유지합니다

두 노드 앞에 HA 프록시로드 밸런서가 있습니다 이로드 밸런서는 두 노드에 모두 연결됩니다 그리고 주지사에게, 어느 것이 지도자인지 알기 위해 그리고 어느 것이 추종자인지 노드에 변경이 발생하면 프록시가 유지합니다 새로운 리더가 나타날 때까지 요청

따라서 앱에서 오류 초과 사용량이 전혀 인식되지 않습니다 그것이 일어났다; 이것이 우리가 중단 시간을 제로로 유지하는 방법입니다 앱이 실제로 HA 프록시 노드에 연결됩니다 그래서 우리는 이것을 얼마 전에 오픈 소스에 공개했습니다 그리고 그것은 몇 번 갈래 왔습니다

최신 포크 중 하나가 Patroni입니다 Patroni는 주지사에게 Zookeeper 사용을 허용함으로써 주지사를 추가합니다 귀하의 유통 코디네이터로 영사를 임명하십시오 그리고 그것은 매우 안정적이고 아주 좋습니다 그리고 실제로 우리는 실제로 Patroni를 모든 PG 배포에 사용하십시오

이것이 바로 우리가 실제로 고 가용성을 얻는 방법입니다 따라서 우리가 이전하기 위해 만든 데모를 보여 드리겠습니다 내가 만든이 데모는 인공 지능 그것은 완전히 진짜이고 전혀 만들어지지 않았습니다 그리고이 지능이하는 일은 이미지를 찍을 것입니다 4 명의 스타 트랙 선장 포스터 중 하나에 붙여야합니다

그래서 당신의 이미지를 받아 거기에 넣습니다 그러면 어떻게 생겼는지 살펴 보겠습니다 그래서 나는 여기에 이미지를 업로드 할 것이다, 빵! 피카르드입니다 나는 Sisko 사람의 안에서 더 많다 그러나 이것은 그렇게 나쁘지 않다

저것은 방법 더 낫다; 나는 계속 지킬거야 그 하나는 내 벽지로 그리고 분명히 다른 두 명의 주장이 있습니다 커크, 내가 좋아하지 않는 사람 알았어

나는 헤어 라인을 좋아하지만, 훨씬 좋네요 그러나 우리는 Janeway에 간다 그리고 분명히 인공 지능은 비틀기를 필요로한다 이것이 우리 앱입니다 운 좋게 우리는 아무것도 할 필요가 없다

우리가 오늘 보여주고 자하는 것에 대한 인공 지능의 비틀기에 대해 오늘을 위해 우리는 프로덕션 캡틴 리의 데이터 우리의 구성된 클라우드 PostgreSQL에 그래서 우리가 그렇게 할거야 우리가 할 일은 당기는거야 Heroku에서 백업 및 캡처 그러니 계속 진행해보고 다운로드하면됩니다

다행히 오래 걸리지 않기를 바랍니다 – [청중 회원] 데이터베이스의 이미지입니까? – 전에 보여 줬던 멋진 이미지들? 아니, 그건 완전히 진짜야 인공 지능으로 확실하게 우리의 굉장한 디자이너 중 한 명이 아닙니다 자, 이제 우리는 여기에서 다운로드를 빠르게 진행할 것입니다 이제는 내보내기가 다운로드됩니다

그리고 PostgreSQL 설정으로 넘어갈 것입니다 세부 정보 페이지; 내가 진짜 빨리 거기에 가자 여기 PostgreSQL 배포에 대한 세부 정보 페이지가 있습니다 IBM Cloud에서 설정했습니다 다음은 연결 문자열입니다

내가 지적하고 싶은 한 가지는, 우리의 배치는 전체 서버와 함께 제공됩니다 따라서 원하는만큼 많은 데이터베이스를 배치 할 수 있습니다 우리는 모든 PG 배포를로드합니다 Compose라는 기본 데이터베이스가 있습니다 이것에는 몇 가지가 있습니다

귀하의 관리자처럼, 다른 것들도 있습니다 그리고 나는 Captainly staging을 이미 만들었습니다 및 Captainly 프로덕션 데이터베이스를 사용합니다 그래서 우리는 PG 복원을 사용하여 복원 할 것입니다 그래서 바로 여기에 표준 PG 복원이 있습니다

무주택자를위한 몇 가지 옵션 다음은 연결 문자열의 호스트입니다 우리의 모든 배치는 비표준 포트를 사용합니다 보안상의 이유로, 당신은 빼기 P 옵션을 사용합니다 그런 다음 사용자 이름으로 관리자를 갖게됩니다

Captainly staging으로 가져올거야 그리고 우리가 수입하고자하는 덤프 암호를 복사하여 붙여 넣기하겠습니다 그게 나 한테 물어볼거야 멋지다

그래서 지금 가져오고있다, 우리가 필요로 할 것이 하나있다 스테이징에서 우리가 떨어질 필요가있다 Heroku PostgreSQL 애드온 그 이유는 데이터베이스 밑줄 URL 구성 변수는 자동으로 생성됩니다 그것을 사용하는 애드온에 첨부됩니다

따라서 애드온으로 실제로 다시 구성 할 수는 없습니다 따라서 애드온을 제거해야합니다 그리고 우리는 그 사실을 빨리 제거 할 것입니다 좋아, 이제 두 번 확인해 보자 좋아, 그래서 데이터베이스 URL이 없어 졌어

이제 우리는 데이터베이스 URL을 설정할 수 있습니다 그리고 나서 모든 사람들은 내가 얼마나 잘못 입력했는지 알 수 있습니다 기본적으로 똑같은 연결 문자열을 사용합니다 우리가이 마지막 부분을 바꿀 거라는 걸 제외하고 Captainly Staging으로 가서 보자, 괜찮아, 여전히 데이터 처리가 거의 완료되었습니다 멋지다, 우리는 순서대로있다

이제 우리는이 문제를 해결할 수 있습니다 오, 나는 ST를 설정해야 해 멋지다 그래서 두 번 확인해 보자 좋아요, 그래서 데이터베이스가 이미 설정되었습니다

그럼 콘솔에 들어가 봅시다 연결이 제대로 작동하는지 확인하십시오 멋지다, 임포트가 끝났어 완벽한, 그래서 지금 우리는 데이터를 가지고, 모든 연결되어 있습니다 마지막으로 수표를 준비하면 Captainly Staging에 들어갈 것입니다

새로 고침을하면 오류가 발생하지 않도록하십시오 완전한 그래서 우리의 스테이징 테스트가 완료되었습니다 이제 우리가해야 할 모든 것입니다 물건을 생산에 끌어들입니다

우리가 이미 스테이징 한 이후로 꽤 쉬울 것입니다 우리가해야 할 일은 바로이 부분을 여기에서 바꾸는 것뿐입니다 생산에 가져 가서 그 수입을 암호를 얻어야 해 좋아요, 똑같은 일을 할게요 Captainly Production Heroku 인스턴스와 함께

그리고 우리는 제거 할 것입니다 좋아, 두 번 확인해 보자 알았어, 데이터베이스 URL이 없어 졌어 이제 우리는 그것을 설정할 수 있습니다 그리고 다시, 우리는 기본적으로 똑같은 것을 사용할 것입니다

우리는 빼기 전에 R을 우리는 이것을 생산으로 바꿀 것입니다 이제 콘솔을 실행 해 보겠습니다 우리가 얼마나 멀리 여기에 왔어? 아, 나쁘지 않아 이제 콘솔을 두 번 확인해 봅시다 완벽한, 그래서 지금 우리는 생산을 끌어 당겼다

이제 앱에서 한번 더 두 번 확인해 보겠습니다 그리고 그게 다야; 모든 데이터를 이전했습니다 새로운 배치; 그것이 우리가해야 할 전부입니다 – [청중 회원] 방법이 있을까요? 가동 중단없이 그렇게하려면? – 어떤 앱에 다운 타임이 없습니까? – [잠재 고객 회원] 이전 된 앱입니다 내가 큰 작품을 가지고있는 것처럼 – – 권리

config 변수 스위치를 사용해야합니다 그래서 당신에게 약간의 중단 시간을 줄거야 그러나 데이터베이스를 채우면서, 그 시점에서 전환 할 필요가 없습니다 모든 것이 완료 될 때까지 기다릴 수 있습니다 그런 다음 전환하십시오

큰 Heroku 앱이 얼마나 빨리 전환 될지 모르겠습니다 모든 구성 변수에 대해 모든 서버에 적용됩니다 무엇부터 중단 시간이 없어야합니다 나는 Heroku를 기억하지만, 나는 할 수 없다 – [청중 회원] 그럼 내가 할 수 있을까요? 프로덕션 환경에서 클라우드에 파일을 설정 하시겠습니까? 그 동안, 나는 새로운 데이터를 얻고있다

– 그래, 네가 할 수있어 우리 배포 중 하나를 동기화 할 수 있다고 생각합니다 다른 배치로 나는 그것을 두 번 확인해야 할 것이다 우리가 구성을 설정하는 방식 때문에, 그게 실제로 잘 작동하는지 모르겠다

하나는 지도자가 될 것이고 하나는 추종자가 될 것이기 때문에, 그 다음에 다른 지도자에게서 들어와, 모든 것을 버릴 수도 있습니다 그래서 그것에 대해 너무 확신하지 않습니다 하지만 부스에서 나를 때리면 나는 물을 수있다 우리가 거기에 도착했을 때 기술 녀석 중의 1 명 그래, 그래,이 일이 끝났어

그래서 수색은 어디서 볼 수 있니? 이 앱에서 지금 검색 할 항목이 없습니다 하지만 검색을 추가하고 싶다고합시다 슈퍼 간단한 경우, 난 그냥 스캔 것 PostgreSQL 테이블을 통해 그러나 그것보다 더 어려운 것이 있다면, 아마 내 자신의 인덱서를 원할거야 그리고 여기서 클라우드로 들어와 리소스를 만들 수 있습니다

그리고 탄력적 인 검색을 해 봅시다 그리고 우리는 미국 남부에 놓을 것입니다 늦은 것이 좋습니다 그런 다음 생성을 클릭하기 만하면됩니다 나는 지금 창조를 클릭하지 않을 것이다, 진짜 신축성있는 검색을 제공하고 싶지 않기 때문에

그러나 생성을 클릭하면 보일 것입니다 일단 그렇게되면 그리고 이것이 개요가 될 것입니다 탄력적 인 검색 배포, 연결 문자열이있는 ES 밑줄 URL 또는 신축성있는 검색 URL에 넣으려면, 앱의 설정 변수가 무엇이든간에 그리고 그래, 근본적으로 모든 것이 있습니다 앱을 이전하는 것; 그게 다야

그러니 더 이상 질문이 있으면 알려주세요 그래, 그거야, 그래서 우리는 후원을 한 이후로 매우 짧게 유지하려했습니다 우리는 단지 당신을 팔고 모든 것을 던지고 싶지 않습니다 그래서 우리는 당신에게 그것이 할 수있는 것을 보여 주기로 결정했습니다 그게 전부 야

좋아, 고마워! (wooshing과 땡땡이 치기)

Develop an intelligent analytics app with PostgreSQL | T149

안녕하세요 제 이름은 닐 쉼표입니다 저는 Azure의 매니저가 될 것입니다

팀에 가까워지고 오늘 나는 지능을 개발하는 방법에 대해 이야기 할 것입니다 애널리틱스 앱, Azure 데이터베이스 for Pushkar 속편 포르투갈의 속편에 대한 국가 데이터베이스는 무엇입니까? 아시다시피 Chris Equal이 가장 인기있는 오픈 소스 관계형 데이터베이스 인 Azure 데이터베이스입니다 Posca 속편은 당신이 당신의 무릎에 집중할 수있게 해주는 ****과 동등한 portikus와의 완벽한 관리 서비스를 제공합니다 그러나이 서비스는 몇 분 안에 프로비저닝 할 수 있으며 고 가용성을 제공합니다

몇 초 내에 성능을 즉시 확장 할 수 있습니다 백업 및 로그를 포함하여 데이터베이스의 데이터는 기본적으로 안전하고 암호화됩니다 둘 다 감정을 말했습니다 또한이 서비스는 최대 35 일간의 복구가 가능한 자동 Baker 백업을 제공합니다 커뮤니티 워크샵을 사용하여 얻은 것 중 가장 좋은 점은 기존의 드라이버 도구 라이브러리를 의미하는 Chris 후속편이 모두 원활하게 작동한다는 것입니다

후속편 서비스 이제는 오늘 앞에서 말했듯이 인텔리전트 앱을 만드는 방법에 대해 이야기 할 것입니다 그래서 여기에서 나는 지능형 재고 생산 앱을 개발하고 크리스의 천천히 천식 기록 시스템을 사용할 것입니다 데모의 아키텍처를 빠르게 살펴 보겠습니다 그래서 첫 번째

응용 프로그램은 트위터를 사용하려고합니다 트윗은 그 주식의 미래 가치가 다음날이 될지 예측합니다 그래서 작성된 응용 프로그램이고 그녀는 Anne을 날카롭게합니다 나는 Posca 속편을 위해 나의 Azure 데이타베이스에 가깝게 추적하고 그들의 짹짹 울리고 ingesting하고있는 최고 3000 명의 투자자를 선택하고있다 Anne 나는 오픈 소스 driverfor

net 응용 프로그램 인 Npt sequel 드라이버를 통해이 두 개의 먹거리를 섭취하고 있습니다 그런 다음 나는이 짹짹이를 Cortana 지능 감미료에 전달할 것입니다 각 트윗의 정서 점수를 계산합니다 또한 시장 최고가 볼륨 및 모든 해당 기록 데이터를 가지고있는 Google Finance 데이터를 섭취 할 것입니다 그리고 Posca 속편 데이터베이스에

이제는 훈련 할 기계 학습 알고리즘을 실행하려고합니다 이러한 모든 과거 데이터는 Google Finance에서 가져 왔으며 트윗에 대한 이전의 역사적인 정서 점수도 포함 된 내 예측 모델입니다 그리고 훈련 실험을 마친 후에 내가 좋아하는 모델을 선택하여 예측 모델로 삼을 것입니다 그

그런 다음 다음날 주식의 미래 가치를 예측하는 데 사용됩니다 그리고 파티를 통해 그 데이터를 시각화하기를 원합니다 이제 레코드의 중심 시스템으로 Postgres의 속편을 볼 수 있습니다 Cortana 인텔리전스, 스위트 또는 기계 학습 학습 스튜디오와 같은 다른 Ashur의 분석 서비스와 어떻게 통합 할 수 있는지 보여주고 그 부분을 시각화합니다 그러면 데모를보고 모두를 보자

사냥을하는 방법에 대한 다른 조각과 코드? 내가 어떻게 바느질을하고 작동하게 만드는지 이 악마에 대한 모든 권리, 나는 portikus 동등한 귀하의 데이터베이스로 기반 재고 분류 서버를 만들었습니다 서버 관리자 인 Stock TV 사용자의 서버 이름은 기본 100 개의 계산 단위로 생성됩니다 이제 Visual Studio 코드로 돌아가서 우리는 API의 트윗을 호출하는 Seashore 프로그램을 살펴 보겠습니다 2000 명의 투자자로부터 3000 개의 짹짹을 추출하기 위해, 그것은 말하고 있었다

가자 웹 페이지 관리자를 수정하여 결과를 시각화하십시오 그래서 여기에 왜 페이지 admin이 보입니까? 저는 주식 분류 데이터베이스에 연결되어 있습니다 즉, 테이블에 트윗에, 트위터 사용자와 지금 있습니다 내가 프로젝트하면 사용자 이름과 마지막으로 정리합니다

최악의 속편 데이터베이스에있는 3000 명의 투자자의 트윗을 모두 볼 수 있습니다 자, 어떻게 그런 일이 일어 났습니까? 기본적으로, 연결하여 나는 연결 문자열로 발작 프로그램을 갖는 것을 좋아합니다 그리고 트위터를 가져와 왜 속편 데이터베이스를 푸시하는지 당신이 볼 수 있듯이, 우리는 puschkin sequel 데이터베이스에 날카로운 응용 프로그램 인 the

net 응용 프로그램을 연결하기 위해 임피던스 동등 드라이버를 사용하고 있습니다 아무도 내 데이터베이스에 트윗을 추가했습니다 나는이 짹짹을 가져갈 것입니다 그리고 이것은 통과 할 sheesha 프로그램입니다 코르 타나 지능에 각각 2 개씩 달아서이 트윗 각각에 대한 감정 점수를 얻으십시오

이제 URL과 Cortana 지능형 연결 키입니다 Sweet 기본적으로 텍스트 분석 API를 호출합니다 이제 데이터베이스에 쿼리를 실행 해 봅니다 데이터베이스에는 수집 된 트윗 각각에 대한 정서 점수가 있습니다

이제 우리는 텍스트를 깔끔하게 만들어야한다는 것을 알 수 있습니다 그리고 해당 감정 점수는 텍스트 분석 API는 짹짹의 구문 분석을 기반으로 계산되었습니다 그리고 이것은 Essentia Lee가 속편 데이터베이스에 다시 연결하고 삽입하는 Seashore 프로그램입니다 각 거리에 대한 정서 점수

다음 촬영 프로그램은 다음과 같습니다 재고가 많은 저용량 등의 Google Finance 데이터를 다운로드하고 Portikus 속편 데이터베이스에 수집합니다 이미 데이터베이스에 수집 된 Google Finance 데이터를 Corey로 보겠습니다 이제 당신은 흔적이 있다는 것을 알 수 있습니다 공개 상, 옷 상

최우수상, 그날 거래 일 Google 금융 데이터 업계의 볼륨 및 모든 정보를 제공합니다 나는 속편 데이터베이스를 밀어 넣는다 이제 Google에서 다운로드 한이 역사적인 재무 데이터를 사용하고 Portikus 속편 데이터베이스와 정서 점수를 분류합니다

그리고 기계 학습 스튜디오를 호출하십시오 To Essentia Lee는 다음날 그 주식의 미래 가치를 예측합니다 그래서 이것은입니다 URL 및 Azure Machine Learning Studio Predictor 모델에 연결할 키를 입력하면 미래의 주가를 알 수 있습니다 당일 참석하십시오

어떻게 보이는지 보여 드리죠 다음 쿼리를 실행 중입니다 이제 다음날 Microsoft 주식에 대한 예측 가치는에 근거한 8447입니다 감정 점수 및이 기계 학습 모델이 사용한 역사적 재무 데이터 에

결과를 예측하십시오 자, 일단이 모든 일을 마쳤습니다 파티를 통해이 데이터를 시각화하려면 어떻게해야합니까? 그 일을 어떻게 진행하는지 보자 그렇다면 데스크톱을 어떻게 열어 놓을 것인가 그리고 내가해야 할 일은 데이터를 얻는 것뿐입니다

데이터베이스를 선택하십시오 내 portikus 데이터베이스를 선택하십시오 서버 이름을 입력하십시오 모든 모델을 다운로드하는 Slurs는 모델을 선택합니다 짐을 실은

좋아 값을 투영 해 봅시다 예상 상 필터도 추가됩니다 닭 이름에서 내가 선택할 수 있도록 여기에 모든 Twitter 이름이 표시됩니다

Microsoft 그리고 나는 예측을 본다 상 에 대한 주식

결국에는 다음에 예측 된 가치가 이제 시각화 중 하나를 사용하는 큰 프로젝트가 되었습니까? 유형은 당신이 무엇이든 무엇이든간에 막대 그래프 막대 차트입니다 이제 너는 방금 보았다 파스타 속편으로 지능형 앱을 개발하는 것이 현재의 Azure의 모든 기능을 통합 할 수있는 것보다 쉽습니다 이제 풍부한 응용 프로그램을 만들 수 있습니다

Postgres의 속편을 위해 Azure 데이터베이스를 다시 요약하면 다른 관리자들도 이점을 누릴 수 있습니다 마틴 또 다른 차 또는 마이너 버전 플러스의 문제 해결 또는 자동 패치 32 개 이상의 Portikus Equal 확장 기능으로 풍부한 응용 프로그램을 구축 할 수 있습니다 그리고 비록 내 응용 프로그램이나 지능 appusing

net 보여 주지만 당신은 하나의 수 있습니다 다운 언어 개발자는 Java Ruby High Tonic 세타를 없애거나 기존 프레임 워크를 사용할 수 있습니다 이제는 Azure 데이터베이스를 사용하여 원활하게 실행하거나 속편을 푸시 할 수 있습니다 그리고 너 얼마나 쉽고 풍부하게 Azure의 다른 서비스와도 통합되었습니다 끝으로 다음 양식 중 하나를 통해 저희와 함께하십시오

트위터에서 우리를 팔로우하면 MSDN에서 질문을 할 수 있습니다 스택 오버 플로우는 사용자 현명하고 우리 github에서 우리와 함께 할 수 있습니다 고맙습니다